|
|
|
怎样计算现代汉语句子的时间信息
[作者]陈振宇; 陈振宁;
[摘要]现代汉语句子的时间信息,是由句中的各个单位及其关系共同编码的,因此必须建立起整体的时间认知模型才能计算。包括三个方面:1 将时间性质分解为事件的基本阶段(起始、持续、终结)、事件的时段(确定时段、相对小量、相对大量)和认知窗口的时间基点等认知要素,对事件类型进行分类,在此基础上,构建有关时间的认知模型。2 对现代汉语句子中可能出现的每一单位和关系,用事件类型符号和时间要素符号进行翻译,所得的结果———该单位或关系的元语言表述式(翻译式)———表明了该单位或关系在编码时间信息时究竟表现什么意义。3 在认知模型中建立一个由规则驱动的运算系统,将元语言表述式化简为最简表述,它即是句子整体编码的时间信息。
[Abstract]The temporal information of a sentence in modern Chinese is represented jointly by the units and their relations of the sentence. Thus, an integral temporal cognitive model should be established in order to calculate the temporal information. It includes three procedures: First, it reduces the concept of temporal properties into the the cognitive constituents as the three fundamental phrases (i.e. the beginning, continuance, and end of an event), and categorizes the types of events. Based on them, the tempo...
[关键字]计算机应用; 中文信息处理; 现代汉语; 时间认知模型; 时间翻译式; 时间运算;
| 问答式检索技术及评测研究综述
[作者]吴友政; 赵军; 段湘煜; 徐波;
[摘要]问答式检索系统(简称问答系统)是集自然语言处理技术和信息检索技术于一身的新一代搜索引擎。它的出现旨在提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。经过这几年的发展,问答系统已经成为自然语言处理领域和信息检索领域的一个重要分支和新兴的研究热点,其“通过系统化、大规模地定量评测推动研究向前发展”的发展轨迹,以及某些成功的启示,如基于字符表层的文本分析技术(模板技术)的有效性,快速、浅层自然语言处理技术的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾问答系统研究的历史,总结问答技术的研究现状,将有助于这方面工作向前发展。
[Abstract]Question Answering (QA) is the next generation of search engine which is related to natural language processing, information retrieval and etc. QA aims at providing more powerful information access tools to help users overcome the problem of information overloading. In the last decade, QA has become an important subfield of NLP and IR. Its development track, i.e. accelerating research via systematical and large scale evaluation, and some successful experiences, such as the effectiveness of partial-parsing t...
[关键字]人工智能; 自然语言处理; 综述; 问答系统; 问答评测; 信息抽取; 信息检索;
| 基于Ontology的信息检索技术研究
[作者]陈康; 武港山;
[摘要]随着Web的迅速发展 ,网上信息资源越来越丰富 ,网络已经成为了一个全球最大的信息库。而用户要从中得到所需的信息一般是通过各种信息检索工具。但是现有的信息检索工具都存在着检索精度不高等问题。本文针对这些问题 ,提出了将Ontology融合到信息检索技术中的思路。利用Ontology中拥有的领域知识 ,可以大大提高检索系统对自然语言文本的理解能力 ,同时方便用户以自然语言的方式提出检索请求 ,从而提高检索的效果。
[Abstract]Along with the rapid development of Web, the information resources in the web are becoming more and more abundant. People get information from Web mainly by search tools, but always puzzled by the precision of them. To solving this problem, we adopted domain Ontology in our information retrieval system. By using of the domain knowledge in Ontology, retrieval system could improve semantic understanding of retrieved documents, and give the chance to user to put their information request in more nature way (mo...
[关键字]人工智能; 自然语言处理; 信息检索; Ontology; 自然语言理解;
| 利用虚拟站点定位技术的网络信息检索研究
[作者]刘奕群; 张敏; 马少平;
[摘要]虚拟组织是网格体系结构中的基本组织单元 ,借鉴网格研究中对虚拟组织的特性分析 ,可以在网络信息检索研究中定义虚拟站点的概念。实验发现 ,虚拟站点入口页面是网络信息环境中具有较高质量的一个网页集合 :实验表明 ,仅为全部页面数量 2 1%的此类页面就涵盖了 70 %以上的超链接 ,对这个集合进行的内容检索也比对网页全集的检索有超过 6 0 %的性能提高。这提供了一种在减少索引规模前提下提高网络信息检索性能的解决方案。
[Abstract]Virtual Organization (VO) is a basic concept in grid architecture. Analysis in the link structure of Web pages showed that there exist similar organizations in internet which were called Virtual Sites. Many features of virtual organizations could be founded in virtual sites, especially some non-content features, which were further used to select entry pages of Virtual Sites. This subset of Virtual Site entry pages proved to be qualified both in content and link structure analysis. Although this entry page s...
[关键字]计算机应用; 中文信息处理; 网络信息检索; 非内容特征; 虚拟组织;
| 词性标注对信息检索系统性能的影响
[作者]苏祺; 昝红英; 胡景贺; 项锟;
[摘要]在信息检索中引入NLP技术是信息检索发展的主要趋势 ,本文将NLP中较为成熟的词性标注技术加入信息检索 ,采用大规模TREC数据集 ,试图发现词性标注对检索系统性能的影响。笔者在SMART检索系统上使用不同标注集、不同索引项权重进行了检索实验。实验表明 ,在信息检索中加入词性标注信息可能会对某些特定Topic和Document的检索效果有所改进 ,但词性标注的影响能力弱于索引项权重选择的影响能力。词性标注对检索性能的影响涉及到Topic和Document中的具体用词 ,普遍规律有待进一步研究。
[Abstract]NLP technology combined with information retrieval has become mainstream in the IR field.In this article,the authors combine POS tagging with IR,in an attempt to find the effects of POS tagging on the performance of IR systems.Using the SMART system,the authors performed experiments with different tagsets and different term vector weighting schemes.According to the experiments,we found that retrieval performance using tags improved in certain topics and documents.The effects,however,are inferior to the assi...
[关键字]人工智能; 自然语言处理; 信息检索; 向量空间模型; 词性标注; SMART;
| 基于粗糙集的文本分类方法研究
[作者]卢娇丽; 郑家恒;
[摘要]本文旨在利用粗糙集优越的约简理论对文本进行分类。主要完成了以下几个方面的任务 :对文本进行了预处理 ;改进了Okapi权重计算公式 ,并对权值进行了离散化 ;实现了属性约简和规则抽取 ,首先利用区分矩阵对特征向量维数进行了初次压缩 ,然后通过相对约简计算再次压缩了特征向量维数 ,并生成了决策规则 ;采取了规则合成的策略 ,生成最终的决策规则 ;设计了一种文本与规则的匹配算法 ,使匹配过程尽可能简单有序。试验结果表明该方法是行之有效的。
[Abstract]This paper is to fulfill text categorization tasks by using the perfect reduction theory of rough set. It mainly finished the following several jobs. Pretreated the documents. Improved the Okapi term weighting formula. It also separated the term weighting and completed attributes reduction and rules extraction tasks. Firstly it reduced the feature vector dimensions by using discernible matrix. Then reduced it again by computing relative reductions. Finally it produced the decision rules and employed the rul...
[关键字]人工智能; 自然语言处理; 文本分类; 粗糙集; 决策规则;
| 一种自举的二元关系和二元关系模式获取方法
[作者]姜吉发; 王树西;
[摘要]本文提出一种自举的二元关系和二元关系模式获取方法BRPAM ,并根据该法设计了一个能够从自由文本中进行二元关系抽取的IE系统BRPAM2Texts。将BRPAM2Texts用于从自由文本中抽取〈组织、组织总部所在地〉类二元关系的实验表明 ,BRPAM2Texts能够根据用户初始给出的几个种子二元关系从一个大的自由文本集合中抽取出更多的二元关系 ,而且有较高的抽全率和抽准率。
[Abstract]This paper provides a method BRPAM for the acquisition of bi relations and bi relation patterns from free texts and its implementation BRPAM2Texts. The test done using BRPAM2Texts to extract bi relations of 〈organization, headquarter location of organization〉 indicates BRPAM can acquire more same class bi relations from a large free text set based on a few seed bi relations given by users initially, and the precision/recall of bi relation extraction using this method is comparatively high.
[关键字]人工智能; 自然语言处理; 信息抽取; 二元关系; 模式获取;
| 基于语料库的字母词语自动提取研究
[作者]郑泽之; 张普; 杨建国;
[摘要]目前 ,很多最新的术语和专有名词 ,首先以字母词语的形式出现在汉语中 ,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词 ,其正确识别 ,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上 ,分析了字母词语组成情况的复杂特征和自动识别的难点 ,结合字母词语的各种统计特征和其独有的特点———字母串“锚点” ,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单 ,但有效。召回率为 10 0 % ,准确率在 80 %以上。
[Abstract]Nowadays, more and more lettered words are used in Chinese texts, most of which are new terms or proper nouns. And this may become a trend quite obvious to us. Usually, lettered words are unknown phrases or words in automatic Chinese segmentation. Based on the observation of lettered words in our Chinese corpus, the correct identification of them will improve the quality of Chinese segmentation, information retrieval, searching technology, machine translation, etc. This paper analyzes the complex feature...
[关键字]人工智能; 自然语言处理; 字母词语; 自动提取;
| 基于Bootstrapping的文本分类模型
[作者]陈文亮; 朱慕华; 朱靖波; 姚天顺;
[摘要]本文提出一种基于Bootstrapping的文本分类模型 ,该模型采用最大熵模型作为分类器 ,从少量的种子集出发 ,自动学习更多的文本作为新的种子样本 ,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明 ,在相同的手工训练语料的条件下 ,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势 ,仅使用每类10 0篇种子训练集 ,分类结果的F1值为 70 5 6 % ,比传统模型高出 4 70 %。该模型通过使用适当的权重因子可以更好改善分类器的训练效果。
[Abstract]This paper proposes a semi supervised text categorization using bootstrapping. The System uses the Maximum Entropy Model as the text classifier. It learns more automatic labeled samples as new seed training samples from unlabeled samples using a small size of seed training samples. In this paper, we use a weighted factor to adjust the weight of new seed samples during the following training process. The experimental results show that the proposed system performs better than the conventional system with the...
[关键字]计算机应用; 中文信息处理; 文本分类; 最大熵模型; 权重因子;
| 一种新的句子相似度度量及其在文本自动摘要中的应用
[作者]张奇; 黄萱菁; 吴立德;
[摘要]本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的 ,利用句子间相似度以及句子的权重的抽句式文摘算法 ,在抽取出句子的同时也去掉了冗余。DUC2 0 0 3、DUC2 0 0 4 (DocumentUnderstandingConference 2 0 0 3,2 0 0 4 )的评测结果征明了方法的有效性。我们的系统在DUC2 0 0 4的评测中列第二位。
[Abstract]This paper introduces a new method for calculating similarity between sentences.The algorithm uses not only uni gram but also bi gram and tri gram to calculate similarity.The algorithm is based on regression methods. Experimentations show that the method effective.The final summarization result is better than the algorithm that does not use it.We also propose a new summarization algorithm based on sentences weight and the new sentence similarity calculating method.While extracting the most important sen...
[关键字]计算机应用; 中文信息处理; 文本自动摘要; 向量模型; 相似度计算;
|
共95页 当前第14页 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
|