|
|
|
基于本体的跨语言信息检索模型
[作者]王进; 陈恩红; 张振亚; 王煦法;
[摘要]随着网络信息的日益丰富和用户需求的提高 ,人们已经不能满足于仅仅在同一语种中进行检索 ,跨语言的信息检索 (CLIR)因而受到人们越来越多的关注。为此 ,本文提出了一种新的基于语义的跨语言信息检索模型Onto CLIR ,该模型在传统信息检索技术的基础上 ,利用本体来刻画不同语言中对应的领域知识 ,以解决从查询语言到检索语言之间转换过程中出现的语义损失和曲解等问题 ,从而保证在检索过程中能够有效地遵循用户的查询意图 ,获得预期的检索信息。本文以体育新闻检索为背景 ,以英文查询作为查询请求 ,检索来自新浪网的体育类新闻 ,结果表明采用基于本体的跨语言信息检索方法之后检索的查全率和查准率平均提高 10个百分点左右 ,有效地改善了检索性能。
[Abstract]With the enrichment of network information and the improvement of the user's needs, people are not satisfied with retrieving in the same kind of language. So Cross Language Information Retrieval (CLIR) receives people's more and more concerns. One of kernel problem of CLIR is how to overcome communication obstacles between different languages. This paper proposes a novel semantic based CLIR model Onto CLIR. The model, basing on the technologies of traditional information retrieval, uses Ontology to descr...
[关键字]计算机应用; 中文信息处理; 本体; 跨语言信息检索; 语义;
| 面向多语言的机器翻译支撑环境设计与实现
[作者]魏勇鹏; 陈群秀;
[摘要]在日汉机器翻译系统由DOS移植到Windows环境后 ,针对进一步扩充资源和调试开发过程中遇到的词典管理不便、工具使用麻烦、翻译及编辑界面不友好、日志维护不完善等问题 ,我们开发了面向多语言的机器翻译支撑环境子系统。该子系统实现了词典资源管理、翻译界面、开发工具集成、系统日志维护等功能 ,在编码上兼容Unicode ,在调用原系统翻译功能和开发工具时使用动态链接库技术 ,以期成为一个面向多语言的、可为不同机器翻译系统所用的开发调试支撑环境。
[Abstract]Our Japanese Chinese machine translation system has been transplanted from DOS to Windows system. During enlarging the resource scale and further developing, we find it still has some inconvenience. Such includes: the inconvenience of dictionaries management, the complexity of using developing tools, the unfriendliness of translation interface, the faultiness of logs maintenance. To solve these problems, we design this Multi language oriented machine translation support environment subsystem. This subsys...
[关键字]人工智能; 机器翻译; 支撑环境; 多语言;
| 中文文本分类中的特征选择研究
[作者]周茜; 赵明生; 扈旻;
[摘要]本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%~ 5 %左右。
[Abstract]This paper introduces and compares eight feature selection methods in text categorization. Among the eight methods, Multi Class Odds Ratio(MC OR), a variant of Odds Ratio which is often used in binary classification, and a new feature selection method based on Class Discriminating Words(CDW) are proposed. Combined with the classic VSM classifier based on cosine similarity and the Nave Bayes classifier, training and test are carried out on two text sets with different class distribution. As the results i...
[关键字]计算机应用; 中文信息处理; 文本分类; 特征选择; 类别区分词;
| 基于网络的中文问答系统及信息抽取算法研究
[作者]崔桓; 蔡东风; 苗雪雷;
[摘要]问答系统 (QuestionAnsweringSystem)能用准确、简洁的答案回答用户用自然语言提出的问题。目前多数问答系统利用大规模文本作为抽取答案的知识库 ,而网络上丰富的资源为问答系统提供了另外一种良好的知识来源 ,对于回答简短、基于事实的问题非常有效。本文对基于网络的问答系统研究现状作了简要的介绍 ,分析了网络信息的特点。我们提出了一种基于语句相似度计算的答案抽取方法 ,在此基础上实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源 ,从而节省了下载、分析网络源文本的时间。实验结果表明该系统对人名、数量及时间类型的问题效果显著 ,对测试问题集的MRR值达到 0 5 1。
[Abstract]Question Answering System can give users precise answer to the question presented in natural language. Currently, most of question answering systems use large scaled corpus as knowledge base to extract answer. However, the abundant web resource provides another ideal knowledge source for question answering system. The research result shows that using web resource as the information source for question answering system can get good performance for simple and factoid based questions. This paper presents an a...
[关键字]计算机应用; 中文信息处理; 问答系统; 句子相似度; 信息抽取;
| 面向信息处理的语境形式化研究
[作者]李德华; 刘根辉;
[摘要]在自然语言处理研究领域中 ,句法研究已经取得了可喜的进展 ,语义研究也日益受到重视。但要真正实现计算机理解自然语言的目标 ,还必须进一步深入开展语用分析研究 ,目前还很少有这方面的研究成果。语境是语用学研究中的重要内容 ,本文首先讨论了现代语言学关于语境的定义 ,对计算语言学中的语境作了科学的界定 ,然后给出了语境及其相关概念的形式定义 ,并结合汉语实例进行了分析。最后指出“计算语用学”这一计算语言学领域中的新兴学科将大有可为。
[Abstract]One of the key issues in Natural Language Understanding (NLU) is which one of the meanings of a polysemous word or a multi meaning sentence should be chosen. To deal with this problem, we should concern about not only disambiguation of word, but also of sentence and discourse. Former studies on context are just limited in modern linguistics, but not applied in NLU. Our research aims at constructing the theory of context based NLU. Because context is one of the most important factors in pragmatics, we firs...
[关键字]人工智能; 自然语言处理; 语境; 语境形式化; 计算语用学;
| 对偶性概念的HNC阐释
[作者]李颖; 池毓焕;
[摘要]本文首先从计算语言学的角度对传统语义学和古典哲学进行了反思 ,提出了对偶性概念思想 ,并指出 ,区分两类对偶 (黑氏对偶与非黑氏对偶 )对自然语言处理中揭示概念之间关联性有重要意义 ;然后对两类对偶的内涵分别进行了范定 ,特别是非黑氏对偶的 12种子类给出了详细的定义 ;接着从语言概念空间和对偶空间的相互映射中 ,说明了对偶性概念在HNC概念基元表示中的地位。这些多侧面多角度的对偶性概念阐释 ,有利于对偶性概念在自然语言处理中的应用
[Abstract]Based on the reflection of the studies of traditional semantics and classical philosophy, a brand new thought about antithesis was brought forth. The main points include: the law about the unity of opposites proposed by philosopher Hegel couldn't be directly applied in the processing of concepts and somehow re categorization of antithesis is necessary. HNC Theory founded by Prof. Huang Zeng yang proposes that antithesis be classified into two types, that is, Hegel Antithesis and Non Hegel Antithesis. ...
[关键字]人工智能; 自然语言处理; HNC理论; 黑氏对偶; 非黑氏对偶;
| 基于知识图的汉语基本名词短语分析模型
[作者]张瑞霞; 张蕾;
[摘要]本文提出了一种基于知识图的汉语baseNP分析模型。它以知识图为知识表示方法 ,利用《知网》为语义知识资源 ,采用以语义为主、语法为辅的策略 ,先为短语中的每一个实词构造“词图” ,然后合并“词图”而组成“短语图” ,最后得到一个关于汉语baseNP结构信息和语义信息的知识图。因此它不仅分析了汉语ba seNP结构的内部句法关系 ,而且分析了汉语baseNP结构成分间的语义关系并以知识图的形式表示出了这种语义关系。实验结果表明这个模型对于汉语baseNP的分析是有效的。
[Abstract]This paper puts forward a model for Chinese baseNP analysis based on knowledge graphs. By using knowledge graphs as the method for knowledge representation and imposing HowNet as the semantic knowledge resource and utilizing the strategy which uses the semantic information primarily and the syntactic information secondarily, the model firstly creates a word graph for every substantive in the Chinese baseNP, then it merges word graphs as a chunk graph, at last it obtains a chunk graph about the structural in...
[关键字]人工智能; 自然语言处理; 知识图; 知网; 基本名词短语;
| 嵌入式汉语TTS系统的设计与实现
[作者]刘涛; 叶振兴; 蔡莲红;
[摘要]针对手持设备和PDA存储量较小的特点 ,本文提出了基于音节基频包络特征、采用k中心点算法聚类裁减音库容量的方法。聚类结果的听辩实验和统计分析表明此算法可以保证聚类内部音节样本的相似性及类间样本的相异性。经过对汉语可选合成基元的分析 ,系统中首次引入声韵母半音节与音节作为混合基元 ,构造了基于混合基元的音库。经过对样本集分别聚类裁减 ,进一步压缩了音库容量 ,并在PDA平台上实现了嵌入式TTS系统。
[Abstract]Aiming at handset devices with small memory, we employ k medoids algorithm with pitch contour as the feature to reduce the size of the speech corpus of the current Chinese TTS system. The result of objective evaluation and statistic analysis shows that the similarities of the samples in a same cluster and the dissimilarities in different clusters can be guaranteed. In this system, hybrid units composed of the semi syllable units of initial and final and the conventional syllable units are used to construc...
[关键字]计算机应用; 中文信息处理; 嵌入式; 汉语语音合成系统; 音节聚类; 混合基元;
| 说话人自适应训练方法在连续语音识别中的应用
[作者]罗骏; 欧智坚; 王作英;
[摘要]自适应技术在近年来得到越来越多的重视 ,其中应用广泛的包括MAP、MLLR ,该技术利用少量特定人数据就可以调整码本 ,快速地提升识别性能 ,它要求原始的码本有很好的说话人无关性。本文介绍了结合MLLR自适应的说话人自适应训练 (SpeakerAdaptiveTraining ,以下简称SAT)算法 ,这种方法将每个说话人码本视为说话人无关码本经过线性变换的结果 ,在此基础上训练的说话人无关码本更有效剔除了说话人相关信息 ,因此在说话人自适应中时能根据特定数据调整更好地逼近说话人特性 ,从而有更好的性能表现。
[Abstract]More and more attentions have been paid on speaker adaptation in recent speech recognition research, especially on widely used MAP and MLLR. These techniques apply to fast codebook adjustment when only limited amount of training data is available, and they demand original model to be speaker independent. This article introduces MLLR integrated Speaker Adaptive Training (SAT) method, which regards every individual's codebook as the result of linear transformation of speaker independent codebook and trains sp...
[关键字]计算机应用; 中文信息处理; 自适应; MLLR; SAT;
| 一种手写体大写金额串的分割新方法
[作者]陈强; 吕俊洋; 夏德深;
[摘要]手写体大写金额串的分割将直接影响识别的准确率。为了提高分割的准确率 ,同时保证较快的分割速度 ,本文采用了由粗分割和细分割组成的两步分割方法。重点介绍交叉字符和相连字符的分割方法。对于交叉的字符提出了加窗处理的中点连线分割方法 ,它较其它方法具有简单准确的优点 ;对于单笔相连的字符 ,先在细化字符图象上找到候选笔划的候选分割点 ,然后用本文提出的简明的评价准则来确定最优分割点 ,提高了粗分割的精度。上述方法应用于银行支票手写体大写金额的分割 ,取得了很好的分割效果。
[Abstract]The segmentation of handwritten Chinese amount strings has direct influence of the accurate rate of the recognition. In this paper, a two-stage approach consisting of coarse and fine segmentation is adopted. It can increase the accuracy of the segmentation and has good segmentation speed. For the characters, whose vertical projections combine together, but they don't connected themselves, we confine them in a window and segment them with a curve line which is acquired by connecting all the middle points in ...
[关键字]人工智能; 模式识别; 手写体大写金额串; 字符分割; 最优分割路径;
|
共95页 当前第21页 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
|