《中文信息学报》第三届编辑委员会
[作者]
[摘要]
[Abstract]
[关键字]中文信息;
|
机器翻译评测的新进展
[作者]张剑; 吴际; 周明;
[摘要]机器翻译评测对机器翻译的研究和开发具有至关重要的作用 ,对其的研究一直是国内外机器翻译界的重点课题。本文首先全面地介绍了最近出现的而且受到极大关注的机器翻译评测技术 ,即IBM公司的BLEU机器翻译评测标准和NIST采用的机器翻译评测技术。实验表明 ,自动翻译评测技术能够接近人工评价 ,评测结果也是可接受的。因此 ,采用自动翻译评测技术能够给自然语言处理的研究人员和开发人员带来很大的便利性。本文还展示了一个开放式的可扩展的自动翻译评测的平台 ,完全实现了BLEU和NIST评测标准 ,并做出了一定的改进使得该系统具有良好的使用性和可扩展性
[Abstract]Evaluation plays a critical role in the machine translation. The research of automatic machine translation evaluation is an urgent need for the natural language processing researchers and developers. This paper briefly describes the background of evaluation of machine translation and two important technology of automatic evaluation: BLEU and NIST metrics. Then, we presents some improvements for these metrics by the ideas from text retrieval, which is called TFIDF weighted metric. This method avoids the sho...
[关键字]人工智能; 机器翻译; 自动评测;
|
基于智能技术的远程教育答疑系统研究
[作者]高光来; 王玉峰;
[摘要]网上答疑系统是现代远程教育系统中不可缺少的一部分 ,然而当前的答疑系统只是根据用户的输入对题库中的问题进行简单的关键词匹配 ,查询精度和用户界面满足不了用户的需求。针对以上缺点 ,本文给出一个应用语义网络原理构筑起来的智能答疑系统。文章分析了建立智能答疑系统的必要性 ,由此提出了一个基于限定领域的智能答疑系统模型及其技术路线 ,并以两门大学计算机课程作为知识库来源 ,实现了系统的功能。试验结果表明 ,本文所提出的方法有效地提高了查询精度 ,用户界面友好方便
[Abstract]Tutoring system is very important to Web-based education. The current tutoring systems only matches the keywords of the questions in the question-database according to users' inputs, so the query precision and user interface can't meet the user's needs. To solve this problem, this paper presents an agent-based intelligent tutoring system by applying the semantic-net principle. The necessity of establishing an intelligent tutoring system is discussed and the tutoring model and its technical route based on th...
[关键字]计算机应用; 中文信息处理; 智能答疑; 智能体; 语义网络; 数据挖掘; 远程教育; 导航器;
|
汉语术语定义的结构分析和提取
[作者]张艳; 宗成庆; 徐波;
[摘要]本文介绍的工作是在汉语句法分析研究基础上的一种应用研究 ,对术语如何下定义问题进行了理论上的探讨。术语的定义形式在汉语语法结构方面提供了模板结构和构成方式 ,可以作为知识发现研究的数据基础 ,也可以作为特定领域的语法知识系统。本文针对电子学和计算机领域的语料进行了分词和词性标注处理 ,然后应用句法分析工具分析出句子中的短语成分 ,并根据汉语句子的句型结构 ,总结出术语定义的结构特点 ,自动提取定义的模板。最后根据已建立的数据和概念描述 ,给出了术语发现的算法
[Abstract]The work presented in this paper is a kind of application based on Chinese syntactic parsing. It is theoretic discussion to define term names. The definition of terms provides patterns and structures for term concepts and is the data basis of knowledge discovery. The structures of term definitions also can be a grammar knowledge system in special domain. In this paper, the corpora of electronics and computer domain are firstly segmented and tagged with part of speech. Then two parsers are applied to obtai...
[关键字]计算机应用; 中文信息处理; 句法分析; 知识发现; 术语定义;
|
汉语语句的自动改写
[作者]张玉洁; 山本和英;
[摘要]在基于转换方式的口语机器翻译中 ,口语的多样性和不规则性加重了转换模块的处理负担。另外 ,由于缺少双语语料库和懂双语的语言学家 ,使得翻译知识的开发很困难或成本很高。为了解决这些问题 ,我们提出了在翻译前对源语言的语句进行自动改写的方法 ,试图通过加强源语言的处理来分散转换模块的负担。本文介绍了汉日口语机器翻译系统中汉语语句改写模块的开发。作者在分析了口语句子的改写目标后 ,提出了基于模板匹配的改写方法和从改写语料库中获取改写模板的半自动化方法。作者还介绍了改写模块的设计与实现 ,以及评价试验和结果。
[Abstract]One of the key issues in spoken language translation is how to deal with unrestricted expressions in spontaneous utterances. This research is centered on the development of a Chinese paraphraser that automatically paraphrases utterances prior to transfer in Chinese Japanese spoken language translation. In this paper, a pattern matching approach to paraphrasing is proposed for which only morphological analysis is required. In addition, a pattern construction method is described through which paraphrasing p...
[关键字]人工智能; 机器翻译; 语句改写; 汉语口语; 模板匹配; 语句改写语料库;
|
基于目标驱动的多层MLLR自适应算法
[作者]穆向禹; 贾磊; 张树武; 徐波;
[摘要]本文在对语音识别中基于自适应回归树的极大似然线性变换 (MLLR)模型自适应算法深刻分析的基础上 ,提出了一种基于目标驱动的多层MLLR自适应 (TMLLR)算法。这种算法基于目标驱动的原则 ,引入反馈机制 ,根据目标函数似然概率的增加来动态决定MLLR变换的变换类 ,大大提高了系统的识别率。并且由于这种算法的特殊多层结构 ,减少了许多中间的冗余计算 ,算法在具有较高的自适应精度的同时还具有较快的自适应速度。在有监督自适应实验中 ,经过此算法自适应后的系统识别率比基于自适应回归树的MLLR算法自适应后系统的误识率降低了 10 % ,自适应速度也比基于自适应回归树的MLLR算法快近一倍。
[Abstract]In this paper, a new algorithm called Target Driven based multiple layer maximum likelihood linear regression (TMLLR) is proposed for model adaptation in speech recognition. The algorithm can be regarded as the improvement of maximum likelihood linear regression (MLLR) using the generation of regression class trees for model adaptation. Different from conventional MLLR, the regression classes of TMLLR are generated dynamically based on increment of target function and a multi layer feedback mechanism. Be...
[关键字]计算机应用; 中文信息处理; 语音识别; 模型自适应; 自适应回归树; 极大似然线性变换;
|
多字体印刷藏文字符识别
[作者]王华; 丁晓青;
[摘要]藏文字符识别系统是中文多文种信息处理系统的重要组成部分 ,但至今国内外的研究基本处于空白。本文提出了一种基于统计模式识别的多字体印刷藏文字符识别方法 :从字符轮廓中抽取方向线素特征 ,利用线性鉴别分析 (LDA)压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的两级分类策略 ,设计了带偏差欧氏距离分类器 (EDD)完成高效的粗分类 ,细分类采用修正二次鉴别函数 (MQDF)。通过实验选取恰当的分类器参数后 ,在容量为 177,6 0 0字符 (30 0样本 /字符类 )的测试集上的识别率达到 99.79% ,证明了该方法的有效性
[Abstract]Tibetan character recognition is a significant module of Chinese multi language information processing system,however hardly any research work has been undertaken yet. A comprehensive method based on statistical pattern recognition approach for multi font printed Tibetan character recognition is proposed. Firstly, directional line element features are extracted from the contour of input character. After feature dimension reduction by Linear Dircriminant Analysis (LDA) to formulate compact feature vector, ...
[关键字]人工智能; 模式识别; 藏文字符识别; 方向线素特征; 线性鉴别分析; 带偏差欧氏距离; 修正二次鉴别函数;
|
从汉语格关系表示生成日语
[作者]戴新宇; 陈家骏; 王启祥;
[摘要]本文介绍了一个基于转换翻译的汉日机器翻译系统中日语生成子系统的设计和实现。文章首先描述了一种基于格关系的汉语依存分析树 ,分析树结点记录语法语义以及格关系信息 ;然后 ,针对日语的特征 ,分析了日语生成中的主要问题 ,包括译词选择、用言活用形确定、助词添加等 ;给出基于规则的日语生成系统的组织结构 ,重点介绍生成规则系统的设计和实现。最后 ,给出规则描述的实例以及翻译实例 ,提出进一步改进本系统的初步想法
[Abstract]This paper presents a Japanese generation sub system, which is used in a transfer based Chinese Japanese machine translation system. The Chinese parsing tree is introduced first. It is a dependency tree based on the case grammar. Syntactic, semantic and case information are combined into the nodes on the tree. Then, according to the characters of Japanese, we discuss some difficult issues in the process of Japanese generation, such as Japanese word selection, word inflection and accompany particles gener...
[关键字]人工智能; 机器翻译; 格语法; 汉语分析; 日语生成;
|
基于事件框架的事件相关文档的智能检索研究
[作者]吴平博; 陈群秀; 马亮;
[摘要]在事件相关文档的检索中 ,事件主题的迁移和分化与相似事件的干扰是影响系统性能的两个主要因素。本文提出了一种基于事件框架知识和事件主体信息的检索方法。该方法对事件相关评价函数进行了的改进 :首先 ,从事件语料中提炼出事件的框架知识、从事件文档中挖掘出表达事件主体的信息 ,然后将这些知识和信息进行向量化 ,最后利用向量化的结果对相关度评价函数进行优化。实验结果表明该方法是有效的 ,明显提高了事件相关文档的检索性能。
[Abstract]It is differentiation and transference of the event topic and interference from other similar event that restrict ability of retrieval system in retrieval of event relevant documents. The paper presents a retrieval method based on event frame knowledge and event body information. In the method the evaluation function on event relevancy is modified. Firstly frame knowledge is gathered from event corpus, and event body information is collected from event documents; then those knowledge and information are con...
[关键字]计算机应用; 中文信息处理; 智能检索; 事件相关文档; 事件框架; 事件主体;
|
名人网页的相关度评价
[作者]昝红英; 苏玉梅; 孙斌; 俞士汶;
[摘要]本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了中文名人网页相关度评价的因素、算法和相应的检索结果。针对目前搜索引擎服务的不足之处,该工作旨在改进网上信息服务的质量,提高个性化网上信息服务的能力。本系统在北京大学天网搜索引擎的基础上,利用自然语言处理、特别是中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果排序的合理性,提高了名人网页检索服务的质量。
[Abstract]This paper introduced the design and implementation of Tianwang Fame System. It mainly discussed on the factors and algorithms that affect matching of a named entity with Chinese webpages' relevance evaluation on the celebrities. Aiming at shortages of the current Search Engines, the project is to improve the quality of the web information services, and to enhance the ability of the personalizing services. Based on the Tianwang Search Engine of Peking University, the Fame System adopted new techniques in Na...
[关键字]计算机应用; 中文信息处理; 相关度; 检索服务; 信息提取; 特征信息;
|
共95页 当前第25页