[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2003年第1期)
基于双语语料的单个源语词汇和目标语多词单元的对齐
[作者]陈博兴; 杜利民;

[摘要]多词单元包括固定搭配、多词习语和多词术语等。本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法 ,算法一方面通过计算对应于同一个源语词汇 ,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元 ,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度 ,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题。另外 ,对短语翻译词典的分级 ,有效地减少了高级别词典中非正确翻译项的数目 ,使得翻译词典具有更好的实用性。

[Abstract]Multi-word unit includes steady collocation,multi-word phrase and multi-word term,this paper we provide an algorithm for automatic alignment of single source words and target multi-word units from sentence aligned parallel spoken language corpus.Mutual information has been used to extract multi-word units by many other researchers,but the retrieval results mainly depend on the identification of suitable bigrams for the initiation of the iterative process.This algorithm utilizes normalize mutual information ...
[关键字]人工智能; 机器翻译; 双语对齐; 多词单元; 翻译词典; 平均关联值; 关联值归一化差值;



基于语义依存关系的汉语语料库的构建
[作者]尤昉; 李涓子; 王作英;

[摘要]语料库是自然语言处理中用于知识获取的重要资源。本文以句子理解为出发点 ,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题 ,包括 :标注体系的选择、标注关系集的确定 ,标注工具的设计 ,以及标注过程中的质量控制。该语料库设计规模 10 0万词次 ,利用 70个语义、句法依存关系 ,在已具有语义类标记的语料上进一步标注句子的语义结构。其突出特点在于将《知网》语义关系体系的研究成果和具体语言应用相结合 ,对实际语言环境中词与词之间的依存关系进行了有效的描述 ,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。

[Abstract]Corpora are important resources for knowledge acquisition in the field of natural language processing.For the purpose of sentence understanding,we are constructing a Chinese large-scale-corpus based on semantic dependency relations.This paper introduces the tagging formalisms we adopt,the tagging set we choose,the tagging tool we develop,and the method we use to guarantee the good consistency of tagging.The corpus under discussion is at a scale of 1 million words.Each sentence in the corpus,which already ha...
[关键字]计算机应用; 中文信息处理; 语料库; 语义依存关系; 《知网》; 动态角色与属性;



日汉机器翻译系统中的多Agent研究
[作者]张捷; 陈群秀;

[摘要]机器翻译系统提高译文质量是一个关键性的难题。本文探讨如何在多方法的机器翻译系统中引入多Agent组织结构 ,并提出一种多层次多Agent组织结构 -类工程组织结构 ,使用登记表通讯策略。该组织结构应用在多翻译方法的日汉MTS中 ,使翻译质量有了较大的改善。

[Abstract]How to improve the quality of the translation result is a difficult problem in research and development of machine translation system.In this paper we will discuss how to add multi agent architecture to machine translation system with multi translation method to improve the quality of the translation result.And we present a project-like architecture with multi level and a billboard correspond strategy.This architecture is used in our multi method machine translation system from Japanese to Chinese,and we ge...
[关键字]人工智能; 机器翻译; 多Agent; 类工程组织结构; 登记表通讯策略; 日汉机器翻译;



从「悬、挂、吊」看现代汉语近义词的区辨
[作者]吴欣达;

[摘要]本文以中央研究院词库小组所完成的「研究院语料库 (SinicaCorpus)」为语料 ,分析「悬」、「挂」、「吊」这一组近义词。藉由观察这三个词个别的出现分布与句法表现 ,抽离出区隔这三个动词的关键语意成分。我们发现事件焦点 (eventfocus)在这一组动词的区分上扮演着重要的角色。分析显示 ,这三个动词的语意都可以表现在使动结构 (causativeconstruction)上 ,而三者的区分就在于它们各自表示这个结构不同的组成成分。「悬」倾向于以使动句构中的下位事象 (subevent)为焦点 ,「挂」则可涵盖整个使动结构 ,而「吊」则偏向于将焦点集中在使动句构中的上位事象 (superevent)的部分。由这一组近义动词的表现 ,证明在事件结构的分析上 ,「事件焦点」这个概念 ,在区分动词语意时 ,有一定的重要性。

[Abstract]This study aims to distiguish three near-synonymous verbs of hanging in Mandarin,namely'xuan','gua',and'diao'.Using the Sinica Corpus,this study analyzes the grammatical distribution and tries to filter out the key semantic componet that sets the three verbs apart. It is found that the conecpt of'event focus'plays a significant role in the distiction of the three verbs.The analysis reveals that all three verbs can be represented by causative construction.The distiction lies in the fact that these three verb...
[关键字]计算机应用; 中文信息处理; 近义词; 事件结构; 使动结构; 事件焦点;



一种文本相似度及其在语音识别中的应用
[作者]李红莲; 何伟; 袁保宗;

[摘要]随着语音识别研究的深入 ,提高通用识别引擎的精度变得越来越困难。但对具体的语音识别任务 ,结合相应的背景 ,采取相应的措施 ,有可能达到很理想的识别精度。在已知语音输入为某有限集元素之一的情形 ,利用文本在发音上的相似度可以大大提高识别的精度。本文对原有文本相似度的定义进行了改进与完善 ,并就其在语音识别任务中的作用进行了深入的研究。

[Abstract]It becomes more difficult to improve the accuracy of general speech engine.But in some cases we may obtain ideal accuracy using context knowledge.If speech input is one element of a finite set,we can improve the accuracy greatly using similarity of Chinese text strings.In this paper we present an perfect definition of Chinese text strings' similarity,and do some research on its application in speech recognition.
[关键字]计算机应用; 中文信息处理; 相似度; 语音识别; web语音浏览; 语音拨号;



“才”字句的句法语义分析
[作者]王楠;

[摘要]本文结合“才”字句的基本句式 ,考察了副词“才”的句法组合功能 ,并着重分析了“才”的四种基本语义。指出这四种基本语义可以两两地归并为“表示事物的量”和“表示限定 /排他”两种语义。并在此基础上进一步地归纳出副词“才”的深层语法意义———表示说话者对比客观事实与主观标准后作出的倾向性评判。

[Abstract]In the light of the basic type of"cai(才)"sentences,this article investigates the syntactic syntagmatic function of the adverb"cai(才)",and emphatically analyses the four kinds of basic grammatical meanings of "cai(才)",pointing out that the four kinds of grammatical meanings can be merged into two-"the quantity of things"and "to limit/ to exclude".On the basis of this article induces the deep grammatical meaning of the adverb"cai(才)"-the tendentious judgement that the speaker forms after he compares the objec...
[关键字]计算机应用; 中文信息处理; “才”字句; 句法语义; 副词;



基于链接的方法进行Web信息检索的TREC实验研究
[作者]张敏; 马少平; 高剑锋;

[摘要]本文通过TREC实验研究基于链接信息的检索对Web信息检索的影响 ,包括使用链接描述文本 ,链接结构以及将基于链接的方法和传统基于内容检索的方法合并。得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在网页定位的任务上能够使系统性能提高 96 % ,但是在信息查询任务上没有帮助 ;最后 ,将基于链接信息的检索与传统的基于内容检索技术合并 ,在网页入口定位任务上总能将系统性能提高 4 8%到 12 4 .8% ,而对特定信息查询任务也能在一定程度上改善检索效果。

[Abstract]This paper studied the effects of using of link information for Web IR in TREC experiment,including link anchor text,link structure and the combination of link-based retrieval and traditional content-based retrieval.Several conclusions are drawn:Firstly,anchor text can represent precisely the topic of Web page,but insufficient in describing the Web page content.Secondly,comparing with traditional content-based IR technique,using link-based approach on homepage finding task can get more than 96% improvement,...
[关键字]计算机应用; 中文信息处理; 基于链接检索; 基于链接的方法; Web信息检索; 信息查询; 网页定位;



基于遗传算法的定题信息搜索策略
[作者]许欢庆; 王永成; 孙强;

[摘要]定题检索将信息检索限定在特定主题领域 ,提供主题领域内信息的检索服务。它是新一代搜索引擎的发展方向之一。定题检索的关键技术是主题相关信息的搜索。本文提出了基于遗传算法的定题信息搜索策略 ,提高链接于内容相似度不高的网页之后的页面被搜索的机会 ,扩大了相关网页的搜索范围。同时 ,借助超链Metadata的提示信息预测链接页面的主题相关度 ,加快了搜索速度。对比搜索试验证明了算法具有较好的性能。

[Abstract]The exponential growth of information available on the WWW makes it increasingly difficult to crawl and index the entire internet for general-purpose crawlers.Rather than collecting and indexing all accessible web documents to answer all possible ad-hoc queries,focused crawler analyzes its crawl boundary to find the links that are likely to be most relevant for the crawl,and avoids irrelevant regions of the Web.In this paper,a new focused crawling approach based on Generic Algorithm is proposed.The method e...
[关键字]计算机应用; 中文信息处理; 定题检索; 定题信息搜索; 遗传算法; Hub; authority;



利用梯度投影法实现语言模型的主题自适应
[作者]苏韬; 汪俊杰; 孙甲松; 王作英;

[摘要]本文研究了在汉语语音识别中如何根据识别任务的主题相关性自动调整语言模型 ,即语言模型的主题自适应问题。提出了利用梯度投影法在最大似然估计准则下将不同主题的语言模型进行线性插值的方法。实验表明 ,该方法可以有效地提高系统的识别率和稳健性 ,特别是对于主题明确的识别任务改善尤为明显。同时 ,为了解决新系统识别速度较慢的问题 ,本文在音字转换过程中采取了多路搜索策略 ,在与基线系统识别速度相当的情况下识别率仍获得了明显改善。

[Abstract]In this paper the problem of adapting language model automatically according to the topic-dependence of recognition task,that is language mdel topic-adaptation,is studied.A method is proposed to implement the linear interpolation of several topic language models based on the rule of maximum likelihood estimation by using Gradient Project (GP) algorithm.This method shows an effective improvement in terms of word right rate and robustness in the experiments,especially for the recognition task with definite to...
[关键字]计算机应用; 中文信息处理; 语言模型; 主题自适应; 梯度投影; 最大似然估计;



北京大学现代汉语语料库基本加工规范(续)
[作者]俞士汶; 段慧明; 朱学锋; 孙斌;

[摘要]北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。

[Abstract]The Institute of Computational Linguistics,Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters.In addition to word segmentation and part of speech tagging,the processing involves the tagging of proper nouns (person names,place names,organization names and so on),morpheme subcategories and the special usages of verbs and adjectives.The success of this large scale language engineering is attributed to the SPECIFICATION,which had been ...
[关键字]现代汉语; 语料库; 词语切分; 词性标注; 规范;



共95页 当前第30页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号