[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2005年第1期)
现代藏字全集的属性统计研究
[作者]高定国; 龚育昌;

[摘要]藏文基本属性的研究是藏文信息处理技术的基础 ,现代藏字的研究是藏文信息处理的重点。藏字全集是有限集 ,为了更好地研究现代藏字 ,本文以现代藏字为研究对象 ,按照现代藏文文法的规律 ,对全部现代藏字用计算机辅助统计了藏字全集的个数、藏字的字长、藏字的结构方式、位置特征、字符频度以及所有现代藏字中的整基字丁 ,并且简要地分析了这些数据。这些数据可以较全面地反映现代藏字的本质特征 ,可为藏文研究和藏字信息处理提供基础数据。

[Abstract]A study of the basic qualities of the Tibetan language forms the basis for the Tibetan information processing. Study of modern Tibetan character is an important aspect in developing Tibetan information processing. All modern Tibetan characters set is finite, and useful for better researching modern Tibetan character, This thesis is concerned with the modern Tibetan character and how to, according to Tibetan grammar rules and using computer, do the following: calculate the total number of character, length o...
[关键字]计算机应用; 中文信息处理; 藏字全集; 藏字结构; 藏字频度;



汉语口语对话系统中语义分析的消歧策略
[作者]刘蓓; 杜利民;

[摘要]框架语义分析是目前汉语口语对话系统中常用的语义解析方法 ,本文分析了语义分析过程中容易产生的两种典型歧义现象 -结构歧义和语义关系歧义。并针对这两种歧义结构 ,分别提出基于语义PCFG模型的结构歧义消歧策略以及基于语义期待模型EM的语义关系歧义消歧策略 ,并给出了有效的消歧算法。实验结果表明综合运用本文提出的消歧策略后 ,基线系统理解模块的句子语义分析正确率大大提高 ,从原来的75 7%上升到 91 5 % ,而且标志语义单元理解率的三项指标 ,准确率 ,召回率和精度也平均提高了 10 %。

[Abstract]Frame semantic analysis is one of the most commonly used semantic analysis method in Chinese spoken dialogue systems research. And the two typical ambiguous structures encountered in semantic analysis are outer-ambiguity and structural-ambiguity. According to the features of these two ambiguous structures, this paper puts forth the semantic PCFG model based disambiguation strategy to solve structural-ambiguity and the semantic Expectation Model (EM) integrated disambiguation strategy to solve outer-ambiguit...
[关键字]计算机应用; 中文信息处理; 口语对话系统; 语义分析; 消歧; 算法;



多项式回归的汉语时长预测模型
[作者]孙璐; 胡郁; 王仁华;

[摘要]时长信息是韵律的重要组成部分 ,对于语音合成的自然度和可懂度都有不可忽视的作用。时长预测是建立对时长有影响的韵律环境与自然语流中音段时长的对应关系。本文引入了统计学中etasquared的概念研究汉语中韵律环境因素对时长的影响 ,设计了残差算法定量分析属性之间的交互作用 ,由此建立了多项式回归的汉语时长预测模型。实验结果表明 ,使用 5~ 6个韵律属性基本上就能够建立比较相关的对应关系 ,和使用同样韵律属性的Wagon回归树的效果相比有明显的优势。

[Abstract]Duration information is an essential part of speech prosody, and plays a critical role in improving the naturalness and understandability of synthesized speech. Duration modeling is to establish a mapping relationship between the prosodic environment and the final duration engendered in natural speech. In this paper, we first study the effect of prosodic features on segmental duration by introducing a statistical concept—eta squared, then choose more forceful prosodic features and design an algorithm to qua...
[关键字]计算机应用; 中文信息处理; 时长建模; 多项式; 交互作用;



基于凸包像素比特征的粘连汉字切分
[作者]魏湘辉; 马少平;

[摘要]汉字切分正确与否直接影响了汉字识别系统的识别率 ,粘连汉字则是切分中的难点。本文将基于背景细化的切分方法应用于《四库全书》的两字符粘连汉字数据集 ,并针对其中切分路径选择问题 ,提出了一种新特征 -凸包像素比 ,反映了在不同切分路径下汉字结构变化的特性。实验结果表明该特征对多种分类器均能有效地提高切分路径选择的正确率。其中在使用基于高斯混合模型分类器时取得了 88 6 %正确率。

[Abstract]Accuracy of segmenting Chinese characters, especially touching characters, is essential for performance of a Chinese characters recognition system. The paper applied a background-thinning algorithm to segment two-touching Chinesecharacters that come from the dataset of four vaults. A new feature called convex hull ratio was proposed for selection of the best segmentation path, as this feature exploits the property on the balance of Chinese characters' structure. The experimental results show that segmentati...
[关键字]人工智能; 模式识别; 粘连汉字; 汉字切分; 背景细化; 凸包;



进一步的“正易全”——三级汉字编码输入法
[作者]ZHANG Xiao-heng

[摘要]本文报告“正易全”汉字输入法的新进展。从整体上来讲 ,正易全已发展成为全字笔顺、全字笔组和2 2 1笔组三级输入法系列。前两级简单灵活 ,键选率极低 ,方便大字集查检 ;第三级在常用字和通用字中表现极佳 ,适合日常快速打字。在编码技术上 ,多笔笔组码元的选用、单结构的定义和多结构字的二部划分等方面都作了进一步的简化、系统化和规律化。此外 ,码表在GB130 0 0 1字符集的基础上增加了 116 4个港澳台地区用字或字形。

[Abstract]The ZYQ Chinese character input method has been developed into a three-staged series including the whole-character stroke order method, the whole-character stroke group method and the 221 stroke group method. The first two methods are simple and effective for Chinese character retrieval on large character sets, while the third method is more suitable to normal typing and writing at higher speed. Technically, further simplification, systemization and regularization has been applied to the selection of multi-...
[关键字]计算机应用; 中文信息处理; 汉字输入; 字形码; 笔组;



利用主语和谓语的句法关系识别谓语中心词
[作者]李国臣; 孟静;

[摘要]谓语中心词识别对于整个句子的句法分析起着重要的作用。目前已有的谓语中心词识别方法 ,利用谓语中心词候选项的静态语法特征和动态语法特征来确定谓语中心词。在此基础上 ,本文提出一种利用句子的主语和谓语之间的句法关系来识别谓语中心词的方法。该方法除了利用谓语中心词候选项的静态语法特征和动态语法特征外 ,还利用主谓语之间的句法关系识别谓语中心词。实验表明 ,与传统方法相比 ,这种方法对谓语中心词的识别正确率可以提高 3%左右。

[Abstract]Identifying the predicate head plays a very important role in sentence parsing. The traditional approaches rely on the static and dynamic grammatical features of the candidate predicate heads to identify the predicate head. Based on this, the paper proposes a method which identifies the predicate head based on not only the static and dynamic grammatical features of the candidate predicate heads, but also the syntactic relations between the subject and the predicate. The experimental results show that, in co...
[关键字]人工智能; 自然语言处理; 谓语中心词识别; 主谓语之间的句法关系;



一种改进的基于记忆的自适应汉语语言模型
[作者]张俊林; 孙乐; 孙玉芳;

[摘要]基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性 ,但其假设过于简单 ,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析 ,我们认为作者在书写文章的时候 ,除了常常使用前文中出现过的词汇外 ,为了避免用词单调 ,还会在行文过程中使用前文出现过词汇的近义词或者同义词。另外 ,一篇文章总是围绕某个主题展开 ,所以在文章中出现的许多词汇往往在语义上有很大的相关性。我们对基于记忆的语言模型进行了扩展 ,利用汉语义类词典 ,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存。实验表明这种改进在很大程度上提高了原有模型的性能 ,与n元语言模型相比困惑度下降了 4 0 1% ,有效地增强了语言模型的自适应性。

[Abstract]Even if n-grams language models were proved to be very powerful and robust in various tasks, they have a certain handicap that the dependency is limited to very short local context because of the Markov assumption. Though cache-based language models adapt to cross-domain environment very well, the hypothesis behind this language model is too simple. It assumes that a word that has been used often reappears in the same document. We extend this model by introducing the Chinese concept lexicon into it. The cac...
[关键字]人工智能; 自然语言处理; 语言模型; 自适应; 同义词词林; 困惑度;



汉语中的零形回指及其在汉英机器翻译中的处理对策
[作者]侯敏; 孙建军;

[摘要]回指是语篇衔接的重要手段 ,零形回指是汉语中常见的一种回指形式。由于汉语、英语是不同类型的语言 ,因此零形回指对汉英机器翻译会产生一定的影响。本文详细分析了汉语零形回指的确认、类型、产生的原因及使用的条件 ,指出其对汉英机器翻译造成的主要障碍是生成的英语句子在结构上不合语法 ,并提出在句组层面上解决问题的算法。

[Abstract]Anaphora is an important means of discourse cohesion, and zero anaphora is a common anaphora in Chinese. From typological viewpoint, there are some differences between Chinese and English, thus zero anaphora may influence the quality of Chinese-English MT. This paper analyzes the recognition, classification, and produced cause and service condition of the zero anaphora in Chinese in detail. The author points out that the problem makes the generated sentences of target language (English) ungrammatical. Some ...
[关键字]人工智能; 机器翻译; 汉英机器翻译; 零形回指; 句组;



基于词类串的汉语句子结构相似度计算方法
[作者]王荣波; 池哲儒;

[摘要]句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究 ,汉语句子相似度衡量的准确性 ,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串 ,进行最优匹配 ,得到一个结构相似性的值。在小句子集上的初步实验结果表明 ,该方法可行 ,有效 ,符合人的直观判断。

[Abstract]Example-based machine translation(EBMT)is an important branch of machine translation that has been studied extensively for about twenty years.So far,some progresses have been gained because of researchers' hard work.Sentence similarity measure certainly is one of the most important problems addressed in EBMT.For EBMT from Chinese to English,the performance of similarity measure of Chinese sentences affects directly final translation result of an input sentence.In this paper,we proposed a similarity measure ...
[关键字]人工智能; 机器翻译; 基于实例机器翻译; 汉英机器翻译; 句子相似度衡量; 自然语言处理;



从搭配知识获取最优种子的词义消歧方法
[作者]全昌勤; 何婷婷; 姬东鸿; 刘辉;

[摘要]基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词 ,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识 ,但人工获取质量较好的初始搭配是比较困难的 ,并且无法保证有效的扩大搭配知识。针对该问题 ,提出了通过机器学习初始搭配实例获取最优种子 ,再由最优种子扩增更多指示词 ,最后利用这些指示词实现具有多个义项的多义词消歧。采用该方法对 8个多义词进行消歧的测试实验中取得了 87 7%的平均正确率。

[Abstract]The key problem of word sense disambiguation based on statistic model lies in how to acquiring the word sense indicators automatically. Although it is feasible to acquire a large number of collocations by learning examples, it is hard to select good seeds manually to increase new collocations effectively. The method of selecting the best seeds by machine learning is provided in this paper to solve this problem. The best seeds are used to augment more new word sense indicators; finally disambiguate polysemo...
[关键字]人工智能; 自然语言处理; 词义消歧; 搭配; 种子优选;



共95页 当前第16页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号