[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2005年第5期)
面向体育领域的句子主干翻译技术研究
[作者]薛永增; 杨沐昀; 赵铁军; 韩习武; 齐浩亮;

[摘要]为了有效翻译体育领域文本,特别是文本中的长句,本文提出了一种面向体育领域的句子主干翻译方法。该方法采用模板来表示句子主干,主要包括句法主干分析、模板转换和句子主干译文生成三个步骤。本文研究中特别针对体育领域的语言特点进行了模板的设计和获取;在译文生成过程中,则分别利用规则和模板,采用了短语级全译和句子级摘译相结合的混合生成策略,并引入翻译函数来处理形态变化。实验结果表明句子主干翻译方法能够获取句子的关键信息,在可懂度上优于完全翻译,其忠实度也令人满意,是处理体育领域文本的有效方法。

[Abstract]A method of sports-domain-oriented sentence sk eleton translation is presented in this paper for effective translation of sport s texts, especially long sentences. This method applies templates to represent t he skeleton of a sentence, including three procedures: skeleton parsing, templat e transfer and sentence skeleton generation. Templates are carefully designed an d acquired according to linguistic features of sports domain. In generation, a h ybrid strategy is applied to incorporate the full translatio...
[关键字]人工智能; 机器翻译; 句子主干翻译; 模板; 体育领域;



基于长度的扩展方法的汉英句子对齐
[作者]张艳; 柏冈秀纪;

[摘要]本文提出了一种用于汉英平行语料库对齐的扩展方法。该扩展方法以基于长度的统计对齐方法为主,然后根据双语词典引入了词汇信息,而基于标点的方法作为对齐的后处理部分。这种扩展方法不仅避免了复杂的中文处理,例如,汉语分词和词性标注,而且在统计方法中引入了关键词信息,以提高句子对齐的正确率。本文中所用的双语语料是LDC的关于香港的双语新闻报道。动态规划算法用于系统的实现。和单纯的基于长度的方法和词汇方法相比,我们的扩展方法提高了句子对齐的正确率,并且结果是比较理想的。

[Abstract]In this paper, we present a new approach to ali gn Chine se-English sentences in the parallel texts. This approach is mainly based on st atistical approach, here is length-based alignment approach, and simultaneously considers lexical information from the bilingual lexicon. Punctuation-based a pproach is the post-processing for alignment. This extended approach not only a voids complicated Chinese processing further, such as segmentation and part-of -speech tagging, but also uses some Chinesein the statisti...
[关键字]人工智能; 机器翻译; 句子对齐; 中文处理; 双语语料库;



用动词的论元结构跟事件模板相匹配——一种由动词驱动的信息抽取方法
[作者]袁毓林;

[摘要]本文以文献[2]中信息抽取模型(InfoX)的测试语料(职务变动文本)为主要对象,具体说明怎样建立从动词的论元结构到相关的事件模板的匹配关系。首先根据职务变更动词的有关句法、语义特点,把它分成六个小类:任命、担任、免职、辞职、调遣、受命;然后,分别描写每一小类动词的论元结构,特别是它们所支配的论元角色及其句法配置方式。最后,建立动词的论元角色跟事件模板元素的匹配关系,并揭示动词对文本筛选和合并都有导向作用,说明发展由动词驱动的信息抽取方法的可行性。

[Abstract]This paper demonstrates how to establish the ma tc hing relation between event-template of an information extraction (briefly, IE) system and the argument structure of the related verbs basing on the analysis o f the succession texts according to [2] testing data for his IE sys te m InfoX. It firstly divides the succession verbs into six classes (appoint, hold , remove, resign, dispatch, transfer) according to their syntactic and semantic features. Then it describes the argument structure of these six class...
[关键字]计算机应用; 中文信息处理; 信息抽取; 事件模板; 论元结构; 模板元素; 论元角色;



面向主题会话的扩展语义框架
[作者]施海虎; 邢宣宇; 李冬梅;

[摘要]随着人工智能技术的发展,基于人机会话的智能化技术成为当前研究热点,知识表示是人机会话领域的研究难点之一。在众多的知识表示方法中,框架表示法由于具有适应性强、概括性高、结构化良好、推理方式灵活的特点而得到人们的广泛应用。本文在基于篮球运动主题会话课题研究中,提出了一种扩展语义框架表示方法。与传统的表示方法相比,该扩展语义框架能够解决基于领域的知识处理、常识推理和语句生成问题,能够很好地满足受限人机会话系统的要求。

[Abstract]As the development of artificial intelligence, t he research on intellectualizing technology of man-machine interview has been becoming the current hot one, and the knowledge representation is one of the mos t difficult problems in the man-machine interview domain. Among all types of kn owledge representation,the framework representation has been widely used for its features of applicability, summarizing, structuring and reasoning. Comparing wi th past framework representation, we presented an extended sema...
[关键字]计算机应用; 中文信息处理; 语义框架; 扩展语义框架; 人机会话; 主题会话;



对蒙古语语料库基本名词短语的定界与统计分析
[作者]华沙宝; 达胡白乙拉;

[摘要]解决蒙古语基本名词短语的定界问题,是在蒙古语词性标注语料库的基础上进行的探索性研究。基本名词短语的内部结构信息对其定界问题具有重要作用。确定基本名词短语内部结构的因素有多种,但基本名词短语成分的词类信息是最基本的因素。我们以词类信息为核心,附加一些限定条件,构建识别基本名词短语的形式规则集,并在实际语料中进行基本名词短语标注测试。

[Abstract]The Boundary Determination of Mongolian BaseNP i s an exploratory task based on POS Tagged Mongolian Corpora. The determination o f the inner structure of baseNP will be very helpful for BaseNP boundary recogni tion. The inner structure of BaseNP can be analyzed based on different features, among them, POS tagging information is the most important feature. Using POS ta gging information as the core feature, together with other determinative conditi ons, we construct a rule set for Mongolian BaseNP recogniti...
[关键字]计算机应用; 中文信息处理; 蒙古语; 基本名词短语; 短语结构; 形式化描述;



印刷维吾尔文本切割
[作者]靳简明; 丁晓青; 彭良瑞; 王华;

[摘要]我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99%以上。

[Abstract]Uyghur is spoken in Xinjiang Uyghur Autonomous Re gion of China, which adopts Arabic script to write. As a cursive script and othe r characteristics, it is very difficult to do text segmentation and recognition. In this paper, a method, which hybrid horizontal projection and connected compo nents analysis, based on connected components classification is proposed to do t ext line segmentation and word segmentation of Uyghur texts. And then, the basel ine position of each word is estimated. All candidate char...
[关键字]计算机应用; 中文信息处理; 文本切割; 字符切割; 字符识别; 维吾尔文;



一种文本分类的在线SVM学习算法
[作者]代六玲; 黄河燕; 陈肇雄;

[摘要]本文提出了一种用于文本分类的RBF支持向量机在线学习算法。利用RBF核函数的局部性,该算法仅对新训练样本的某一大小邻域内且位于“可能带”中的训练样本集进行重新训练,以实现对现有SVM的更新。为高效的实现该邻域大小的自适应确定,使用ξa泛化错误估计在所有现有训练样本集上对当前SVM的泛化错误进行定性估计。同时引入泛化能力进化因子,使得结果SVM在分类效果上具有自动调整能力,并防止分类能力的退化。在TREC-5真实语料上的对比测试结果表明,该算法显著地加速了增量学习的过程而同时保证结果SVM的分类效果。

[Abstract]This paper suggests an on-line incremental lea rning algorithm based on RBF SVMs for text categorization problem. By exploiting the locality of RBF ken nels, our algorithm updates current SVM using a subset of possible support candi dates both in certain neighborhood of the new coming document and in a possible band. The size of subset is decided adaptively and efficiently by using of ξa generation error estimator on all the available training samples to qu alitatively estimate the generation error rate. We...
[关键字]计算机应用; 中文信息处理:文本分类; 在线学习; 增量学习; 支持向量机; SMO;



传统蒙古文变形显示机制研究与实现
[作者]姚延栋; 吴健; 孙玉芳; 呼斯勒;

[摘要]多年来蒙古文处理系统重复开发、互不兼容的根本原因就是没有统一的标准:编码标准不统一、字库标准不统一、输入法不统一。随着国际化、多语言化的发展,开发基于ISO/IEC10646和UNICODE国际编码标准、OpenType智能字体技术的不同语言文字处理系统已经成为趋势。本文阐述了一个蒙古文显示系统,它完全支持Unicode标准并使用了OpenType技术自动进行字形选型,其实现是基于QT库的,但核心实现很容易移植到Pango,ICU等其他复杂文本布局(CTL)处理项目中。

[Abstract]As we process mongolian scripts in computers b as ed on ISO/IEC 10646 and Unicode standards, there is a bottle-neck problem that variations of presentation characters have no definite code points. It is why ma ny software systems processing mongolian scripts are produced in repetition and are incompatible with each other. This paper illustrates methods of implementati on of mongolian scripts processing complying with Unicode standard. Firstly, we analyze the characteristics of mongolian scripts, and point o...
[关键字]计算机应用; 中文信息处理; 蒙文; OpenType; 复杂文字布局; CTLUnicode; 布局引擎;



基于ISO/IEC10646标准的藏文操作系统若干问题研究
[作者]芮建武; 吴健; 孙玉芳;

[摘要]长期以来尚未有完整的藏文操作系统,原因是藏文文字的特性要求特定的文字处理。本文基于ISO/IEC10646的藏文字符集标准,结合藏文正字法要求,详细分析了藏文操作系统实现中的关键问题:(1)藏文字符集方案比较与藏文存储;(2)藏文输入;(3)藏文显现。藏文显现是公认的“瓶颈”问题。对此,本文提出基于音节划分、使用OpenType字体及相应的文本引擎来解决藏文“叠加”字符的显现。此方案应用于Qt库的实验及相关测试证明基于ISO/IEC10646标准的藏文操作系统实现是较合理的方案。

[Abstract]Since Tibetan text is not only spelled from le ft to right but also Tibetan consonants can be overlapped vertically, it's more di fficult to display a sting of Tibetan text correctly and legibly. No operating s ystem can fully support Tibetan at present. Based on Tibetan character set defin ed in ISO/IEC 10646 and Tibetan orthography, issues about implementing a Tibetan operating system are discussed. They are involved in character set, encoding sc heme, storing format, input and presentation of Tibetan tex...
[关键字]计算机应用; 中文信息处理; 藏文字符集; 藏文叠加字符; OpenType;



HCL2000手写汉字数据库的更新及相关研究
[作者]任俊玲; 郭军;

[摘要]HCL2000是目前最具影响力的手写汉字数据库之一,基于研究手写汉字规律的设计初衷,该数据库采用了以书写者为单位按文件形式组织和存放的方式。本文则从研究样本选择的应用角度出发,对HCL2000中的样本进行了重新组织,同时对该数据库中的错误进行了纠正,生成了一个新的手写汉字数据库HCL2004。文章最后基于HCL2004数据库和方向线素特征进行了有关训练样本数对识别性能影响的研究,给出了3755类大字符集情况下的最佳训练样本数为300的结论,同时还对识别过程中的样本选择问题进行了探讨。

[Abstract]HCL2000 is one of the most influential handwri tt en Chinese characters databases. In order to research the nature features of han dwritten Chinese characters, the files of database are organized in the mode of the writers. But this form of the files organization is not always the most effe ctive in other researc hes such as the research on pattern selection. By this reason, a new model of ch aracters database is developed. Based on the new model and HCL2000,a newly edit ed version of HCL2000-HCL2004 is dev...
[关键字]人工智能; 模式识别; HCL2000; 手写汉字数据库; 样本选择; HCL2004;



共95页 当前第10页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号