[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2003年第2期)
汉语句子谓语中心词的自动识别
[作者]龚小谨; 罗振声; 骆卫华;

[摘要]谓语中心词的识别是句法成分分析中的一个非常重要的部分。本文提出了一种规则和特征学习相结合的谓语识别方法 ,将整个谓语识别的过程分为语片捆绑、谓语粗筛选和谓语精筛选三个阶段。在谓语粗筛选中 ,利用规则过滤掉明显不能充当谓语的词 ,得到一个准谓语集 ;在精筛选阶段 ,选择谓语的支持特征 ,根据统计计算得到每个特征对谓语的支持度 ,然后利用准谓语在句子中的上下文出现的特征对准谓语集中的词进行再次筛选 ,从而确定出句子的谓语中心词。经过测试表明 ,该方法是有效可行的

[Abstract]Recognizing the predicate head is an important part of the syntactic analysis of Chinese sentences.This paper presents a new approach to recognize the predicate head automatically,which combines a rule based method with a multi feature based method.The process of recognizing is broken into three sub process:preprocess,coarse filter and fine filter.We use a rule based method to filter the quasi predicate that may be the predicate of a sentence.In the fine filter,we select and compute a great diversi...
[关键字]计算机应用; 中文信息处理; 谓语中心词的识别; 基于规则; 特征选择; 粗筛选; 精筛选;



论汉字码本数据库管理技术
[作者]吴娴; 吕强; 杨涛; 杨季文; 钱培德;

[摘要]任何一种中文输入法的研究中都会遇到码本的处理问题。在不同的时期 ,由于应用需求的不同 ,使得码本呈现出不同的表现形式。本文首先提出了汉字码本数据库的概念 ,它是指能够实现汉字字符信息到其相应属性的对应关系的数据结构。之后 ,本文讨论了不同层次上的两种码本 :数据库码本和二进制码本。根据实践的经验 ,文中将不同阶段的汉字码本数据库分成文本文件形式、数据库码本形式和二进制文件形式 ,并且分别讨论了对这些码本的管理技术

[Abstract]Chinese Character Reference Database is playing an important role at Chinese information processing,especiallySat input method development. Because of the different user requirements,Chinese Character Reference Database must be represented in different views. First,this paper advances the concept of Chinese Character Reference Database. Then it explains two different types of Chinese Character Reference Database. This paper categorizes Chinese Character Reference Database,which exists in different period,in...
[关键字]计算机应用; 中文信息处理; 码本; 数据库; 汉字码本数据库; 管理技术;



一种面向汉英口语翻译的双语语块处理方法
[作者]程葳; 赵军; 徐波; 刘非凡;

[摘要]基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是 ,要将其应用于口语翻译当中 ,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上 ,根据中、英文差异和口语翻译特性 ,从句法和语义两个层次提出了一种汉英双语语块概念 ,并对其特点进行了分析。同时 ,针对中、英文并行语料库 ,建立了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法 ,对汉英句子级对齐的口语语料进行双语语块划分和对整 ,并以此为基础进行了基于双语语块的口语统计机器翻译实验。结果表明 ,本文提出的双语语块定义符合口语翻译的实际需要 ,使用基于双语语块的语料处理方法 ,能有效地提高口语系统的翻译性能

[Abstract]Chunking is a useful step for natural language processing.The paper puts forward a definition of bilingual chunks for Chinese-English spoken-language translation,based on both the characteristics of spoken-language and the differences between Chinese and English.Some special features of these chunks are also analyzed.Based on the definition and analysis,a method is proposed to segment the chunks in bilingual corpora.This method includes two steps of the automatic chunking and the manually modification.Using...
[关键字]人工智能; 机器翻译; 统计机器翻译; 口语翻译; 语料库; 语块;



银行支票中小写金额图像的提取
[作者]张重阳; 娄震; 杨静宇;

[摘要]支票图像的分割与识别是目前文档自动处理领域中讨论的一个热点问题。其中字符图像的分割是预处理过程中的一个重要环节 ,对识别系统有很大的影响。在我国的支票图像中常含有较深的印章图像叠加在被分割的字符上 ,增加了字符分割的难度。本文以支票中小写金额的图像为例 ,提出了字符的逐层分割方法以及用于判断印章图像是否去除的评判准则。首先去除图像中的底纹和定位格线 ;然后通过迭代的方法选取阈值去除印章图像 ;最后采用基于连通区的区域增长算法提取字符图像 ,去除碎块。在 2 72 5张实地采集的我国现行支票上的实验结果表明 ,本文的方法能够有效的去除印章图像 ,分割出字符。

[Abstract]Characters extracting from check images represents an important challenge in the field of bankcheck processing system.Difficulties in segmentation of the Chinese check images are derived mainly from the different types and positions of the seal imprints,which is often dark and stroke like.In this paper,a rule is proposed to evaluate the segment results of the Chinese check images,and a new segment method based on it is also developed.Background and preprint lines are first removed;then seals are segmented ...
[关键字]计算机应用; 中文信息处理; 图像分割; 二值化; 阈值; 文档图像分析;



基于统计的中文地名识别
[作者]黄德根; 岳广玲; 杨元生;

[摘要]本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。

[Abstract]Unknown word recognition is one of the challenging tasks in natural language processing research.This paper proposes a place name identification model in dictionary based Chinese word segmentation,in which we used statistical information drawn from a training corpus to calculate lexical reliability and contextual reliability.The rules of Chinese place names are also used in the model.We applied this approach to a Chinese morphological analysis system,and achieved 90.24% recall and 93 14% precision in clos...
[关键字]计算机应用; 中文信息处理; 中文地名识别; 构词可信度; 接续可信度; 自动分词;



搭建中华字符集大平台
[作者]李宇明;

[摘要]为使中华文献有一个可进行文字加工的永久性本面目保存本 ,为满足数字化图书馆、博物馆、档案馆的建设要求 ,为促进用于知识发掘数据库的建设 ,为保证中华文化信息在国际互联网上的无障碍交际 ,必须尽快构建中华字符集。本文主要讨论中华字符集的内容及需要解决的技术问题

[Abstract]This paper mainly discusses the content of China Character Set and its technique problems.The necessity and urgency of building China Character Set includes:1.In order to get an eternal text which saves the literatures of China in original face and also achieves word processing;2.Satisfy the needs of constructing digital library,museum and archives;3.Promote the building of databases which serve knowledge processing;4.Achieve non obstacle communication of China culture on Internet.
[关键字]计算机应用; 中文信息处理; 综述; 中华字符集; 文献保存; 数字化; 知识发掘; 互联网;



基于概念统计和语义层次分析的英文自动文摘研究
[作者]季姮; 罗振声; 万敏; 高小云;

[摘要]传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计 ,基于主题概念构建向量空间模型 ,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块 ,以意义块为单元抽取文摘 ,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造 ,主题概念的抽取步骤 ,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明 ,通过概念统计和语义层次分析的方法 ,我们设计了更理想的向量空间模型 ,系统生成的文摘精度较高 ,并更全面地反映了原文的主要内容

[Abstract]Most of the previous summarizing methods are based on word counting,which misses deep semantic analysis of texts,so the generated abstract is unsatisfying.This paper puts forward a new summarizing method based on concept counting and semantic hierarchy analysis. Based on the extracted topic concepts,an effective English Text Summarizing system is developed. This system uses topic concepts to construct Vector Space Model.The abstract is generated in addition with discourse analysis and readability improvemen...
[关键字]计算机应用; 中文信息处理; 概念统计; 主题概念; 向量空间模型; 句子重要度; 意义块划分;



基于特征串的大规模中文网页快速去重算法研究
[作者]吴平博; 陈群秀; 马亮;

[摘要]网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想 ,利用网页文本的内容、结构信息 ,提出了基于特征串的中文网页的快速去重算法 ,同时对算法进行了优化处理。实验结果表明该算法是有效的 ,大规模开放测试的重复网页召回率达 97 3% ,去重正确率达 99 5 %。

[Abstract]Reprinting of information between websites produces a great deal redundant web pages that not only waste storage resource but also bring many burdens to user in retrieval and reading.In this paper string of feature code based algorithm is developed to remove the duplicated web page after analyzing the feature of the redundant web page.The idea of fuzzy matching and information of content and structure of the text of web page are introduced into the algorithm,and the efficiency of the algorithm is optimized....
[关键字]计算机应用; 中文信息处理; 特征串; 模糊匹配; 去重算法; 冗余网页;



汉字键盘输入智能处理软件综述
[作者]陈一凡; 朱亮;

[摘要]作为输入编码的后处理 ,各种类型输入软件智能化的共同目标是由软件来识别和选定上屏的重码字、词与缩短平均码长 ,并促使编码简单化和规范化。本文简要地论述了基于理解的智能输入、基于语用统计的智能输入、基于模板匹配的智能输入和基于上下文关联的智能输入等四种类型的汉字键盘输入智能处理软件的原理、优点和有待解决的问题 ,并列举了每种类型的典型作品。

[Abstract]As a post processing for input code of Chinese Characters,the issues of common interest for all kinds of input software of Chinese Characters is distinguish and decide coincident code of the Chinese Character and word by the input software,deduce average code length,impel Chinese Characters code to simplify and standardize.This paper gives a general statement at the fundamentals,the merits and the demerits in four kinds of Intelligent Input software of Chinese Characters,based nature language understanding ...
[关键字]计算机应用; 中文信息处理; 综述; 自然语言理解; 语用统计; 模板匹配; 上下文关联; 后处理;



面向中间语义表示格式的汉语口语解析方法
[作者]解国栋; 宗成庆; 徐波;

[摘要]口语解析在人机对话系统和口语翻译系统中的作用是十分关键的。本文提出了一种统计和规则相结合的汉语口语解析方法 ,解析结果是一种中间语义表示格式。该方法分为两个阶段。首先 ,采用统计方法 ,解析出输入句子的语义信息 ,然后 ,利用规则 ,将这些语义信息映射到中间语义表示格式。试验证明 ,此方法具有较强的鲁棒性 ,而且避免了完全用规则方法解析的一些弊端 ,达到较高的解析正确率。

[Abstract]Spoken language analyzing is a crucial part in human-machine dialog system and spoken language translation system.In this paper we present a Chinese spoken language analyzing method based on the combination of statistical and rule methods The analyzing result is a middle semantic representation.It has two stages,first,use the statistical method to analyzing the semantic information,then use the rule method to map the semantic information to the middle semantic representation.This method avoids the shortcomi...
[关键字]人工智能; 机器翻译; 口语解析; 统计解析模型; 中间语义表示格式(IF);



共95页 当前第29页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号