[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2004年第2期)
基于不对称性的相似汉字识别方法
[作者]孙羽菲; 陈艳; 张玉志;

[摘要]相似字识别的正确与否对整个识别系统的准确性和可用性都有着极大的影响。在实际应用中 ,我们发现相似汉字之间的误识存在不对称性 ,并对这种不对称现象的成因进行了细致的探讨和分析。基于这种不对称性 ,本文提出了一种分类的部分空间方法来解决相似字的识别问题。相似字按其结构特点被分成若干基本类别 ,不同类别在相应的部分空间提取不同的特征进行比较 ,以达到正确识别相似字的目的。实验结果表明了本方法的有效性 ,相似字识别的准确性得到了很大的提高 ,其中易错相似字的识别正确率平均提高了4 5 5个百分点 ,不易错相似字的识别正确率平均提高了 0 38个百分点。

[Abstract]Similar characters recognition has a great impact on the accuracy and usability of the whole OCR system. In this paper, the asymmetry in similar Chinese character recognition is introduced. The causes of the asymmetry phenomena are discussed and analyzed in details. Based on the asymmetry, we propose a method of category-based partial area matching for similar Chinese characters recognition. According to their structural characteristics, similar characters are divided into some different elementary categori...
[关键字]人工智能; 模式识别; 不对称性; 相似汉字识别; 部分空间法; 分类;



快速中文字符串模糊匹配算法
[作者]陈开渠; 赵洁; 彭志威;

[摘要]本文解决了中文字符串模糊匹配的两个主要问题 :空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多 ,应用位向量方法时 ,需要大量空间。对于某些内存很少的小型计算机 ,比如嵌入式系统 ,这将会是一个问题。本文改进了位向量方法 ,使其在应用于中文字符串时 ,空间需求降低到约 5 %。本文还利用汉字非常多的特点 ,提出一种新的基于过滤方法的中文字符串模糊匹配算法 ,BPM BM ,其速度比世界上最快的算法至少提高 14 %;在大部分情况下 ,是其速度的 1 5~ 2倍。

[Abstract]For now there are two effective methods to improve approximate string matching: bit-vector method and filter method. Since Chinese alphabet has many characters, it needs much computer memory for bit-vector method. This would be a problem for some little computer which has a small memory, such as embedded system. We present a new bit-vector method which needs only about 5% computer memory of original bit-vector method. And, we also utilize the fact that Chinese alphabet is very large and develop a new filter...
[关键字]计算机应用; 中文信息处理; 字符串匹配; 模糊匹配; 中文字符串匹配;



在ICU中实现少数民族文字的处理
[作者]董治江; 吴健; 钟义信;

[摘要]基于ISO/IEC 10 6 46和UNICODE国际标准 ,用传统的字体技术 (如TrueType)来实现少数民族文字处理所面临的一个“瓶颈”问题是 :“变形显现字符”不存在确定的码位。这也是多年来民文系统重复开发、互不兼容的根本原因。本文基于ICU的文字处理体系结构 ,阐述了完全支持Unicode标准的少数民族文字(本文主要指蒙古文字、维文、藏文等 )的实现方法。文中首先介绍了少数民族文字的特点 ,分析其与拉丁文字、汉字在计算机输入、输出过程中的不同之处 ,并指出少数民族文字处理的难点。其次介绍了一种能满足少数民族文字处理需求的字体技术———OpenType。最后 ,阐述了文字处理引擎的工作原理 ,以及ICU中如何实现对少数民族文字的支持。

[Abstract]As we process minority scripts in computers based on ISO/ IEC 10646 and Unicode standards, there is a bottle-neck problem that variations of presentation characters have no definite code points. It is why many software systems processing minority scripts are produced in repetition and are incompatible with each other. Based on scripts processing architecture in ICU, this paper illustrates methods of implementation of minority scripts processing complying with Unicode standard. Firstly, we analyze the charac...
[关键字]计算机应用; 中文信息处理; 复杂文本; Unicode; OpenType; 布局引擎;



多文种环境下汉字内码识别算法的研究
[作者]李培峰; 朱巧明; 钱培德;

[摘要]汉字内码向ISO/IEC 10 6 46过渡是实现计算机用文字编码统一的必然趋势 ,但目前在一段时间内仍将存在多种汉字内码并存的情况 ,所以实现汉字内码的自动识别是保证汉字多内码并存的关键。本文主要探讨了如何在多内码并存的多文种环境中实现汉字内码自动识别的问题 ,并提供了多种汉字内码识别算法 ,包括基于内码分布、标点符号特征、字频特征和语义特征的识别算法等。在此基础上 ,本文对不同的识别算法进行分析和评估。在对目标样本的测试中 ,以上算法的识别率最高可以达到 99 9%以上。

[Abstract]Its a general tendency that the Han Character Internal Codes used in computer should transfer to ISO/ IEC 10646, but there are multi-Han Character Internal Codes used in the computer now, and this instance will stand a long time. So how to realize the Han Character Internal Codes auto recognition is the key to build a Multi-lingual Environment. This paper mainly discusses the Han Character Internal Codes recognition algorithms in the Multi-lingual Environment, and provides four recognition algorithms, such...
[关键字]计算机应用; 中文信息处理; 多文种环境; 汉字内码; 识别算法;



信息技术名词定名的系统分析方法与评价指标体系
[作者]王有志; 赵敏; 陈俊峰;

[摘要]在多年学习、使用、翻译与参与评审几种规范IT名词集的基础上 ,本文将系统分析方法用于对此类名词集的定名与评价。其基本方法 ,一是从名词集中拆分出基础要素———名词元 ;二是提出八项量化指标 :印误率 ,英语拼写不一致与不规范率 ,非必要的一多与多一对应率 ,英汉名词不对等率 ,与交叉学科名词有异率 ,与国标定名不符率 ,收词欠完备与冗余率及总体值得修榷率。并以目前收录最全的IT规范名词集为例 ,通过名词元对这些量化指标进行了模拟计算 ,计算结果证明该方法是合理可行的。这种方法原则上也适用于自然科学技术其他学科的名词或术语定名。

[Abstract]A system analysis approach is applied to evaluate and nominate bilingual IT terms in this paper. Firstly, all the terms concerned are split up into basic term elements-termels, then eight aspects of quantificational indexes are given: errors-in-printing ratio, ‘inconsistent/ uncanonical spelling’ ratio, ‘unnecessary one-many/ many-one correspondence’ ratio, ‘inequivalent term’ ratio, ‘discrepant interdisciplinary term’ ratio, ‘unconformable-to-GB term’ ratio, ‘incomplete/ redundant term’ ratio, and overall ...
[关键字]计算机应用; 中文信息处理; 科技名词; 英汉名词定名; 信息技术; IT; 系统分析;



面向特定领域的汉语句法主干分析
[作者]齐浩亮; 杨沐昀; 孟遥; 韩习武; 赵铁军;

[摘要]本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为基础 ,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中 ,模板匹配的精确率和召回率分别达到了 98 0 4 %和 81 4 3% ,句子级的精确率和召回率分别达到了 96 97%、84 85 % ,实验表明该方法在特定领域是有效的

[Abstract]A method of skeleton parsing for domain specific Chinese text is put forward in this paper. The method includes two key steps: shallow parsing and template matching. The template is adopted to represent the sentence skeleton. We use shallow parsing, cascade hidden Markov Model, to combine phrases. The skeleton parsing is achieved through template matching from the tree of shallow parsing. An experiment on sports news shows the performance of the proposed method achieves 98 04% precision and 81 43% recall ...
[关键字]人工智能; 自然语言处理; 浅层句法分析; 句法主干分析; 模板;



Web页面信息块的自动分割
[作者]瞿有利; 于浩; 徐国伟; 西野文人;

[摘要]随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用 ,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法 :首先通过创建Web页面结构化的HMTL分析树 ,然后根据包含有效文本量等确定包含信息块的子树 ,最后根据子树深度信息利用 2 -rankPAT算法进行分割。通过对BBS页面的信息块抽取实验 ,证明了该方法的有效性。

[Abstract]With the development of the Internet the number of the Web pages increases dramatically, efficient information extraction from Web pages becomes more and more important. Some Web pages often contain multiple information units, which are arranged orderly and compactly with same presentation style and similar HTML syntax, for example, a BBS page that contains multiple posts. For information extraction, information filtering and suchlike Web application, we need segment this kind of original Web page into seve...
[关键字]计算机应用; 中文信息处理; Web页面; 信息提取; 信息块;



基于决策树的汉语未登录词识别
[作者]秦文; 苑春法;

[摘要]未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和‘分’(分为两单字词 )两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识 :前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4 5算法生成了决策树。在分词程序已经识别出一定数量的未登录词[6 ] 而仍有分词碎片情况下使用该方法 ,开放测试的召回率 ;6 9 4 2 % ,正确率 :4 0 4 1%。实验结果表明 ,基于决策树的未登录词识别是一种值得继续探讨的方法。

[Abstract]Unknown words can cause segmentation mistakes in the automatic word segmentation processing of large Chinese texts. Meanwhile the recognition of unknown words is a difficult point in word segmentation processing. This article suggests the recognition of unknown words as a question of classification first, that is, the segmentation fragments, upon the segmentation processing, are divided into two categories as "combination" (combining an unknown words) and "segregation" (segregating to two single character w...
[关键字]人工智能; 自然语言处理; 未登录词识别; 数据挖掘; 决策树; C4.5算法;



语料库中熟语的标记问题
[作者]安娜; 刘海涛; 侯敏;

[摘要]熟语是自然语言中普遍存在的语言现象。本文分析了国内现有语料库对熟语的标注方式 ,发现这种方式对语料库的进一步加工是有问题的。为了在语料库标注阶段把熟语问题处理好 ,本文从信息处理的角度将熟语中的成语、惯用语、歇后语、习用语、专门语以及缩略语归为固定语的范畴 ,进而提出根据固定语的语法功能给定词性标记 ,再根据它们的词汇特征给定词汇范畴标记的双层标记法 ,这样在一定程度上解决了熟语的语料库标注问题。

[Abstract]Idiomaticity is a common phenomenon in natural languages. This paper analyses some known means of tagging the idiom in Chinese corpus. These tagging methods are problematic for the further syntactic tagging and parsing of corpus. To find a suitable solution for application in natural language processing, the authors introduce a new concept "fixed expression", which consist of idioms, customary usages, two part allegorical sayings, terms and abbreviations. These fixed expressions have the same grammatical f...
[关键字]人工智能; 自然语言处理; 熟语; 固定语; 标注; 语料库;



中文文本分类中特征抽取方法的比较研究
[作者]代六玲; 黄河燕; 陈肇雄;

[摘要]本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。

[Abstract]This paper is a comparative study of feature selection methods in text categorization. Four methods were evaluated, including document frequency (DF), information gain (IG), mutual information (MI) and χ 2 test (CHI). A Support Vector Machine ( SVM) and a k nearest neighbor (KNN) were selected as the evaluating classifiers. We found IG, MI and CHI had poor performance in our test, though they behave well in English text categorization. We analyzed the reasons theoretically and put forwarded the possible ...
[关键字]计算机应用; 中文信息处理; 文本自动分类; 特征抽取; 支持向量机; KNN;



共95页 当前第23页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号