[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2001年第1期)
基于Ngram信息的中文文档分类研究
[作者]周水庚; 关佶红; 俞红奇; 胡运发;

[摘要]传统文档分类系统都是基于文档的词属性 ,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N gram信息的中文文档分类 ,使中文文档分类系统摆脱对词典和切词处理的依赖 ,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法 ,实现了一个基于N gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能

[Abstract]Traditional document classifiers are based on
[关键字]文档分类; Ngram信息; 属性选择; kNN法;



基于变帧率训练的HMM汉语人名识别
[作者]刘刚; 张洪刚; 郭军;

[摘要]本文针对语音识别中HMM模型需要大量训练 ,而在某些实际应用中不可能训练多次的问题 ,提出一种基于余弦整形变换的变帧率训练方法 ,并在人名声控拨号系统中进行实验 ,在训练一次的条件下 ,系统识别率提高 4.2 %。实验表明 ,该方法对解决语音识别系统中训练数据少的问题具有明显效果

[Abstract]In speech recognition HMM requires a large number of data for training,however,in some applications it is impractical.Therefore,a VFR training method based on pattern transform method with consine function is presented,in this paper,to solve this problem.We apply this original method to a voice control dialling system.System accuracy increases 4.2% on the condition of training just only one time.It isdemonstrated that this method has obvious effect on the scarcity of training data.
[关键字]语音识别; HMM; 余弦整形变换; 变帧率;



全国第六届计算语言学联合学术会议(JSCL-2001)2001年8月4日—6日太原:山西大学征文通知
[作者]

[摘要]

[Abstract]
[关键字]学术会议; 山西大学; 计算语言学;



一种利用校对信息的汉字识别自适应后处理方法
[作者]李元祥; 刘长松; 丁晓青;

[摘要]后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型 ,没有考虑所处理文本的特殊性 ;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息 ,一方面可以构建自适应语言模型 ,及时发现所处理文本的语言特点 ;另一方面可以利用识别器的动态识别特性 ,以修正候选字集 ;从而使得后续文本的识别后处理具有自适应性。 40万字的数据测试表明 :这种方法的文本平均错误率较传统的后处理方法下降 35 .2 4%了 ,可以大大减轻数据录入人员的工作量 ,具有较高的实用价值

[Abstract]Post processing is a key component of Chinese character recognition system.Conventional post processing methods,which to a large extent rely on statistical language model,can't track dependencies within an article.They also can't take the dynamic idiosyncrasy of recognizer into account.This paper presents a novel adaptive post processing method that utilizes the partly corrected texts.These texts can be used to construct adaptive language model and to obtain the idiosyncrasy of recognizer which can help ...
[关键字]汉字识别; 后处理; 语言模型; 自适应; 修正候选字集;



用过滤器实现Web网站汉字简繁体自动转换
[作者]张震; 张曾科;

[摘要]本文对网络上汉字的显示与传输进行了研究 ,提出一种新的在Web服务器端直接解决汉字繁简体内码转换的方案 ,使得只有一种内码的中文主页也可以自动地对不同内码浏览器提供支持 ,而不必要求客户端安装软件。这种思想在WindowsNT下用IIS里的ISAPI过滤器得以实现

[Abstract]This paper put forward a new conversion method between simplified and traditional Chinese characters.By using the ISAPI filter,homepages in Chinese characters on the web site could be translated automatically to support browsers on different Chinese systems without any software or language packages installed on the clients.Thisidea is completed in the Internet Information Server 4.0 under the Window NT.
[关键字]Web; 汉字内码; GB2312; BIG5; ISAPI;



《汉字规范码应用于基础教育教学实践》成果发布会在京召开
[作者]

[摘要]

[Abstract]
[关键字]规范码; 信息技术手段; 发布会; 信息技术教育; 汉字编码; 教育教学实践;



《现代汉语语法信息词典》的新进展
[作者]俞士汶; 朱学锋; 王惠;

[摘要]:《现代汉语语法信息词典》是面向汉语信息处理的基本语言知识库。 1995年 11月底通过技术鉴定。 5年来 ,北大计算语言学研究所在应用、推广的同时 ,仍把重要的力量投入词典本身的发展。至目前为止 ,词典收词已由 5万条增加到 7.3万条 ,并且全部完成了归类 ;为了处理未定义词 ,还开发了一个全新的语素库 ;词语语法属性描述中的瑕疵得到了进一步的修正 ,新增了 2 0多个语法属性项目和大量的实例。整个词典的规模和质量有了显著的提高

[Abstract]The Grammatical Knowledge base of Contemporary Chinese serves as a basic linguistic knowledge base for Chinese Information Processing. It passed the technical appraisement in Nov. 1995. Through the continuous development in the past five years, it is extended to 73,000 entries from 50,000 and the classification of these seventy thousands words is accomplished. In addition, a new morpheme database has been developed for the undefined word recognition. Up to now, the distinct grammatical descriptions in eve...
[关键字]中文信息处理; 现代汉语; 语法属性描述; 语法词典;



基于搭配对的汉语形容词-名词聚类
[作者]闻扬; 苑春法; 黄昌宁;

[摘要]本文提出了一个双向分级聚类的算法同时对不同词性的词进行聚类。在聚类过程中 ,不同词性的词的聚类交替进行 ,相互影响。我们以最小描述长度的原理为基础构造了目标函数。为了减小数据稀疏的影响 ,又提出了修饰度的与修正距离的概念。将此算法应用于汉语形容词 -名词的搭配对 ,对形容词与名词进行聚类 ,实验结果显示该算法是有效的

[Abstract]This paper proposes a bidirctional hierarchical clustering algorithm of simultaneous clustering words of different categories.During clustering,the process is interactional and alternant.We construct an objective function based on Minimum Description Length (MDL).In order to solve the problem caused by sparse data two concepts of modificatory degree and modificatory distance are proposed.The further application to clustering Chinese adjectives and nouns demonstrates the algorithm is effective.
[关键字]双向分级聚类; 搭配对; 修饰度; 最小描述长度;



基于未对齐汉英双语库的翻译对抽取
[作者]王斌;

[摘要]本文主要研究基于未对齐的汉英双语库翻译对抽取。文章首先介绍了PascaleFung在这方面设计的两个算法。在此基础上 ,文章对后一种算法进行了部分的改进 ,使得其更适合于真实双语文本的翻译对抽取。实现结果表明改进后算法的有效性。本方法可以用于基于大规模双语语料库的短语翻译抽取、词典编纂等应用 ,具有较高的应用价值。

[Abstract]This paper focuses on extracting translation pairs from unaligned Chinese English bilingual corpora.First,it introduces two methods proposed by Dr.Pascale Fung.Then,we revises the latter one to satisfy the need of real texts.The experiment results show the effectiveness of our method and it can be applied widely in many NLP applications such as phrase extraction,bilingual lexicography,etc.
[关键字]双语库; 对齐; 翻译对; 抽取; 自然语言处理;



基于语料库的英语从句识别研究
[作者]张晶; 赵铁军; 姚建民; 李生;

[摘要]为改善英汉机译系统复杂句的翻译效果 ,针对英语复杂句中从句的边界界定问题 ,本文提出一种基于语料库的方法识别从句 ,该方法利用词性信息 ,将规则方法和统计方法结合用于识别从句的边界 ,获得良好的实验结果 ,封闭测试的精确率为 92 .6 9% ,召回率 91 .0 4% ;开放测试的精确率为 80 .34% ,召回率 83.93%。

[Abstract]In order to improve the performance of translating English complex sentence in a English Chinese translation system,we present a new approach to subordinate clause recognition using a corpus based method.With the information of part of speech tagging of an English sentence,this approach integrates rule and statistical methods to recognize subordinate clauses.The precision and recall ratio of recognizing subordinate clauses are tested on both closed corpus and open corpora.A result of 92.9% precision a...
[关键字]从句; 语料库; 知识获取;



共95页 当前第42页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号