[ 2010 September,09, Thursday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2006年第3期)
基于AdaBoost.MH算法的汉语多义词消歧
[作者]刘风成; 黄德根; 姜鹏;

[摘要]本文提出一种基于AdaBoost.MH算法的有指导的汉语多义词消歧方法,该方法利用AdaBoost.MH算法对决策树产生的弱规则进行加强,经过若干次迭代后,最终得到一个准确度更高的分类规则;并给出了一种简单的终止算法中迭代的方法;为获取多义词上下文中的知识源,在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴,提高了算法的学习效率和排歧的正确率。通过对6个典型多义词和SENSEVAL3中文语料中 20个多义词的词义消歧实验,AdaBoost.MH算法获得了较高的开放测试正确率(85.75%)。

[Abstract]An approach based on supervised AdaBoost.MH learning algorithm for Chinese word sense disambiguation is presented.AdaBoost.MH algorithm is employed to boost the accuracy of the weak decision stumps rules for trees and repeatedly calls a learner to finally produce a more accurate rule.A simple stopping criterion is also presented.In order to extract more contextual information,we introduce a new semantic categorization knowledge which is useful for improving the learning efficiency of the algorithm and accur...
[关键字]人工智能; 自然语言处理; 词义消歧; AdaBoost.MH算法; 多知识源;



基于粗糙集的基本名词短语识别
[作者]郭永辉; 杨红卫; 马芳; 王炳锡;

[摘要]本文提出了一种基于粗糙集的基本名词短语(BaseNP)识别方法。该方法首先进行BaseNP标注,然后实现BaseNP识别。它把BaseNP标注看作一个决策问题用粗糙集理论解决,因而具有特征约简和规则优化的特点。文章介绍了基于粗糙集的规则学习方法和相应的算法,同时也给出了BaseNP标注和识别的算法流程,提出了解决实例冲突问题的方法,并提高了识别效果。文章最后给出了详细的实验步骤和结果,并与几个典型系统进行了比较与分析,提出了进一步改进的方向。

[Abstract]An approach of base noun phrase(BaseNP) identification based on rough sets is proposed in this paper.It divides BaseNP identification into two ordinal subtasks: tagging and identification,and regards BaseNP tagging as a decision-making problem which can be solved in rough sets theory.So it characters feature reduction and rule optimization.In the paper,rough sets-based rule learning method and relevant algorithms are briefly introduced at first,the flow charts of BaseNP tagging and identification are then d...
[关键字]人工智能; 自然语言处理; 基本名词短语; 粗糙集; 机器学习; 规则方法; 算法;



面向自然语言信息处理的维吾尔语名词形态分析研究
[作者]阿依克孜·卡德尔; 开沙尔·卡德尔; 吐尔根·依布拉音;

[摘要]名词是人类语言中的基本词类之一。维吾尔语是一种形态变化很复杂的语言,其中名词是一种形态变化复杂的词类。因此名词的形态分析研究无论在语法研究还是在语言信息处理中都非常重要。本文对维吾尔语名词的形态变化(名词的数、人称、格等语法范畴)进行了形式化的描述和分析。指出了维吾尔语名词的基本形态参数,总结出参数的组配规律并统计了其类型,探索了维吾尔语名词的削尾方法。这些工作将为维吾尔语名词形态处理提供有效的方法和新的思路。

[Abstract]Noun is one of the basic word classes in human languages.As Uighur language is a highly inflectional language,morphological analysis of Uighur noun,a highly inflectional word class,is very important for study of Uighur grammar and Uighur language information processing.This paper concerns the formalized morphological description and analysis of Uighur noun(number,person and case etc).It points out the essential morphological parameters of Uighur noun,sums up the rule of its composition,statistical type and ...
[关键字]人工智能; 自然语言处理; 维吾尔语信息处理; 名词; 形态;



藏文支持在OpenOffice.org办公套件中的实现
[作者]贾彦民; 吴健; 欧珠; 孙玉芳;

[摘要]办公套件是人们日常应用最为广泛的信息处理软件之一,但真正意义的藏文办公套件至今都尚未问世,成为藏文信息技术发展的“瓶颈”。开源项目OpenO ffice.org的不断发展和日益成熟,为藏文办公套件的研制开发提供了有利的契机。以OpenO ffice.org为源代码基础,采用藏文编码字符集(扩充集A)国家标准,研制的藏文办公套件可支持藏文排版习惯和藏文本地环境,着重解决了藏文文本自动断行的问题,能够满足藏语文用户日常办公需要。

[Abstract]Office suite is one of the most widely used software of information processing.Presently,there is no office suite fully supporting Tibetan,which is a main bottleneck of the development of Tibetan information technology.The open source project"OpenOffice.org"has provided a good chance for developing Tibetan Office Suite.Based on the source code of OpenOffice.org and Tibetan newly-coded character sets(Extension A),we have developed a Tibetan office suite supporting Tibetan typeset style and Tibetan Locale,in ...
[关键字]计算机应用; 中文信息处理; 藏文字符集; 办公套件; 藏文信息处理; 文本断行;



文档聚类综述
[作者]刘远超; 王晓龙; 徐志明; 关毅;

[摘要]聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。

[Abstract]As an unsupervised machine learning method,document clustering has been widely used in many NLP applications such as information retrieval,automatic multi-document summarization and etc.In this paper the background and the architecture of document clustering is discussed firstly,and then some related problems are surveyed which includes clustering algorithm,feature space construction,dimension reduction and the semantic problem.In the end this paper introduces the evaluation of cluster quality.
[关键字]计算机应用; 中文信息处理; 综述; 文档聚类; 降维; 概念相关; 聚类算法;



以本体构造中文信息过滤中的需求模型
[作者]袁兴宇; 王挺; 周会平; 肖君;

[摘要]在信息过滤系统中,用户模板是机器可理解的用户需求表示形式,是否能准确地反映出用户的真实需求将直接影响着过滤系统的性能。在向量空间模型中,用户的模板表现为一组带权重的特征词集,但由于在这样的用户模板中缺少必要的语义信息,很难准确地反映出用户的需求。本文提出了以本体构造需求模板的方法,以本体的形式定义需求中概念间的语义关联关系,将向量空间模型中的特征向量定义为本体中的实例,通过实例间的关联路径计算特征项间的语义关联,并通过特征项间的语义关联计算出文档与模板的语义关联度。

[Abstract]In the task of information filtering,the profile of the user's interests and preferences is the key to the performance of the system.In the vector space model,the profile is usually represented as a set of features,but this kind of profile can not exactly reftect the user's information requirements for the lack of the semantic information.This paper proposes an approach to construct the user's profile based on ontology.In our method,the features in the vector space model are defined as the instances in the ...
[关键字]计算机应用; 中文信息处理; 信息过滤; 本体; 语义关联; 用户模板;



面向信息检索需要的网络数据清理研究
[作者]刘奕群; 张敏; 马少平;

[摘要]Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。

[Abstract]The existence of low quality Web pages affects the effectiveness and efficiency of Web search.In this paper,we define the Web page quality estimation as a learning problem.First,several query-independent features are investigated which can separate search target page from ordinary ones.Bayes estimation based on these features is then used to train a model to assign importance scores to Web pages.In TREC based experiments,the top-scored set reduces 45% low quality pages as well as retains 95% high quality on...
[关键字]计算机应用; 中文信息处理; 网络信息检索; 数据清理; 机器学习;



应用二叉树剪枝识别韵律短语边界
[作者]荀恩东; 钱揖丽; 郭庆; 宋柔;

[摘要]句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应用二叉树剪枝识别句子的韵律短语。实验结果表明,在搜索算法中,利用二叉树进行剪枝,可以很大程度上提高语音停顿预测的正确率和召回率,基于试验数据的f-Score提高了近35%。

[Abstract]It is important to recognize the prosodic phrase breaks in text-to-speech.In this paper,a new method is introduced for this purpose,which uses binary tree as pruning strategy in the Maximal Entropy Model(MaxEnt) framework.First of all,the concept of binary tree generated from a statistical language model is given.Then the process of generating the binary tree is discussed.In the process of applying MaxEnt to seeking optimal prosodic phrases,the binary tree is exploited so as to narrow the search space and i...
[关键字]人工智能; 自然语言处理; 统计语言模型; 二叉树; 韵律短语; 最大熵;



一种基于局部共现的查询扩展方法
[作者]丁国栋; 白硕; 王斌;

[摘要]针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC。LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:与未进行查询扩展时相比,采用LOCOOC方法进行扩展后,平均准确率提高40%以上;与传统的局部反馈方法以及局部上下文分析方法(LCA, Local ContextAnalysis)相比,LOCOOC不仅具有更优的检索性能,而且有着更好的鲁棒性。

[Abstract]Techniques for automatic query expansion have been extensively studied in information retrieval research as a solution to the word mismatch problem between queries and documents.Using the idea of Local Context Analysis,in this paper we proposed a novel expansion method,called LOCOOC,which utilized the local co-occurrence information in top-ranked documents and the global statistical information in the whole collection to select most appropriate expansion terms.Experimental results show that LOCOOC offers mo...
[关键字]计算机应用; 中文信息处理; 信息检索; 局部共现; 查询扩展; LOCOOC;



基于反馈学习自适应的中文话题追踪
[作者]王会珍; 朱靖波; 季铎; 叶娜; 张斌;

[摘要]在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。

[Abstract]In the field of topic detection and tracking,since topics develop dynamically,topic excursion problem may appear in the tracking process.To overcome this problem and the shortcomings of current adaptive methods,we propose a new adaptive method based on feedback learning.Based on the idea of increment learning,the paper presents a new algorithm for the adaptive learning mechanism in the task of topic tracking.This algorithm can solve the problem of topic excursion,and remedy the deficiency of current adaptiv...
[关键字]计算机应用; 中文信息处理; 话题追踪; 基于反馈学习的自适应方法; 增量学习;



共95页 当前第4页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号