[ 2010 September,09, Thursday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2005年第6期)
班智达汉藏公文翻译系统中基于二分法的句法分析方法研究
[作者]才藏太; 华关加;

[摘要]机器翻译系统是一种典型的自然语言处理系统,语言技术是机器翻译系统中居于核心地位的技术。本文结合863项目《班智达汉藏公文机器翻译系统》的研制实践,论述了词项信息同语法规则相结合的原则,提出了以动词为中心的句法分析二分法,从而在受限语言的范围内,为建立有较大适应性的机器翻译规则系统,有效地提高机器翻译语法分析的效率提供了有益的方法。

[Abstract]Machine Translation System(MTS) is a typical nature language disposal system,and language technique is a main technique in MTS.Applied MTS commonly adopts the translation measure with restrained language and based on a certain rules as a main measure.Combining with the research practice based on the 863 project—Banzhida Chinese-Tibetan document machine translation system,this paper discusses the principle which combined both word information and syntax rules.It also advances the dichotomy of syntax analysis...
[关键字]人工智能; 机器翻译; 二分法; 语句结构; 句法分析;



多文档自动文摘综述
[作者]秦兵; 刘挺; 李生;

[摘要]多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术。随着互联网上信息的日益丰富,多文档文摘技术成为新的研究热点。本文介绍了多文档文摘的产生和应用背景,阐述了多文档文摘和其他自然语言处理技术的关系,对多文档文摘国内外研究现状进行了分析,在此基础上汇总提出了多文档文摘研究的基本路线及关键技术,并总结了多文档文摘的未来及发展趋势。

[Abstract]multi-document summarization is a technology of natural languages processing,which extract important information from multiple texts about same topic according to ratio of compression.Multi-document summarization becomes new research spot with increasing of information in internet.In this paper,the background of multi-document summarization is introduced,the relationship with other technologies of natural language processing and the state of arts is analyzed,the key technologies and the methods of research ...
[关键字]人工智能; 自然语言处理; 多文档文摘; 文本压缩;



基于类别特征域的文本分类特征选择方法
[作者]赵世奇; 张宇; 刘挺; 陈毅恒; 黄永光; 李生;

[摘要]特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。

[Abstract]Feature selection is one of the key problems in text categorization.The chief obstacles to feature selection are noise and sparseness.This paper presents a novel feature selection method which is based on class feature domains. First,we will make use of the combined feature selection method~([1]) to remove noisy features from the original feature space and extract candidate features.That is,we'll take off low frequency words using Document Frequency method firstly and then select candidate features using Mu...
[关键字]计算机应用; 中文信息处理; 文本分类; 特征选择; 类别特征域;



自动文摘系统中的主题划分问题研究
[作者]傅间莲; 陈群秀;

[摘要]随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。

[Abstract]With the development of network,electronic text grows rapidly.Since automatic abstraction is superior to manual abstraction for its speed,convenience,efficiency,and impersonality.It has wide applications and such research is becoming a hot topic.Topic partition is a significant problem during text structuring in automatic abstracting system.The paper establishes vector space model for the whole article based on paragraph,then proposes an algorithm for multi-topic text partitioning based on sequential paragr...
[关键字]计算机应用; 中文信息处理; 自动文摘; 向量空间模型; 段落相似度; 主题划分;



词表的自动丰富——从元数据中提取关键词及其定位
[作者]王军;

[摘要]词表和分类法是传统纸质文献环境下最重要的知识组织工具。它的更新和维护一直依靠手工进行。这限制了它在数字图书馆和网络信息环境下的应用。本文介绍了一项基于统计的、从元数据的标题中抽取关键词并定位在词表中的方法。定位的依据是抽取出的关键词所对应的标引词集的收敛性质。标引词是用于标引文献主题的、来自于词表的受控词汇,即主题词。在《中国分类主题词表》和北京大学图书馆提供的5千余条计算机科技领域的书目数据上所进行实验证明了文中所述的方法是可行的、有效的。这一方法可以直接用来实现基于已标引语料库的自动编目和元数据自动生成。

[Abstract]The application of thesauri in digital libraries is seriously constrained by the manual nature of current thesaurus maintenance mechanism which cannot keep up with the rapid evolvement of knowledge.This paper proposes a statistical method of extracting new terms from titles of metadata and settling them into the thesaurus.The settlement is based on the subject indexing coded in the metadata records.An experiment was conducted on the Chinese Classification and Thesaurus and a corpus of 5 thousands bibliograp...
[关键字]计算机应用; 中文信息处理; 词表; 元数据; 关键词提取;



特征词提取中同义处理的新方法
[作者]邹娟; 周经野; 邓成; 高南莎;

[摘要]本文利用文本分类中文本的特点提出了一种基于模糊集的同义词处理的新方法。本方法充分考虑不同文本类型中同义(近义)词之间的差别,在训练中自动计算不同类型文本中特征词对其对应的同义概念的隶属度,从而实现了用模糊集来定义同义概念;然后应用同义概念来提取文本中的特征值。另外,本系统还利用模糊集来处理多义词的问题。文中给出了系统的处理算法。比较试验的结果表明该方法提高了分类的正确率,效果是令人满意的。整个系统达到了较高的自动化水平和较强的可移植性。

[Abstract]A new method for synonymous processing in feature word extraction of text categorization is proposed in this paper.Fully considering the difference among synonyms in texts of different types,this method can calculate the membership degrees of feature words in their common synonymous concept automatically while training,so that we can define synonymous concepts with rough sets.Then we use synonymous concepts to extract feature values in texts.In addition,we process the polysemous problem using rough sets.The...
[关键字]人工智图; 自然语言处理; 文本分类; 特征值提取; 同义词;



汉英双语平行语料库的词义标注
[作者]刘冬明; 杨尔弘; 方莹;

[摘要]本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间复杂度内,有效的标出多义词义项的算法。该方法从以前对每个多义词进行排歧时只考察其上下文环境和对应信息,改变到对句子中所有的词同时考察上下文环境,这样就可以站在句子高度来进行词义标注,最终取得了满意的实验结果。

[Abstract]Taking full advantage of the computability of the concept in the HowNet,this paper changes word sense tagging in Chinese-English parallel corpora into the similarity calculation between the concept combinations of the aligned sentences of the two languages.At the same time,the dynamic planning thought is used in order to reduce the time complexity of the algorithm.The current word sense tagging method in parallel corpora only used the context of the single ambiguous word and alignment information,but this m...
[关键字]人工智能; 自然语言处理; 词义排歧; HowNet; 双语平行语料库;



汉语语义分析模型研究述评
[作者]由丽萍; 范开泰; 刘开瑛;

[摘要]这篇述评的目的是为汉语语义处理的研究工作提供参考。我们首先分别分析了三种语义分析模型———词语依存(WD)、概念依存(CD)和核心依存(KD)的理论基础和表达方式;然后,重点从功能和可操作性方面比较三者在语义表示方面的特点。结论是(1)词语依存可操作性好但功能弱,概念依存功能强但可操作性差,二者的缺点都是极难解决的问题,核心依存兼顾词语和概念,可能是最适合汉语语义处理需要的;(2)要使模型达到实用要求,需要在句法标注、词典编纂和规范化方面做大量复杂的工作。

[Abstract]The purpose of this comment is to provide the research of semantic representation of Chinese sentences with a reference.First,we review three presently popular models in semantic representation of Chinese sentences in the respects of their theoretical basis and representing methods,which are Word Dependency(WD) based on Dependency Grammar,Conceptual Dependency(CD) based on Conceptual Dependency Theory and Kernel Dependency(KD) based on Frame Semantics.Then we make more effort to compare their features for s...
[关键字]计算机应用; 中文信息处理; 依存语法; 概念依存理论; 框架语义学; 语义表示;



潜在语义分析权重计算的改进
[作者]刘云峰; 齐欢; Xiang’en Hu; Zhiqiang Cai;

[摘要]自从潜在语义分析方法诞生以来,被广泛应用于信息检索、文本分类、自动问答系统等领域中。潜在语义分析的一个重要过程是对词语文档矩阵作加权转换,加权函数直接影响潜在语义分析结果的优劣。本文首先总结了传统的、已成熟的权重计算方法,包括局部权重部分和词语全局权重部分,随后指出已有方法的不足之处,并对权重计算方法进行扩展,提出文档全局权重的概念。在最后的实验中,提出了一种新的检验潜在语义分析结果优劣的方法———文档自检索矩阵,实验结果证明改进后的权重计算方法提高了检索效率。

[Abstract]Since the first paper about Latent Semantic Analysis(LSA) was published,LSA has been applied to many fields,such as information retrieval,text classification,automatic question answering,etc..One important factor that affects the quality of LSA is the weighting scheme to the term-document matrix.In this paper,we first summarize the traditional and well-studied methods of weighting,including local weighting and global weighting.We then point out some inadequacy of original methods,modify these methods,and pr...
[关键字]计算机应用; 中文信息处理; 潜在语义分析; 权重; 文档全局权重; 文档自检索矩阵;



基于后缀树模型的文本实时分类系统的研究和实现
[作者]郭莉; 张吉; 谭建龙;

[摘要]本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N),远远优于分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一种独立语种的分类方法。

[Abstract]We propose a text vector space model(VSM) base d on suffix tree and implement a text categorizing system on the model. The model can perform fast matching by the support of suffix tree, obtain the vector prese ntation of text and avoid the complex computation such as word segmentation or f eature extraction of the text. In addition, this model can guarantee that the al teration of the training set can affect the result of classification in real tim e. Experiment and analysis of the algorithm show that, the ...
[关键字]计算机应用; 中文信息处理; 实时文本分类; 向量空间模型; 后缀树;



共95页 当前第9页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号