大规模现代汉语标注语料库的加工规范
[作者]俞士汶; 朱学锋; 段慧明;
[摘要]北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为 2 70 0万字。现在已经完成了 1 40 0万字的任务 ,而且质量很高。要建成高质量的标注语料库 ,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。
[Abstract]The Institute of Computational Linguistics of Peking University is developing a very large scale contemporary Chinese corpus segmented and with many tags based on the owned resources,e.g.the Grammatical Knowledge base of Contemporary Chinese.There are about 40 tags in the tag set.It contains common Part Of Speech tags,special usage tags of verbs and adjectives,proper noun,placename of phrase type,organization name of phrase type and so on. The scale of the corpus is about 27 millions Chinese characters...
[关键字]现代汉语标注语料库; 词语切分; 词性标注; 现代汉语语法信息词典; 加工规范;
|
独立于语种的文本分类方法
[作者]黄萱菁; 吴立德; 石崎洋之; 徐国伟;
[摘要]文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。
[Abstract]Text categorization is defined as the task of assigning pre defined category labels to new documents.This paper proposes a language independent text categorization model based on machine learning,and describes the feature extraction,classifier and evaluation method in detail.This model has been implemented on two news corpus of Chinese and Japanese and satisfactory categorization effectiveness has been achieved.
[关键字]文本分类; 特征抽取; 机器学习;
|
文档中词语权重计算方法的改进
[作者]鲁松; 李晓黎; 白硕; 王实;
[摘要]文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一 ,但现在tf.idf方法无法把握这一因素。针对这个问题 ,本文引入信息论中信息增益的概念 ,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子 ,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中 ,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法 ,验证了改进方法tf.idf.IG的有效性和可行性。
[Abstract]Text Representation has been the fundamental problem in Information Retrieval,such as text retrieval,automatic summary and search engine.tf.idf(term frequency,inverse document frequency)as one of term weighting schemes in Vector Space Model is a good text representation which is popular and make good results in the field of Information Retrieval.The proportion of distribution of terms in text collection is one of the most important factors of expressing the content of text, but it is beyond tf.idf's power....
[关键字]文本表示; 向量空间模型; 词语分布比例; 信息增益; 文本分类;
|
基于Web中文检索系统SEARCH2000的设计与实现
[作者]杜林; 张毅波; 孙玉芳;
[摘要]本文详细介绍Search 2 0 0 0中文检索系统的设计思想及实现方法。与传统的全文检索系统相比 ,基于WEB的信息检索系统 ,具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内容覆盖不同应用领域并且拥有大量专有名词和缩略词汇 ,这些特性成为影响查询精度的主要因素。针对Web的上述特性设计的Search2 0 0 0全文检索系统 ,使用智能化的页面相关分析、评分技术 ,以及高效数据存取、压缩算法和知识库的支持 ,使其具有使用方便、查询时间短、查询精度高等特点。
[Abstract]This paper introduces the design and implementation of Web based Chinese text retrieval system Search2000 in detail.Compared with traditional full text retrieval systems,the Web based text retrieval systems have lots of new properties.The Web pages are semi structured documents and are connected through hyperlinks.The different Web sites and different Web pages may cover different application domains,so there are lots of new words and phrases,such as the proper names and domain terminology,which affect t...
[关键字]信息检索; 相关评分; 中文信息处理;
|
构建知网关系的网状表示
[作者]周强; 冯松岩;
[摘要]本文介绍了一个针对知网关系的网状表示结构及其实现方法。通过构建三张数据表 :概念表、特征表和关系表 ,以及建立它们的记录项之间的双向多元联系 ,可以方便地把知网的所有知识 (概念、特征以及它们之间的各种关系 )集成在一起 ,从而为进一步进行基于知网的信息检索和知识推理打下很好的基础。
[Abstract]In this paper,we introduce a relation network representation for how net and its implementation method.Through the construction of three tables(concept table,feature table and relation table)and the bi directions,multi angles connections among them,all the information in how net can be integrated into a relation network.It provides good foundation for the research of information retrieval and knowledge reasoning based on the knowledge in how net.
[关键字]知网; 概念; 特征; 关系;
|
基于统计的汉语组块分析
[作者]刘芳; 赵铁军; 于浩; 杨沐昀; 方高林;
[摘要]组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律 ,提出了一套符合汉语语言特点的汉语组块体系 ,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明 ,该方法能够有效地处理真实文本中的浅层分析问题 ,具有较好的准确率和鲁棒性。
[Abstract]Chunk parsing is an effective method to decrease the difficulty of language parsing.This paper proposes a formal description representing the characteristics of Chinese chunks.Based on the description,a statistical algorithm is accomplished to recognize definite levels of Chinese chunks.The experiments have proved that the algorithm gives a high accuracy for shallow parsing of real Chinese texts with robustness.
[关键字]组块分析; 汉语句法分析; 统计方法;
|
平行语料库中双语术语词典的自动抽取
[作者]孙乐; 金友兵; 杜林; 孙玉芳;
[摘要]本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐 ,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。在对真实语料的术语抽取实验中取得了较好的结果
[Abstract]An algorithm for the automatic extraction of a bilingual term lexicon from English Chinese parallel corpora is proposed in this paper.Parallel corpora are firstly aligned by improved statistical method,which is based on character length,and tagged with their part of speech categories respectively.The term candidate set is produced by statistical the nouns and noun phrases of both corpora.Then the translation probability between every English candidate term and its Chinese translation term are calculated....
[关键字]术语抽取; 平行语料; 句子对齐; 翻译概率;
|
基于Ontology的英汉机器翻译研究
[作者]王小捷; 钟义信;
[摘要]高质量的机器翻译 (MachineTranslation)系统必须充分结合语言学知识以及语言中性的世界知识。近年来 ,ontology被广泛用于在概念层对世界知识建模 ,本文介绍一个基于ontology的英汉机器翻译模型系统 ,在这个系统中 ,ontology作为世界知识的模型 ,它是通过把概念组织成一个层次结构并同时在概念间建立丰富的概念联系而构成的。通过把某种语言中的词汇映射到ontology中的概念 ,可以支持在源语言分析时进行歧义消解和目标语生成时的词汇选择 ,并可以作为源语言和目的语言之间的中介表示的概念来源。在系统中 ,中介表示是用概念图 (ConceptualGraph)来表示的。
[Abstract]There is now a common consensus in the field of Machine Translation(MT) that a well qualified system should integrate both language specific linguistic knowledge and language independent world knowledge.Recently,ontologies are widely used to model world knowledge in knowledge engineering.This paper introduces an ontology based English Chinese MT system,where,an ontology was developed to model world knowledge.It has been built partly by organizing concepts into a hierarchy and connecting their internal ...
[关键字]机器翻译; ontology; 概念图;
|
用说明模板改进基于配价的德汉机器翻译
[作者]凌小鹏; 柴佩琪;
[摘要]配价描述了德语句子中的必须出现的部分 ,即补足语的构成情况 ,因此利用基于配价的方法能够较好地解决补足语的翻译问题。但说明语和补足语不同 ,它不是句子中必须出现的成分 ,有很大的任意性。因此 ,配价的方法并不能实现说明语的翻译。这也是基于配价的翻译系统存在的一个主要的不足。本文提出了一种在配价基础上 ,通过引用说明模板实现说明语翻译的方案。
[Abstract]The verbal valence can clearly show the essential complements ina sentence.So we can translate these parts according to the verbal valence with high quality.But the descriptive components are so different as the essential parts,which are more free in a sentence,that we cann’t apply the method based on the verbal valence to translate them.In this paper,the translating of descriptive parts are discussed in detail.
[关键字]说明模板; 配价; 机器翻译; 自然语言处理;
|
I-Tree和LFG
[作者]吴蔚天;
[摘要]I Tree是基于黎锦熙先生的三中心词学说建立的具有语法普遍性的语法理论。自1 989年提出以后得到了很快的发展、充实与应用。LFG文法是于 1 982年在国外提出的最具挑战性的文法。其特点是用功能结构表示句中组分及其间的关系 ,极具I Tree的性质 ,但不如I Tree简单、直接、易读、易懂、易用。LFG规则要用数理逻辑表达式书写 ,限制了LFG的发展与应用。I Tree的规则是基于传统的语法知识书写的。说母语、有良好语感和语法知识的人都能使用。将I Tree与LFG进行比较可以更深刻地了解I Tree的特点。有利于发展基于推理的语法分析器。
[Abstract]I tree was published in 1989.It was based upon the'three head hypothesis'proposed by the Chinese famous linguist Li Jing xi.It possesses the universal grammar characters.Since then I Tree has been rapidly developed and matured.LFG was published in 1982.It is the most challenging grammar among the grammars.The challenging part of LFG is the f structure,which is very similar to I Tree.However it is less simple,straight,easily read and put into practice.
[关键字]汉语形式语法; 词汇功能语法; 汉语分析; 自然语言处理;
|
共95页 当前第43页