|
|
|
基于规则学习的韵律结构预测
[作者]赵晟; 陶建华; 蔡莲红;
[摘要]韵律结构的分析和预测作为提高语音合成系统自然度的一个重要核心组成,日益受到重视。本文提出了一种基于规则学习的汉语韵律结构预测方法,该方法从人工韵律标注的语料库中抽取语言学特征和两级韵律结构标记,构建了实例数据库(example database),再利用规则学习(rule learning)算法从实例中自动归纳韵律短语预测规则。本文通过大量的实验挑选出对于汉语韵律结构预测最有效的特征,采用和比较了两种典型的规则学习算法。同时,对于实验结果给出了较为系统的评价参数。实践表明,规则学习算法用于韵律结构预测达到了90%以上的正确率,优于目前其他方法的结果,是一种行之有效的办法。
[Abstract]In this paper,a rule-learning based approach is proposed to predict prosodic structure from unrestricted Chinese text. Firstly, a speech corpus is collected, whose text is automatically segmented and tagged and further labeled with two-level prosodic structure and syntactic phrase boundaries. Secondly, features related to prosodic structure are extracted with the corresponding boundary types to establish an example database. Lastly, rule-learning algorithms are applied on the database to induce prediction r...
[关键字]韵律结构预测; 规则学习; 韵律词; 韵律短语; 转换规则;
| 信息抽取的语义知识资源研究
[作者]袁毓林;
[摘要]本文讨论支持信息抽取的语义资源的建设问题,举例说明了信息抽取至少需要三种层面的语义知识:(i)宏观的话语篇章知识,籍此可以约束信息抽取的匹配模板的类型,预测关键性的信息项目在文本中的分布位置;(ii)中观的论元结构知识,籍此可以建立动词的论元成分跟事件模板的传递与继承关系,帮助确定代词或空语类跟其先行语的回指关系,进而确定其语义所指;(iii)微观的逻辑结构知识,籍此可以确定否定词、量化词、模态词等逻辑算子跟其所约束的成分之间的逻辑关系(比如,哪些成分处于否定的辖域之中,其中哪个成分是否定的焦点,在哪些语法条件下否定词是冗余的,等等)。最后,指出研究这三种语义知识所可利用的几种理论和方法。
[Abstract]This paper discusses the matter with the semantic knowledge resources for information extraction (briefly, IE) via many examplescome from real Chinese texts. It demonstrates that a workable IE system at least needs following three levels of semantic knowledge as supporting resources: (i) the discourse structure knowledge of real text, by which the IE system can expect the type of information template and the distribution of the key information items; (ii) the argument structure knowledge of key sentences in...
[关键字]信息抽取; 语义资源; 话语篇章; 论元结构; 逻辑结构;
| 智能Web中文主题信息收集系统IRobot的设计
[作者]马亮; 陈群秀; 王俊; 徐国伟;
[摘要]本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能。相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表。
[Abstract]This paper introduces the design of intelligent Chinese Web topic information gather system IRobot in detail. According to the new features of Web topic informationgather, this system do relevance predication to the URLs to be gathered,together with the relevance scoring to the pages gathered. Especially in relevant predication, new issues about topic information are taken into account thoroughly. All the factors together improve the performance of system. Compared to other research results in this field, I...
[关键字]信息检索; 主题信息收集; 相关度预测; 相关度评价; 中文信息处理;
| 模糊语义模式及其在汉英机译系统英文生成选词中的应用
[作者]陈毅东; 李堂秋; 郑旭玲;
[摘要]研究生成选词问题对改善机翻系统的翻译质量有重要意义,基于语义模式的选词方法是常用的选词方法,在混合选词模型也扮演了重要角色。本文针对该方法的不足,提出了语义模式自动获取的思路和模糊语义模式的概念,对其进行了改进。采用语义模式自动获取的思路可以克服传统手工方法需要巨大工作量的问题,而模糊语义模式概念的提出则使语义模式能表示语言现象的量化差别。文中首先讨论该研究的重要性,然后介绍了模糊语义模式的概念,接着给出了构建模糊语义模式库时使用的一个训练算法,最后给出了应用模糊语义模式进行选词的具体算法并将它与传统算法进行了比较。
[Abstract]Lexical selection for target language generation is important in improving the results of a machine translation system. The method basing on semantic patterns has been proved to be useful in resolving this problem. This paper presents an improvement of this method according to its shortcomings. The semantic patterns used in this system are named fuzzy semantics patterns. They are different from the traditional ones and will be trained from an example base with a training algorithm. In this paper, the format...
[关键字]选词; 语义模式; 模糊;
| 北京大学现代汉语语料库基本加工规范
[作者]俞士汶; 段慧明; 朱学锋; 孙斌;
[摘要]北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。
[Abstract]The Institute of Computational Linguistics,Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters. In addition to word segmentation and part-of-speech tagging, the processing involves the tagging of proper nouns (person names,place names,organization names and so on) , morpheme subcategories and the special usages of verbs and adjectives. The success of this large-scale language engineering is attributed to the SPECIFICATION, which had be...
[关键字]现代汉语; 语料库; 词语切分; 词性标注; 规范;
| 基于N-最短路径方法的中文词语粗分模型
[作者]张华平; 刘群;
[摘要]预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召回率和高效率。在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型。针对人民日报一个月的语料库(共计185,192个句子),作者进行了粗分实验。按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率高达99.94%,比最大匹配方法高出15%,比以前最好的切词方法至少高出6.4%。而粗分结果数的平均值较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段。
[Abstract]As the very first step of Chinese word segmentation,rough segmentation tries to cover the correct segmentation with as few candidates as possible. This paper presents a model of rough segmentation, which is based on the N-shortest-paths method,to achieve the goal. In parallel,a statistical model can easily be obtained by attaching frequencies to the edges of the word-graphs. Experiments have been made on a one-month news corpus of 185,192 sentences from the People s Daily. By sentence,the recalling rate of ...
[关键字]N-最短路径方法; 粗分; 中文词语分析;
| 电子词典与词汇知识表达
[作者]陈克健;
[摘要]词汇知识的表达与取得是自然语言处理极须克服的问题 ,本论文提出一个初步的架构与常识的抽取机制。语言处理系统是以词为讯息处理单元 ,登录在词项下的讯息可以包括统计、语法、语义、常识等。语言分析系统利用〈词〉为引得取得输入语句中相关词汇的语法、语义、常识等信息 ,让语言处理系统有更好的聚焦能力 ,可以藉以解决分词歧义、结构的歧义。对于不易以人工整理取得的常识 ,本论文也提出计算机自动学习的策略 ,以渐进式的方式累积概念与概念之间的语义关系 ,来增进语言系统的分析能力。这个策略可行的几个关键技术 ,包括 (1)未登录词判别及语法语义自动分类 ,(2 )词义分析 ,(3)应用语法语义及常识的剖析系统
[Abstract]Lexical knowledge representation and knowledge extraction are bottlenecks of natural language processing.In this paper,we proposed a preliminary framework for representing lexical knowledge and a learning model for extracting common sense knowledge.The key technologies to achieve this proposed learning model are(1)unknown word identification and its syntactic and semantic categorization,(2)lexical semantic disambiguation,(3)parsing technologies by using syntactic,semantic and common sense knowledge.
[关键字]词汇知识表达; 知识抽取;
| 藏文识别中相似字丁的区分研究
[作者]王维兰; 丁晓青; 祁坤钰;
[摘要]相似字丁多是藏文识别中的一大难点。本文通过对相似字丁类型的研究 ,以及印刷体藏文识别结果的统计分析 ,得到图形结构的分析与识别结果相吻合的结论。说明必须根据藏文字丁的结构特点 ,在字符归一化、特征选择方面进行特殊的处理 ,以实现藏文识别中相似字丁的区分。
[Abstract]In this paper,the similitude problems of Tibetan Characters are discussed. The same conclusion are showed by recognition system.On the base of Tibetn Character characteristic of graph construction,we explain what the peculiar processing in normalization,features selection and so on.
[关键字]藏文识别; 相似字丁; 归一化; 特征选择;
| 中文词义关系的定义与判定原则
[作者]蔡柏生; 黄居仁; 曾淑娟; 林贞仪; 陈克健; 庄元珣;
[摘要]在英语及其它的欧洲语言里 ,词汇语意关系已有相当充分的研究。例如 ,欧语词网 (EuroWordNet ,Vossen 1998)就是一个以语意关系来勾勒词汇词义的数据库。也就是说 ,词汇意义的掌握是透与其它词汇语意的关连来获致的。为了确保数据库建立的品质与一致性 ,欧语词网计画就每一个处理的语言其词汇间的词义关系是否成立提出相应的语言测试。实际经验显示 ,利用这些语言测试 ,人们可以更容易且更一致地辨识是否一对词义之间确实具有某种词义关系。而且 ,每一个使用数据库的人也可以据以检验其中关系连结的正确性。换句话说 ,对一个可检验且独立于语言的词汇语意学理论而言 ,这些测试提供了一个基石。本文中 ,我们探究为中文词义关系建立中文语言测试的可能性。尝试为一些重要的语意关系提供测试的句式和规则来评估其可行性。这项研究除了建构中文词汇语意学的理论基础 ,也对Miller的词汇网络架构 (WordNet,Fell baum 1998)提供了一个有力的支持 ,这个架构在词汇表征和语言本体架构研究上开拓了关系为本的进路
[Abstract]Lexical Semantic Relations in English and other European languages are well studied.For instance,EuroWordNet (Vossen 1998) is a lexical semantic database in which the meaning of each word is characterized by its semantic relations with other word meanings.That is to say, the understanding of the meaning of a word is by its semantic relations with others.In order to ensure the quality and consistence of the database during the construction of it,the EuroWordNet project provided linguistic tests for each se...
[关键字]词义; 语意关系; 语言(为本的)测试;
| 中文概念词典的结构
[作者]于江生; 俞士汶;
[摘要]中文概念词典 (ChineseConceptDictionary ,简称CCD)是北京大学计算语言学研究所开发的与WordNet兼容的汉语语义词典。本文着重描述了CCD的结构 :CCD中的“概念”用同义词的集合定义 ,CCD的主关系———概念之间的继承关系 (即上下位关系 )和一些附加关系使得CCD形成一个概念网络 ,其上的演绎规则是严格形式化了的 ,可应用于中文的语义分析
[Abstract]Chinese Concept Dictionary (CCD) is a WordNet like semantic lexicon,developed by the Institute of Computational Linguistics,Peking University.This article focuses on the structure of CCD,which presents a concept defined by a set of synonyms (SynSet) and a network of concepts based on the hypernymy hierarchy,the basic relationship,with other supplementary relationships.The deductive rules on this semantic network are mathematically formalized,which could be well applied to Chinese semantic analysis.
[关键字]概念; 同义词集合; CCD; WordNet; 计算词典学;
|
共95页 当前第32页 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
|