[ 2010 September,09, Thursday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2006年第5期)
基于时域单元融合的拼接平滑算法
[作者]郭武; 吴义坚;

[摘要]针对基于大语料库的拼接合成系统中经常出现的拼接单元不匹配问题,特别是浊音拼接处不匹配对合成效果会产生较大的损伤,本文提出一种基于时域单元融合技术的平滑算法。它通过模板匹配选取合适的过渡段模板作为融合单元,并同时进行相位对齐,然后采用TD-PSOLA的方法对拼接单元和融合单元进行时域上的基音同步迭加融合。它的优点是对音质损伤很小,而且直接在时域上进行,效率高。通过对平滑前后语谱及主观听感两个方面的对比评测,平滑后的效果比平滑前有明显改善。

[Abstract]The corpus-based concatenative speech synthesis methods have became popular for its high-quality speech.However,the quality of concatenated speech often suffers from discontinuities between the acoustic units,due to contexual differences and variations in speaking styles across the database,especially between the voiced units.In this paper,we proposed a smoothing method called time-domain unit fusion(TD-UF) to smooth the discontinuities between the voiced units. In the proposed method,the appropriate fusion...
[关键字]计算机应用; 中文信息处理; 时域单元融合; 拼接单元; 融合单元;



基于语音配列的汉语方言自动辨识
[作者]顾明亮; 沈兆勇;

[摘要]本文首先讨论了汉语方言辨识的依据及特征选取的基本原则,并由此导出了区间差分倒谱特征。然后利用GMM符号发生器和N元语言模型及ANN建立了一个方言辨识系统,该系统与传统的语种识别系统相比,具有以下特点:第一,系统不需要标注好的语音库,从而降低了汉语方言语音库建设的劳动强度和要求;第二, GMM符号化器计算量远远低于音素辨识器,从而提高了方言辨识速度,便于今后实时处理。第三,具有更高的辨识效果和更好的容错性。汉语普通话和三种方言辨识实验结果表明,系统平均辨识率可以达到83.8%。

[Abstract]This paper discusses the criterions for distinguishing different Chinese dialects and the basic features selection firstly.According to these principals,a novel feature named district differential cepstral feature was proposed.Then,a novel dialect identification system combining GMM tokenizer,N-gram language model and ANN is constructed.Compared with traditional LID system,the new system has following characteristics: first,it is unnecessary to use tagged dialects speech database,which becomes less labour-i...
[关键字]计算机应用; 中文信息处理; GMM符号化器; N元语言模型; 汉语方言辨识;



编码字符集标准及分类研究
[作者]谢谦; 芮建武; 吴健;

[摘要]编码字符集标准是计算机处理文字信息的基础,本文提出了编码字符集三元组抽象,对现有编码字符集标准进行了简单回顾和总结,深入剖析了影响巨大的ISO 2022标准及其派生标准,对ISO 2022编码机制应用于多语言环境的局限性进行了探讨,阐明了使用通用编码字符集UCS的必要性,并对其进行了分析。探讨了现有编码分类方法存在的问题, 引入了一种对编码字符集以及实现方法进行分类的新方法,使用该方法对现有标准进行了归类;最后对汉字字符集相关的国家标准进行了分析评介。

[Abstract]Coded character set standard are the bases of the computer text information processing.In this paper,a 3-turples model is proposed to descibe the coded character set.The existing code standards are reviewed and summarized.And the ISO 2022 and it's deriving standards are analyzed in detail;including the limitation of utilizing ISO 2022 in multilingual environment.Necessity of founding UCS(Universal Character Set) is presented,along with an outline analysis of UCS.After evaluating current classification metho...
[关键字]计算机应用; 中文信息处理; 编码字符集;



编码字符集标准及分类研究
[作者]谢谦; 芮建武; 吴健;

[摘要]编码字符集标准是计算机处理文字信息的基础,本文提出了编码字符集三元组抽象,对现有编码字符集标准进行了简单回顾和总结,深入剖析了影响巨大的ISO 2022标准及其派生标准,对ISO 2022编码机制应用于多语言环境的局限性进行了探讨,阐明了使用通用编码字符集UCS的必要性,并对其进行了分析。探讨了现有编码分类方法存在的问题, 引入了一种对编码字符集以及实现方法进行分类的新方法,使用该方法对现有标准进行了归类;最后对汉字字符集相关的国家标准进行了分析评介。

[Abstract]Coded character set standard are the bases of the computer text information processing.In this paper,a 3-turples model is proposed to descibe the coded character set.The existing code standards are reviewed and summarized.And the ISO 2022 and it's deriving standards are analyzed in detail;including the limitation of utilizing ISO 2022 in multilingual environment.Necessity of founding UCS(Universal Character Set) is presented,along with an outline analysis of UCS.After evaluating current classification metho...
[关键字]计算机应用; 中文信息处理; 编码字符集;



汉字输入编码优劣评测方法的探讨
[作者]孙基寿;

[摘要]字形编码的优劣必须进行科学的评测。编码规则的轻松性和速度潜力是评价字形编码优劣的两个关键指标。本文共分四部分,第一部分简单地陈述了什么是简单、规范、易学、轻松,提出了选择轻松的理由;第二部分通过具体的例子说明了导致轻松与不轻松的内在因素,提出了评测轻松的实验草案;第三部分分析了考核一种通用键盘汉字输入系统速度素质的现状,认为字形编码应将编码层次和软件层次分割开来进行性能考核,编码层次应评测编码规则的轻松性和速度潜力;第四部分从实践和理论两个方面分析了平均偏移量与速度潜力之间的关系,即平均偏移量越小,速度潜力就越大,并提出了反映速度潜力的参数指标。

[Abstract]The merits and demerits of Character code must be evaluated scientifically.The relaxation and the speed potential of the coding rule are two key indicators.This paper is divided into four parts.The first part introduces the concept of simplification,standard,ease-to-learn and relaxation,and proposes the reason for choosing the topic of relaxation.The second part explains the intrinsic factors that result in relaxation or tenseness based on,some concrete examples and also proposes an experimental draft for t...
[关键字]计算机应用; 中文信息处理; 汉字编码; 评测方法; 轻松性; 速度潜力;



基于规则与统计相结合的中文文本自动查错模型与算法
[作者]张仰森; 曹元大; 俞士汶;

[摘要]中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为 30.57%。

[Abstract]Chinese text automatic proofreading is an important research subject in NLP.A hybrid model based on the combination of rules and statistics are proposed in this article.According to the distribution of Chinese single-character after word segmentation in Chinese text and the conception of "non-multi-character word error",we proposed a group of rules to find errors in texts,to construct the automatic error-detection model and to implement its algorithm by combining the scattered single-character Bigram models...
[关键字]计算机应用; 中文信息处理; 中文文本自动查错; 规则与统计相结合; 非多字词错误; 真多字词错误;



引入标点处理的层次化汉语长句句法分析方法
[作者]李幸; 宗成庆;

[摘要]在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间消耗和歧义边的个数, 并且提高了复杂长句分析的正确率和召回率约7%。

[Abstract]Based on the analysis of the usage and the syntactic function of Chinese punctuations,this paper proposes a new hierarchical approach to parse the long Chinese sentences.In traditional parsing approaches,the parsing procedure is performed in an one-level way and the punctuation marks are not specially treated.Correspondingly,in our approach,the complex long Chinese sentences are broken into sub-sentences or units(say 'units' hereafter) by using punctuation marks with special functions,so that the original w...
[关键字]人工智能; 自然语言处理; 句法分析; 标点符号; 层次化分析方法;



隐喻的计算研究与进展
[作者]王治敏;

[摘要]隐喻作为自然语言处理最棘手的问题之一逐渐引起了学者们的关注,国外学者在隐喻模型设计和隐喻知识库建设方面进行了很多尝试,也取得了一定效果。相比较而言,中文隐喻计算研究却显得有些薄弱,因此本文在传统隐喻研究的基础上综述了隐喻计算模型和隐喻知识库建设方面的进展,重点介绍了基于优选限制思想的M et5系统,基于实例方法的M IDAS系统,以及以统计为手段,基于大规模语料库提取的隐喻分析模型CorM et系统。通过总结国外的相关研究成果,探索面向信息处理的汉语隐喻形式化的研究方向。

[Abstract]As one of the intractable problems in the field of NLP,Metaphor has attracted more attention from researchers in recent years.Western scholars have done many researches on this field and made significant progress.However,research in Chinese metaphor is just at the starting point.In order to find a solution for Chinese metaphor formulization,this paper surveys the recent developments in the design of the computational model of metaphor and the construction of metaphor knowledge-base.Several computational mod...
[关键字]计算机应用; 中文信息处理; 综述; 隐喻计算模型; 源域; 目标域; 隐喻概念;



复述技术研究综述
[作者]刘挺; 李维刚; 张宇; 李生;

[摘要]复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复述研究的对象主要是短语或者句子的同义现象。自然语言处理各种底层技术的不断发展和成熟,为复述研究提高了可能,使之受到越来越多的关注。在英文和日文方面,复述技术已经被成功的应用到信息检索、自动问答、信息抽取、自动文摘以及机器翻译等多个领域,有效地提高了系统的性能。本文主要对复述实例库的构建、复述规则的抽取以及复述的生成等几方面的最新研究进展进行详细的综述,并简要介绍了我们在中文复述方面进行的初步研究工作。在文章的最后一部分,我们对复述技术的难点及未来的发展方向进行了展望,并对全文进行了总结。

[Abstract]Paraphrase is a common phenomenon in natural language which captures core aspects of variability in language.The study of paraphrase is about the synonymy phenomena of phrases or sentences.With the development of foundation technology of natural language processing,research on paraphrase has been recently received growing attention.Currently,paraphrasing technology has been applied in many NLP fields,such as,information retrieval,question answering,information extraction,automatic text summarization,machine...
[关键字]人工智能; 自然语言处理; 综述; 句子复述; 复述语料库; 复述抽取; 复述生成;



重新审视跨语言信息检索
[作者]闵金明; 孙乐; 张俊林;

[摘要]阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题,而跨语言信息检索是解决这个问题的有效方法之一。本文从定义跨语言信息检索系统开始,给出了一个标准的跨语言信息检索系统框架和评价方法,对主流研究方法进行了重新审视,进一步明确指出了跨语言信息检索中必须解决的核心问题,最后通过分析研究现状给出了未来可能的重点研究方向。

[Abstract]One of the most frustrating obstacles in sharing online information among people in different countries is the multilingual problem.The research of Cross-Language Information Retrieval(CLIR) plays an important role on this problem.Firstly a formal definition and the standard framework of CLIR are given in this paper.Secondly,we presents the evaluation method for a CLIR system.Then three mainstream approaches in research of CLIR are reassessed,and the key problems,that is,out of vocabulary(OOV) and word sens...
[关键字]计算机应用; 中文信息处理; 跨语言信息检索; 未登录词; 词义消歧; 多语言信息检索;



共95页 当前第2页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号