[ 2010 September,09, Thursday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2006年第1期)
汉语韵律词F0曲线的优化
[作者]刘浩杰; 杜利民;

[摘要]汉语韵律词内部音节重音的强弱对总的F0曲线的特征有很大影响。本文参考生成F0曲线的数学优化模型[1],提出了对由孤立单音节调型曲线串接而成的汉语韵律词的F0曲线的连续性、平滑性、曲线形状、平均值进行整体优化的x2估计方法,实现了在重音作用下的F0曲线的优化。在谐波+噪声合成系统上实验研究了汉语三音节韵律词的64种不包含轻声的调型组合和10种结尾为轻声的调型组合的F0曲线的优化效果,展示优化过程中三个控制参数———平滑因子 (smooth)、音节重音强度(stress)、音节F0形状失真度(Distor-tion)对F0曲线整体形状的控制效果和参数取值的有效范围。非正式的听觉实验表明合成语音的自然度有明显提高。

[Abstract]The F0 contour of Chinese prosodic word is influenced greatly by the stress of its syllables.Based on the mathematical model to produce the optimized F0 contour~([1]),this paper proposes a method of x~2 fitting to optimize the continuity,the smoothness,the shape and the average feature of F0 contour of prosodic word,which can achieve the optimization of F0 contour under the function of the stress of the responding syllables.Based on the HNM speech synthesis system,we show the optimized results for the 64 to...
[关键字]计算机应用; 中文信息处理; 语音合成; F0曲线; 优化; x2估计;



基于双层级联文本分类的简历信息抽取
[作者]于琨; 管刚; 周明; 王煦法; 蔡庆生;

[摘要]本文提出了一种基于双层级联文本分类的方法,用于简历信息的自动抽取。本方法将简历文本分解为文本块和文本串,并将简历中包含的信息分解为概要信息与详细信息。首先对简历文本中的文本块进行切分与分类,抽取出概要信息,然后选择可能包含详细信息的文本块,将其切分为文本串,再通过对文本串的分类抽取出详细信息。对1200份中文简历的实验结果表明,本方法适用于简历信息的自动抽取和管理。

[Abstract]This paper presents an approach based on cascaded double-layer text classification for resume information extraction.This approach first divides a resume into block and string.Then it divides the target information into general information and detailed information.It first extracts general information by block segmentation and classification.Then it selects those blocks that may contain predefined detailed information with a fuzzy strategy.At last,it segments these blocks into strings and labels the strings...
[关键字]计算机应用; 中文信息处理; 信息抽取; 文本分类; 简历管理;



噪声环境下的鲁棒性说话人识别
[作者]白俊梅; 张世磊; 张树武; 徐波;

[摘要]在实际应用中,噪声或信道干扰导致说话人识别(SR)识别性能急剧下降。针对该问题,本文分析传统方法的优缺点并提出相应的系统解决方案:采用维纳滤波对语音信号进行前端处理;以MFCC声道特征结合基频(F0)韵律特征来提高识别系统的鲁棒性。实验结果表明:维纳滤波能有效地消除噪声影响;经维纳滤波处理后,使得F0-MFCC联合模型能更好的区分说话人。可以看出在噪声环境下系统的综合性能得到很大改善。

[Abstract]Speaker recognition(SR) has got excellent result in clean speech.However,the effects of noises or channel mismatch can cause significant performance degradation in practical appliance.The focus of this paper is to address those problems related to robust and efficient speaker identification(SI) in noise environment.The main contributions center around two areas that include signal processing based on Wiener filtering and speaker features integration of F0 and MFCC.The experimental results on YOHO corpus sho...
[关键字]计算机应用; 中文信息处理; 说话人辨认; 维纳滤波; F0-MFCC;



基于语料库的高频最大交集型歧义字段考察
[作者]李斌; 陈小荷; 方芳; 徐艳华;

[摘要]交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。

[Abstract]Overlapping ambiguity is still an open issue in Chinese word segmentation.This paper makes a deep investigation on Maximal Overlapping Ambiguity String(MOAS).First,we discuss the disadvantage of using FBMM to detect OAS.Then,by word omni-segmentation,we collect 14906 high frequent MOASs from People's Daily corpus which contains about 400M characters.For these MOASs,1354270 sample sentences are randomly selected and manually labeled.The results show that about 70% of MOASs with true ambiguity have a strong b...
[关键字]计算机应用; 中文信息处理; 最大交集型歧义字段; 全切分; 强势切分;



汉语朗读话语重音自动分类研究
[作者]胡伟湘; 董宏辉; 陶建华; 黄泰翼;

[摘要]汉语的重音由于受到声调、语调以及韵律单元层级的干扰和制约,对于重音的自动感知一直是比较困难的问题。针对标准的朗读普通话语,本文在广义韵律结构的框架下研究了重音的声学表现,设计并实现了重音的自动感知模型。本文提出的基于分类树结构的区分度模型能有效地结合韵律单元结构对重音的制约。研究结果表明,音高高线、调域、音长是表达重音最重要线索,利用这些线索能有效地实现对重音的自动感知。我们的模型能一般能达到80%左右的重音检出水平。

[Abstract]Restricted by prosody hierarchy and disturbed by tone and intonation,it is a hard task to detect the stress of Chinese speech automatically.In this paper, aiming at automatic stress perception in normal mandarin reading speech,we studied some acoustical measurements based on F0,duration and intensity and proposed a novel model to calculate the stress of each syllable.With a structure of classify tree,the model combined the restriction of tone context and prosody hierarchy effectively.It was shown from the r...
[关键字]计算机应用; 中文信息处理; 重音; 韵律结构;



多预测子融合实时连续语音识别输出词正误判别
[作者]付跃文; 杜利民;

[摘要]本文在采用堆栈译码词网重估输出作为识别最终输出的连续语音识别实时解码条件下,利用决策树方法将多个预测子融合,对识别输出词进行正确和错误的判别。本文首先构造了词后验概率、词长、相邻词的后验概率、词的声学和语言得分等共13个预测子,然后利用决策树方法,通过选择不同的预测子组合方式和适当的决策树建树参数,筛选出预测子的最佳组合,建立优化的决策树进行输出词的正误判别。实验结果表明:利用局域词图计算的词后验概率与词长、相邻词的后验概率等几种实时预测子融合后,对识别输出词的正误判别能力得到提高,并且在实时性和分类效果两个方面优于n-best输出的相应结果,相对于基线系统,则分类错误率下降41.4%。实验结果也表明本文提出的相邻词的后验概率是相对重要的预测子。

[Abstract]Under the decoding strategy of using stack decoding to rescore the word trellis to generate final output,this paper uses decision tree to combine multiple predictors to identify each of recognition output words as correct or incorrect.A series of predictors are constructed,including word posterior probability,word length,word posterior probability of neighboring words,13 in all.Optimal combination of predictors is found and best decision tree is constructed for correct-incorrect classification of output wor...
[关键字]计算机应用; 中文信息处理; 连续语音识别; 预测子; 决策树;



藏文键盘布局的优化设计方法
[作者]高定国; 龚育昌;

[摘要]键位设计是实现藏字编码输入的关键步骤。由于藏字构件数多于标准键盘的可用键位数,较好地解决方法是把几个构件归并到一个键位上,但键位的归并可能会带来重码。为了有效地解决这一矛盾,本文采用了键位布局的优化设计方法,利用图论和概率方法求出藏字构件的极大独立集,以使得键位归并所产生的重码现象降到最低。文中详细介绍了求极大独立集的算法、矛盾构件的查找法、极大独立集数目的控制法、极大独立集最优划分的选择以及算法的流程图。并根据工程心理学方法把现代藏字的构件布局到标准键盘上,使得该布局的标准键盘可以一键一构件地输入现代藏字,且仅产生二对重码。

[Abstract]Arranging Tibetan on a keyboard is a crucial step to input Tibetan code.The better way to resolve the problem of Tibetan component more than available key is merging more components onto one key,but will bring out repeated code.In this paper we use the optimal design method based on graph theory and probability to arrive the maximum independent sets of coding components,and to reduce repetition of codes to absolute minimum.The algorithm to find maximum independent sets of Tibetan coding component and method...
[关键字]计算机应用; 中文信息处理; 优化设计方法; 藏字; 键位布局;



基于词联接的诗词风格评价技术
[作者]李良炎; 何中市; 易勇;

[摘要]在当前自然语言处理的研究状况下,文学语言处理应当受到足够的重视。诗词艺术集中体现了文学语言的形象性、情感性、个性等特征,是文学语言处理研究很好的切入点。风格评价是文学语言处理的重要课题,极具挑战性。本文以诗词语言为具体研究对象,以基于词联接的自然语言处理技术为技术背景,着重介绍并验证基于词联接的诗词风格评价技术。提出了计算方法,设计了诗词风格评价问卷调查实验。结果表明,人的诗词风格评价共性大于个性,基于词联接的诗词风格评价技术能够有效地评价诗词风格。

[Abstract]Literary language processing deserves its due attention in the current research atmosphere of Natural Language Processing(NLP).Since poetry fully reveals literary language features such as vividness,sensibility and individuality,it is the appropriate start-point in NLP.Stylistic analysis thus contributes as an important task in literary language processing with lots of challenges.This paper looks into the research object,poetic language,strongly recommends and carefully proves poetry stylistic analysis tech...
[关键字]计算机应用; 中文信息处理; 文学语言处理; 诗词风格; 评价技术; 词联接;



层次型金融票据图像分类方法
[作者]殷绪成; 江世盛; 韩智; 刘昌平;

[摘要]金融票据图像识别处理是当今的一个热点研究方向,而票据分类是其中重要的基础部分。针对种类繁多、数量巨大、版面复杂和噪声干扰严重的金融票据彩色图像,本文提出了一种基于二叉树决策的层次型票据类型匹配方法。该方法利用三个类型判断器:基于票据版面结构的松弛匹配、基于OCR的票据标题识别和基于票据颜色的色彩分析,层次化的进行票据类型判断。实验表明,层次型金融票据图像分类方法具有良好的效果;基于该方法的银行票据识别处理系统已经广泛应用于各大银行的相关业务系统中。

[Abstract]Recently,financial document analysis and recognition is a hot research topic,and form classification is one of its fundamental parts. In this article,we introduce a hierarchical method for classifying financial documents using a binary tree decision.First,form classification is based on elastic matching of form structure shape.Then,OCR of document titles is performed.Thirdly,document color is re-confirmed.As a result,the sequent range of document types becomes more and more tighter.At last, the final decisi...
[关键字]人工智能; 模式识别; 金融票据图像识别; 票据分类; 层次型;



基于统计学习的机器翻译模板自动获取方法
[作者]胡日勒; 宗成庆; 徐波;

[摘要]本文提出了一种从未经深层次处理的双语口语语料库中自动获取机器翻译模板的方法。这种算法是一种无监督的、基于统计的、数据驱动的方法。这种方法有两个基本的步骤。首先,通过语法归纳分别从源语言和目标语言中获取语义类和短语结构类。然后,利用双语划界文法将短语结构类进行对齐。对齐的结果经过后处理就可以得到翻译的模板。初步的试验结果表明,本方法是有效的和切实可行的。

[Abstract]In this paper,we propose a new approach which automatically acquires translation templates from the unannotated bilingual spoken language corpora.This approach is an unsupervised,statistical,data-driven approach.In the approach,two basic algorithms named grammar induction algorithm and alignment algorithm using Bracketing Transduction Grammar are adopted.First,the semantic groups and the phrasal structure groups are extracted from both the source language and the target language.Second,the alignment algorit...
[关键字]人工智能; 机器翻译; 双语语法归纳; 翻译模板获取; 结构对齐;



共95页 当前第8页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号