[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2002年第2期)
“是”字句主语和宾语的自动界定
[作者]吴云芳; 段慧明; 俞士汶;

[摘要]“是”字句是现代汉语中比较特殊的、又是比较常见的一种句子形式 ,对其主语部分和宾语部分的自动界定和标注将有助于机器翻译、信息检索、信息提取等的研究。本文通过考察语料中“是”字句的句法表现 ,总结、提取了“是”字句的自动标注规则 ,对《人民日报》一个月语料中的“是”字句进行了自动标注。实验结果表明 ,对没有逗号的句子 ,标注正确率可达到 99%以上 ;对有逗号的句子 ,标注正确率为 89%。

[Abstract]是" sentence is a special and often used sentence in mandarin Chinese.This paper examines "是" sentences in the corpus,and presents some rules for automatic bracketing the subject and object of them.The result is agreeable:the precision is over 99% in the sentences containing no comma and 89% in the sentences containing comma.
[关键字]“是”字句; 自动标注; 浅层分析;



一种基于日语格语法表示的英语生成
[作者]沈逸海; 陈家骏; 戴新宇; 王启祥;

[摘要]本文在已开发的一个具有一定规模的基于转换翻译的日汉机器翻译系统的基础上 ,为了检验该系统的日语分析结果的表达能力 ,设计一个基于日语格语法表示的英语生成系统。文章首先描述了一种基于格语法的日语分析及其表示 ;然后给出了从该格语法表示的日语生成英语的生成过程 ,重点对生成规则的设计进行描述 ;最后对英语生成中的一些问题进行探讨

[Abstract]This paper presents an English generation system based on the case grammar representation of Japanese which is used in a Japanese-Chinese machine translation system developed by the paper′s authors.The case grammar based Japanese analysis and the representation of analysis results are given first.Then,the generation policy,especially,the generation rule system is presented.At last,some difficult issues in English generation are discussed.
[关键字]机器翻译; 日英; 格语法; 生成; 规则;



基于数学形态学的自适应文字版面分析方法
[作者]刘飞; 罗予频; 胡东成;

[摘要]随着光学字符识别能力的提高 ,处理日渐复杂的版面成为文件处理系统中的关键部分。针对中文版面的特点 ,在基于组件的版面分析方法基础上 ,本文提出了一种具有自适应能力的基于数学形态学中膨胀变换的版面分析方法。该方法对基于组件版面分析的核心部分 -文字合并进行了自适应扩展 ,使其具有对不同字体大小、间距等样张更大范围的适应能力

[Abstract]With the improvement of character recognition capability,processing of the more and more complex layout is a very important part in the document processing system.In order to adapt the characteristics of Chinese layout,based on the component based layout analysis algorithm,this paper proposes an adaptive morphology based layout analysis algorithm.This algorithm adds the adaptive expedition into the kernel of component based layout analysis character combination,and gives it more adaptive capability to pr...
[关键字]数学形态学; 膨胀变换; 组件; 版面分析;



基于知识的银行票据二值化方法
[作者]徐蔚然; 张洪刚; 刘刚; 郭军;

[摘要]本文结合银行票据OCR系统的开发 ,提出一种基于知识进行银行票据二值化的新思路 ,并针对各类识别域具体构造了一整套二值化方法。通过在银行票据OCR系统中的应用 ,验证了本文二值化方法的效果

[Abstract]Combining with the development of financial document OCR system,this Paper presents a new idea about knowledge based binarization for financial document.Aiming at different kinds of recognition fields (fields of financial document that need to be recognized),this paper constructs a suit of binarization methods.The effectiveness of those methods is proved by practically applying.
[关键字]知识; 二值化; 文字识别; 金融票据;



中文金融新闻中公司名的识别
[作者]王宁; 葛瑞芳; 苑春法; 黄锦辉; 李文捷;

[摘要]在金融领域信息抽取中 ,公司名扮演着非常重要的角色 ;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上 ,总结出了公司名的结构特征及其上下文信息 ,建立了六个用于识别公司名的知识库 ,并提出了一个基于两次扫描过程的识别策略。初步实验结果表明 ,在封闭测试中实验系统公司名识别的精确率可以达到 97 3% ,召回率可达 89 3% ;在开放测试中精确率可以达到 6 2 8% ,召回率可达 6 2 1%。

[Abstract]Identifying company names in running texts plays a significant role in financial information extraction.Based on the thoroughly investigations of financial articles,the relevant structural features and contextual constraints were obtained.In this paper,a company name identification system is proposed,which is built on the six knowledge bases and a twice scan method.The experiment achieved 97 3% precision and 89 3% recall respectively by close test,and 62 8% precision and 62 1% recall respectively by o...
[关键字]公司名; 金融领域; 专名识别; 信息抽取;



朗读语料与自然口语的差异分析
[作者]刘亚斌; 李爱军;

[摘要]本文通过对朗读语音语料库ASCCD、自然口语独白语音语料库CASS和自然口语对话语音语料库CADCC的统计分析 ,试图说明朗读语料与自然口语的主要差异。文章主要对二者在音节、声韵、副语言学和非语言学现象、语篇话题、话轮转换、基频变化以及音段音变现象等几个方面作了一些统计分析 ,并由此归纳出朗读语料与自然口语的几点不同

[Abstract]From the development of language,spontaneous speech is an archaic,common used and typical form of the language.In the past decades from 50s to 80s of the 20th century,we focused on read speech to do our research in three fields: acoustics,psychology and physiology.In the recent 10 years,the research on spontaneous speech is becoming more and more important for the speech applied technology and the associated theories.Spontaneous speech rather than read speech is one of the unresolved problems faced by many ...
[关键字]语音语料库; 自然口语; 朗读语篇; 韵律; 音段;



基于特征加权的应力影响下顽健语音识别方法
[作者]张磊; 韩纪庆; 王承发; 张文祥;

[摘要]通过对应力影响下语音数据的分析 ,发现不同的特征维对变异的敏感程度不同。一般低维特征对变异比较敏感 ,相应的高维特征敏感程度差些。在此基础上 ,提出一种新的基于特征加权的变异语音识别方法。该方法通过对不同维特征加不同的权值来消除变异因素对语音特征的影响 ,从而提高系统的识别性能。文中提出对线性权值用最大相对熵估计方法获得权值。对航空模拟飞行器中采集的特定话者小词表孤立词的实验 ,最大相对熵估计方法的识别率可达到 89 9% ,与多重风格训练方法相比 ,识别率提高了 13 1%。

[Abstract]Based on the analysis of stressful speech,an interesting fact that the different dimension of MFCC feature has different sensitivity of G force is found.Generally,the lower dimensions are more sensitive to stress,and the sensitivity of higher dimensions is less.Therefore,a new approach named weighted MFCC feature is proposed for the recognition under G force in the paper.Using the weighted feature to emphasize the influence of higher dimensions,the better performance of recognition system can be achieved....
[关键字]语音识别; 应力影响; 特征加权; 最大熵相对估计;



基于统计韵律模型的汉语语音合成系统的研究
[作者]陶建华; 赵晟; 蔡莲红;

[摘要]本文论述了采用统计模型进行汉语韵律层级结构分析和韵律建模的思路 ,在此基础上建立了汉语语音合成系统。其中 ,本文还仔细阐述了韵律代价函数的构造 ,及其参数的自动训练算法。同时 ,论文还分析了韵律特征间相互作用对音节基元选取的影响 ,并最终实现了一个连续语流中用于汉语语音合成的音节基元选取模型。测试表明了本文提出的基于统计模型的韵律层级分析和韵律建模思路 ,能够较好应用于汉语语音合成系统的构造 ,并使之具有良好的合成语音的自然度

[Abstract]The paper describes the methods of Chinese Prosodic Hierarchy Analysis and Prosody Modeling,which are based on statistic algorithm.Meanwhile,the paper also describes the prosody cost function and corresponding training method for the parameters.Furthermore,the interaction among the prosodic features is analyzed in respond to its influence in speech unit selection procedure.Based on these,a Chinese Syllable Unit Selection Model was generated for the spontaneous speech synthesis system.The tests show that the...
[关键字]汉语韵律层级结构; 韵律建模; 韵律代价函数;



一种在线递增式语言模型自适应方法
[作者]吴根清; 郑方; 金凌; 吴文虎;

[摘要]本文针对传统统计语言模型的离线自适应方法 ,提出了一种在线实时的递增式自适应方法。该自适应方法需要解决几个问题。第一是要设计一种语言模型结构以适应在线的自适应 ;第二是如何利用在线收集到的语料对语言模型进行实时的参数修改 ;在我们设计的中文音转字平台中 ,将语言模型分成两个部分 ,分别是通用模型和用户模型。对于通用模型 ,采用高效的存储结构结合参数预取技术 ,提高了模型的速度 ;对于用户模型 ,使用动态的加权方法结合MAP动态调整参数。本文所做的实验证明使用该方法能较大程度的降低中文音转字的错误率

[Abstract]In this paper,an online incremental language model adaptation method is proposed,which is different from the traditional offline language model adaptation method.There are some problems in the online incremental adaptation.The first one is how to design a flexible framework for online adaptation,the second one is how to adjust the parameters of the model incrementally according to the corpus collected online.In our application platform,the whole model is divided into two parts--the background model and the ...
[关键字]统计语言模型; N-gram; 自适应; 语音识别;



唇读中序列口型的分类
[作者]单卫; 姚鸿勋; 高文;

[摘要]本文针对汉语中所有声韵母发音序列中的连续口型提出了一种口型分类的思路。在建立了覆盖所有声韵母的汉语双模态语料库的基础之上 ,本文提出了一种两次分类的方法 ,对语料库中的图像进行唇的分割、定位及特征提取 ,并依靠选择的特征 ,将声韵母的发音序列中的口型聚为 15类。本文的目的是在此分类的基础上 ,明确唇读识别阶段的状态数 ,减小搜索的空间 ,提高收敛速度

[Abstract]This paper describes an approach of classifying the continuous mouth shapes,which are obtained from sequence images of Chainese pronunciation of vowel and consonant.Based on the audiovisual bimodal database,we present a classifying method called Two Step Classification.First,we located the lip and extract the features using adaptive chromatic filter model.Then,relying on the features chosen,we classify the sequence mouth shapes into 15 categories.The purpose of mouth shape classification is to confirm the ...
[关键字]唇读; 双模态语料库; 口型聚类; 语音识别;



共95页 当前第35页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号