[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2004年第5期)
一种符合ISO14651语义的藏文排序实现方法
[作者]林河水; 程伟; 曹晖; 李文波; 吴健; 孙玉芳;

[摘要]本文介绍了一种实现藏文字典序排序的方法 ,它针对藏文“大字丁字符集”编码方案。通过引入有(无 )前加基字符的概念 ,它把待排序的藏字预处理为有 (无 )前加基字符、前加字符、基字 (基字符或者字丁 )、后加字符、再后加字符串后 ,再行比较 ,从而避免拆分字丁。本实现方法符合ISO/IEC14 6 5 1标准语义

[Abstract]This thesis discusses the machine ordering of Tibetan words on the basis of linear characters, which means any pre-composed forms or vertical stack can be processed as a single Tibetan character. Our method is to divide Tibetan words into two types: with or without pre-consonant character. And by defining base characters without pre-consonants and base characters with pre-consonants, we convert the Tibetan words into all kinds of strings like base characters without pre-consonants, base characters with pre-...
[关键字]计算机应用; 中文信息处理; 藏文; 字典序; 机器排序;



自然场景文本定位
[作者]欧文武; 朱军民; 刘昌平;

[摘要]随着自然场景文本识别研究的不断深入 ,建立标准的场景文本图像库和了解该领域的研究现状变得越来越重要。为此 ,2 0 0 3年国际文档分析和识别大会专门建立了一个这样的图像库 ,并组织了自然场景文本识别比赛 ,我们参加了其中的自然场景文本定位分赛。本文对我们参加这次比赛的算法做了介绍并给出了比赛结果 ,在文章最后 ,对参赛算法做了比较 ,指出了场景文本定位的发展现状

[Abstract]With the rapid growth of research on text recognition in natural scene, it turns to be urgent to understand the development situation of this art and to establish common benchmark datasets. So the organizers of international conference on document analysis and recognition 2003 develop a dataset on this art specially and organize the robust reading competition, and we take part in the sub-competition of robust text location. In this paper we shall introduce our algorithm on this competition and give the co...
[关键字]人工智能; 模式识别; 文本定位; 边缘密度; 字符识别; 图像处理;



汉语文语转换系统中停顿指数的自动标注
[作者]赵永贞; 刘挺; 王志伟; 陈惠鹏; 邵艳秋;

[摘要]本文采用了一个基于C TOBI的停顿指数标注的语料库 ,利用有指导的学习方法对自动停顿指数标注方面做了一些有益的探索。本文共实现了三种方法 :基本的马尔科夫模型 ,引入了词长信息的马尔科夫模型 ,引入词长信息的马尔科夫模型结合基于转换的错误驱动的学习方法。然后通过对 30 0 0句的真实文本进行开放测试 ,以基本的马尔科夫模型的结果作为基准 ,实验结果不断改进 ,最终达到了 78 6 %的准确率 ,错误代价降低了 14 5 %

[Abstract]This paper uses a corpus with break indices based on C-TOBI. Applying supervised learning method, some useful attempts are made in the field of automatic break indices intonation. Three approaches, namely, the basic Markov model approach, the Markov model using word length approach, and the Markov model using word length combining transformation-based error-driven learning approach, are presented. After implementing these three approaches, open tests are made on a corpus of 3,000 sentences. The performances...
[关键字]计算机应用; 中文信息处理; 文语转换; 停顿指数; 马尔科夫模型; 基于转换的错误驱动的学习;



基于最大熵模型的韵律短语边界预测
[作者]李剑锋; 胡国平; 王仁华;

[摘要]语音合成系统中 ,由于韵律短语边界预测的水平不高 ,阻碍了合成语音自然度的进一步提高。本文根据韵律短语边界预测的特点 ,提出了基于最大熵模型的预测方法。为考察该方法的能力 ,在较大规模的数据集上 ,使用相同的属性集 ,对比了其与主流的决策树方法的预测效果。还考察了词面信息的贡献 ,以及选择特征时的不同阈值对最大熵模型的影响。实验表明 ,使用相同的属性信息 ,最大熵方法比传统的决策树方法在F Score上有 5 5 %的提高 ,加入了词面信息的最大熵模型则有 9 4 %的提高。最后指出 ,最大熵模型相当于一个带权重的规则系统 ,可以很好的解决规则冲突问题

[Abstract]In TTS (Text-To-Speech) systems, prosody phrase breaks can not be predicted with high accuracy, which slows down the improvement of naturalness of synthesized speech. In this paper, a maximum entropy based model for prosody phrase break prediction is proposed, and a comparison is conducted on large corpora between the new model and the decision tree based model which is the mainstream method for prosody phrase break prediction. The contribution of lexical feature set and influences of different cutoff value...
[关键字]计算机应用; 中文信息处理; 韵律短语边界预测; 最大熵; 决策树;



基于语音增强失真补偿的抗噪声语音识别技术
[作者]丁沛; 曹志刚;

[摘要]本文提出了一种基于语音增强失真补偿的抗噪声语音识别算法。在前端 ,语音增强有效地抑制背景噪声 ;语音增强带来的频谱失真和剩余噪声是对语音识别不利的因素 ,其影响将通过识别阶段的并行模型合并或特征提取阶段的倒谱均值归一化得到补偿。实验结果表明 ,此算法能够在非常宽的信噪比范围内显著的提高语音识别系统在噪声环境下的识别精度 ,在低信噪比情况下的效果尤其明显 ,如对 - 5dB的白噪声 ,相对于基线识别器 ,该算法可使误识率下降 6 7 4 %

[Abstract]This paper proposes a roubst speech recognition method based on the compensation of speech enhancement distortion. In the front-end,speech enhancement effectively suppresses the background noise to improve the Signal-to-Noise Ratio (SNR) of the input signal. The residual noise and the spectrum distortion after enhancement are adverse factors for speech recognition, and their effects will be compensated by Parallel Model Combination (PMC) in recognition stage or by Cepstral Mean Normalization (CMN) in featur...
[关键字]计算机应用; 中文信息处理; 语音增强; 倒谱均值归一化; 并行模型合并; 语音识别;



噪音环境下基于高阶谱的端点检测算法
[作者]王卓; 苏牧; 李鹏; 徐波;

[摘要]本文将现有的各种端点检测方法分为鲁棒特征 ,特征滤波 ,模型匹配三种方法 ,并列举了各种端点检测算法 ,分析不同算法的优缺点。在此基础上 ,深入分析了信号域噪声与语音的本质区别 ,引入了数学上的高阶累计量的思想 ,建立了基于高阶谱的高维抗噪特征 ,利用轴向积分映射的方法将高维高阶谱空间转换为一维空间 ,利用非平凡谱点的非线性组合建立一维的高阶谱特征 ,同时并建立基于抗噪特征的完善的搜索算法。大量实验证明该算法在各种噪音 ,不同信噪比的条件下都取得了非常好的效果

[Abstract]In this paper, various endpoint detection methods are classified into three kinds: robust feature, feature filtering and template match, which are evaluated and analyzed against each other. After Exploring the essential differences between noise and speech, Higher Order Statistics (HOS) are introduced in this paper and a method of using radially integrated polyspectra is applied as a feature, where multi-dimentional spectra space is transformed into one-dimentional spectra space. Experiments show that this ...
[关键字]计算机应用; 中文信息处理; 鲁棒特征; 高阶累计量; 轴向积分映射;



汉英双语混合声学建模方法研究
[作者]于胜民; 张树武; 徐波;

[摘要]本文从直接合并汉英双语的 phoneset入手 ,对三种不同的汉英双语混合声学建模方法进行了研究。这三种方法分别是 :(1)直接合并二者的 phoneset进行声学建模 ;(2 )基于IPA映射的统一声学表示 ;(3)对汉英双语的Phone进行自动合并聚类。实验结果表明 ,方法 (1)的声学模型较为鲁棒 ,但是建模单元也最多 ,模型不够紧凑 ;方法 (2 )具有紧凑的模型 ,但是鲁棒性较差 ;方法 (3)以较少的Phone进行双语混合声学建模 ,不仅保持了 (2 )中模型紧凑的特点 ,而且基本达到 (1)的识别率 ;特别是当使用声学似然度准则时 ,英语的识别率甚至超过了方法 (1)

[Abstract]In this paper, three different approaches of Chinese-English bilingual acoustic modeling are investigated and compared. The first approach is to simply combine Chinese and English phone inventories together without phone shared across the languages. The second one is to map language-dependent phones to the inventory of the International Phonetic Association (IPA) based on phonetic knowledge to construct the bilingual phone inventory. The third one is to merge the language-dependent phone models by hierarchi...
[关键字]计算机应用; 中文信息处理; 语音识别; 声学建模; 汉语双语; 合并聚类; 似然度;



汉语句法树库标注体系
[作者]周强;

[摘要]语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上 ,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础 ,对句法树上的每个非终结符节点都给出两个标记 :成分标记和关系标记 ,形成双标记集的句法信息描述体系。目前 ,这两个标记集分别包含了 1 6和 2 7个标记 ,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上 ,我们开发完成了 1 0 0万词规模的汉语句法树库TCT ,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性

[Abstract]The syntactically annotated corpora, commonly called ‘treebanks’, play an important role in empirical linguistics as well as in machine learning methods in natural language processing. After a brief summarization of several treebank annotation of different language, we proposed a new annotation scheme for Chinese treebank in this paper. Under this scheme, every Chinese sentence will be annotated with a complete parse tree, where each non terminal constituent is assigned with two tags. One is the syntactic ...
[关键字]计算机应用; 中文信息处理; 句法树库; 标注规范; 语料库语言学;



基于规则的自动分类在文本分类中的应用
[作者]李渝勤; 孙丽华;

[摘要]文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为 :当类别之间分类特征的交叉变大时 ,分类精度呈下降趋势 ,在多层分类的情况下 ,此局限尤为突出。针对此局限性 ,为了提高自动分类的精度 ,我们引入了基于规则的自动分类来对其进行改进和扩充 ,并整合两种自动分类技术的优点 ,设计出了混合分类器系统 ,从而获得了比较理想的分类效果

[Abstract]The technique of text automatic category is to classify texts into one or more classes according to some strategy.This paper firstly reports three kinds of technique of text automatic category based on statistic ( k nearest neighbor ,support vector machine and nave bayes),and analyses their advantages and disadvantages.The weakness of statistic based automatic category is the category precision decrease while the character intersect within classes increase, especially in the case of multi layers classify...
[关键字]计算机应用; 中文信息处理; 文本挖掘; 文本分类; 规则分类;



半结构化中文信息检索中查询结果相关度算法的研究
[作者]曲卫民; 孙乐; 孙玉芳;

[摘要]本文研究了对富含文本信息的XML数据进行基于关键字的查询时 ,查询结果与查询条件之间相关度的计算问题 ,分析了利用传统信息检索技术解决该问题时存在的一些不足 ,提出了一种基于节点的动态的关键字权重计算法 ,以及综合考虑关键字在查询结果中的频率分布特征和结构分布特征的查询结果相关度计算法 ,有效解决了XML数据中的结构信息对相关度计算的影响 ,实验证明本文中的方法取得了较好的检索性能

[Abstract]This paper study the problem of producing ranked result for keyword search over text rich XML documents. We analyze the challenges introduced by XML data if utilize traditional Information Retrieval to solve the problem. Then we propose a dynamic element oriented method to compute the weight of
[关键字]计算机应用; 中文信息处理; XML; 信息检索; 相关度算法;



共95页 当前第19页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号