[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2006年第2期)
基于小波分析的大词汇汉语连续语音识别系统鲁棒性的研究
[作者]颜龙; 刘刚; 郭军;

[摘要]本文提出一种基于小波分析的大词汇汉语连续语音识别的方法,即采用一维小波变换将原始语音信号进行五层小波分解,然后对各层小波系数进行重构,得到五层语音信号,分别对各层语音信号进行训练,得到各层的声学模型,然后结合语言模型对各层声学模型的性能进行测试。通过对纯净语音和带噪语音的各层重构语音数据进行测试。结果表明对于含有高斯白噪声的带噪语音,该方法能使系统性能有所提高,但对于粉红噪声,该方法效果不明显。对于含有真实环境噪声的带噪语音,该方法能获得比基线系统更好的性能。

[Abstract]In this paper wavelet decomposition is used to decompose speech signal into five levels.The wavelet coefficients of each part were reconstructed.Because different frequencies of the speech signal have different influence on the performance of the system,the acoustic model of each level was trained and tested.The experimental results show that the method of this paper is effective on gauss white noise and real environmental noise.However it is not effective on pink noise.
[关键字]计算机应用; 中文信息处理; 大词汇连续语音识别; 小波分析; 声学模型;



印刷体朝鲜文字符中字母的分割与识别研究
[作者]许日俊; 刘昌平;

[摘要]朝鲜文是一种由元音和辅音构成的字母文字。因此经常使用的一种朝鲜文识别方法是:从朝鲜文字符中分离出每一个字母,然后对这些字母进行识别,最后确定识别字符。本文结合结构分析法,通过对字符图像背景进行细化处理,找到字母之间的分割线分离出了每个字母,并且利用两层外围距离特征对这些字母进行了识别。在对4种经常使用的朝鲜文印刷字体进行初步实验的结果表明,字母分割正确率平均达到了97.4%,而字母样本集识别率为99%以上。

[Abstract]Hangul is composed of graphemes of characters which represent.consonants and vowels in korean.One important Hangul character recognition method is thus the approach of separating each grapheme of character and identifying the separated graphemes independently.For separating graphemes,this paper proposes a background-thinning technique combining structural information of characters.then,the separated graphemes are recognized by a statistical method using peripheral features.In a test case with machine printe...
[关键字]人工智能; 模式识别; 字母分割; 字母识别; 朝鲜文字符识别;



基于语义分类树的汉语口语理解方法
[作者]左云存; 宗成庆;

[摘要]口语理解在口语自动翻译和人机对话系统中具有非常重要的作用。本文面向口语自动翻译提出了一种统计和规则相结合的汉语口语理解方法,该方法利用统计方法从训练语料中自动获取语义规则,生成语义分类树,然后利用语义分类树对待解析的汉语句子中与句子浅层语义密切相关的词语进行解析,最后再利用统计理解模型对各个词语的解析结果进行组合,从而获得整个句子的浅层语义领域行为。实验结果表明,该方法具有较高的准确率和鲁棒性,适合应用在限定领域的汉语口语浅层语义理解。

[Abstract]The spoken language understanding is a crucial part in spoken language translation systems and human-machine dialog systems.In this paper,we propose a new approach to spoken Chinese understanding which combines statistical and rule-based methods.In this approach,the semantic classification trees which are built by the semantic rules automatically learned from the training data are used to disambiguate key words related to the sentences'shallow semantic meaning,and then,a statistical model is used to extract...
[关键字]人工智能; 自然语言处理; 语义分类树; 浅层语义分析; 口语理解;



藏文计算机通用键盘布局与输入法研究
[作者]卢亚军;

[摘要]为了改进现有各种藏文计算机键盘布局与输入法,本文依据键盘布局的基本理论、若干原则、相关科学数据和基于藏文语料库的字符、部件、音节、词汇统计数据, 遵循藏语语法规则及其特殊性,在对键盘键位的属性进行专门研究的基础上,研制出“一键多符”和“一键到位”的智能化藏文计算机通用键盘布局与输入法,其藏文文本的键盘输入速度和效率成倍提高,对藏文印刷、办公自动化和信息处理具有广泛的使用价值。

[Abstract]In order to improve the layout and input method of the current various Tibetan computer keyboard,the paper is based on the basic theory of keyboard arrangement,some principles,the relevant scientific data and the Tibetan corpus-based statistical data with respect to characters,parts,syllables and of vocabulary.It also follows its Tibetan grammatical rules and specific characteristics as the basis of the specialized research on the property of current Tibetan keyboards.The author invents a key representing m...
[关键字]计算机应用; 中文信息处理; 藏文; 计算机键盘; 键盘布局; 输入法;



国际化文字处理综述
[作者]芮建武; 吴健; 孙玉芳;

[摘要]计算机与不同用户的交互通常必须实现通过多种文字信息的输入/输出以实现,因此操作系统对多种文字的支持程度是其功能性的一个衡量标准。各种文字特征的巨大差异导致现代操作系统的文字处理实现非常复杂。本文总结了操作系统文字处理的范围与内容,包括文本输入与存储,文本处理以及用户交互处理;归纳了通用的文字处理模型和可能采取的技术途径及其优缺点;分析了常用操作系统的文字处理实现;最后展望了文字处理仍面临的挑战。

[Abstract]The implementation of multilingual text I/O is essential for computers to interact with all sorts of users in the world.One of the most important functionalities for a computer is,how and to which extent its operating system supports languages with multi-scripts.Owing to considerable differences amongst scripts,multilingual text processing in an a global operating system is very complicated.In this paper,firstly,the scope and the content of multilingual text processing are defined,including text input,store...
[关键字]计算机应用; 中文信息处理; 综述文字处理; 复杂文字; 字体模型;



数据库管理系统多民族语言支持研究
[作者]程伟; 林河水; 吴健; 孙玉芳;

[摘要]目前流行的各种大型数据库系统都缺乏对民族语言如藏、蒙、维文的支持。如何实现民文信息在数据库中存储、查询和检索等处理及支持各种基于民文的数据库应用,是一个重要问题。本文提出了一个数据库管理系统多民族语言支持框架,支持多民族语言、数据库客户端工具和应用编程接口;并在此框架下提出了一种符合 ISO/IEC 14651语义的藏文排序方法,从而实现了PostgreSQL数据库对藏文信息处理的全面支持。并在Linux平台的PostgreSQL数据库系统上加以实现。

[Abstract]Almost all the large database systems currently in use such as Oracle,Sybase and DB2 lack the support to minority languages of China.How to storage,query and index minority language information in databases and how to support database applications in such a multi-lingual environment are important tasks.This paper proposes a DBMS multi-lingual support framework for minority languages,along with a multinational language application programming interface.Moreover,it proposes a sorting algorithm for Tibetan wor...
[关键字]计算机应用; 中文信息处理; 数据库管理系统; 民族语言支持; 藏文; 字典序;



基于Web数据的特定领域双语词典抽取
[作者]张永臣; 孙乐; 李飞; 李文波; 西野文人; 于浩; 方高林;

[摘要]双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。

[Abstract]Bilingual dictionary is the base of many NLP applications such as multi-lingual information retrieval and machine translation.This paper proposes a method of extracting bilingual dictionary for the special domain from the non-parallel corpora: first,discusses the fundamental postulate and reviews the related research,second,presents an algorithm of extracting the bilingual dictionary for the special domain based on the non-parallel corpora with the word relation matrix,and finally,analyzes the influence of ...
[关键字]计算机应用; 中文信息处理; 双语词典; 词间关系矩阵; 非平行语料; 种子词;



消除同音查询的死角——汉语言文字多音同音查询解决方案
[作者]蒋晓京;

[摘要]本文通过分析汉语言文字“读音-字形”之间的“多-多”对应关系,阐明了现有数据库同音查询技术中因忽视多音字问题而导致漏查的缺陷,提出了以汉字字形输入代替拼音字母输入,同时在查询逻辑上加以扩展和改造,从而弥补上述缺陷,实现汉语言文字多音同音查询的完整解决方案。此外,本文试图通过对本方案的扩展及延伸,从汉语言文字问题推导出方言、译音、乃至其它种类语言文字类似问题的解决思路,进而为发掘事物的内在联系、发展人工智能提供参考。

[Abstract]There are many homophones and polyphones in Chinese personal names and geographical names,resulting in some defect in the database query technology.This paper analyzes the multiple-multiple relations between pronunciations and Chinese characters,points out the limitation of existing database query technologies caused by ignoring the problem of polyphones,and gives a solution to database query regarding Chinese polyphones and homophones: instead of inputting Pinyin(Chinese Phonetic Alphabet),we input Chinese...
[关键字]计算机应用; 中文信息处理; 汉字; 多音字; 同音字; 拼音; 数据库;



中文文本体裁的自动分类机制
[作者]方鸷飞; 林鸿飞; 杨志豪; 赵晶;

[摘要]文本按体裁自动分类属于按文本的形式分类的范畴,所以它与按内容自动分类问题有许多的不同之处,本文提出了一种关于中文文本体裁自动分类的新机制。在体裁分类过程中首要的问题是分类特征的选取,体裁分类特征项分为两种方式加以描述,一是集合形式,如基于分类词典和语料统计的政论性词汇和情感词汇等,二是规则形式,如公文标识信息和条文句等。基于根据特征之间的关联性和差异性,采用样本分布决策的方法抽取相应的特征项。最后利用支撑向量机算法进行自动分类。该机制已经在五类体裁的语料上得到实现,并获得了较好的效果。

[Abstract]Genre is defined as a category on the basis of external criteria,so its classification is different from the classification based on content.A new mechanism for automatic classification of Chinese text genre is presented,and its main idea is as follows.Features for genre classification,as an essential factor in the mechanism,are described in two ways: one is in word-set,such as affective words and political words derived from some related dictionaries and corpus statistics;another one is in rule format,such...
[关键字]计算机应用; 中文信息处理; 体裁分类; 特征项选取; 样本分布决策; 支撑向量机;



维吾尔文手机输入关键技术研究与实现
[作者]热依曼.吐尔逊; 吾守尔.斯拉木;

[摘要]维吾尔文,汉文和英文等多文种手机,对于发展少数民族地区通讯和经济,有非常重要的实用和商业价值。针对以上实际情况,本文首先研究了维吾尔文的书写特点、手机输入法设计中的难点、以及不等宽、不同输入方向的汉、英、维多文种信息的屏幕混合显示问题。根据维吾尔文的特征和手机显示屏幕的物理特征设计了维吾尔文的手机键盘布局,实现了支持多文种混合显示的维吾尔文手机输入法,给出了实现其关键模块功能的程序流程图。

[Abstract]It is of great practical and commercial value to the development of communication and econmy in the minority areas to design a cell phone with Uighur,Chinese and English Multilanguage. This paper studies the characteristics of the Uighur script,the difficulties in designing the input method of mobile phones,and the multilingual hybrid data display problems of Chinese,English and Uighur with different width and different input direction and then suggests a Uighur keyboard layout for mobile phones,considering...
[关键字]计算机应用; 中文信息处理; 维吾尔文; 输入法; 自动选型; 多文种混合显示; 手机键盘;



共95页 当前第6页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号