[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2003年第4期)
一种基于ICA的汉字信息隐秘传输方法
[作者]陆红琳; 程义民; 王以孝; 田源;

[摘要]本文描述了一种基于独立成份分析 (ICA)的汉字信息隐密传输方法。该方法以彩色图像为寄主图像 ,对其进行ICA分解 ,求出其中的独立成分 ,再将汉字信息以编码形式 ,隐藏在对彩色图像质量影响最小的独立成分低位端 ,从而实现汉字信息的隐秘传输。该方法已经在PC机上进行了模拟 ,实验结果表明 ,该方法在保证图像质量条件下 ,有较高的嵌入率和较好的可靠性。

[Abstract]This paper describes a new method based on ICA to transmit hidden Chinese characters, where a color image is used as the host image and analyzed to get its independent components. After the Chinese characters having been coded, the code was embedded in the lower significant bits of the proper independent components. Thus an image with the Chinese characters hidden in it can be composed, and then transmitted on the Internet. By this method, the Chinese characters can be transmitted secretly. This method has ...
[关键字]计算机应用; 中文信息处理:隐秘传输; 独立成份分析(ICA); 彩色图像; 汉字编码;



一种中文分词词典新机制——双字哈希机制
[作者]李庆虎; 陈玉健; 孙家广;

[摘要]汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。

[Abstract]Chinese word segmentation is the preparation for Chinese Information Processing. As one basic component of Chinese word segmentation systems, the dictionary mechanism influences the speed and efficiency of segmentation significantly. In this paper, we provide a new dictionary mechanism named double-character-hash-indexing (DCHI). Compared with existing typical dictionary mechanisms (i.e. binary-seek-by-word, TRIE indexing tree and binary-seek-by-characters), DCHI improves the speed and efficiency of segment...
[关键字]计算机应用; 中文信息处理; 中文分词; 双字哈希;



汉语语句中短语间停顿的自动预测方法
[作者]聂鑫; 王作英;

[摘要]在文语转换 (TTS)系统中 ,正确标记短语间的停顿对提高合成语音的自然度起着重要作用。本文介绍了一种在汉语语句中自动预测短语间停顿的方法。首先 ,文本进行分词 ,并转换为一列由词性标记所组成的序列 ;然后使用马尔可夫模型 ,利用人工标注数据库训练词语连接处词性标注序列的概率分布和连接类型序列的距离信息 ,得到输入的词性标记序列对应的具有最大似然概率的连接类型序列 ,最后利用后处理规则进行适当的纠错。本文针对不同的模型参数进行了测试 ,短语间停顿自动预测的召回率和连接类型正确率分别达到了 6 8 2 %和 85 1% ,取得了比较满意的结果。

[Abstract]In TTS system, it is very important to mark phrase breaks correctly for high naturalness and quality of output speech. The paper discusses an algorithm for automatically predicting phrase breaks in Chinese sentences. At first, the text is segmented to words and converted to a sequence of part-of-speech tags; then based on the POS tags sequence parameters and phrase-break distance information from training, Markov model is used to get the most likely phrase break sequence. In this paper several model paramet...
[关键字]计算机应用; 中文信息处理; 短语间停顿; 词性标注; 马尔可夫模型;



统计机器翻译综述
[作者]刘群;

[摘要]本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵的统计机器翻译方法比基于信源信道的方法更具有一般性 ,后者可以看做前者的一个特例。

[Abstract]The paper gives a survey on three approaches of statistical machine translation and the evaluation methods used in SMT. The basic idea of parallel grammar based approach is to build parallel grammars for source and target languages, which conform the same probabilistic distribution. In the source-channel approach, the translation probability is expressed as a language model and a translation model. In the maximum entropy approach, the optimal translation is searched according to a linear combination of a se...
[关键字]人工智能; 机器翻译; 综述; 统计机器翻译; 信源信道模型; 最大熵方法;



基于综合因素的汉语连续语音库语料自动选取
[作者]康恒; 刘文举;

[摘要]大词汇量连续语音识别系统的性能很大程度上取决于语音库的质量 ,而语音库设计的中心环节就是语料选取。但是传统语料选取方法往往考虑因素单一 ,不利于语音识别系统有效利用语言信息。本语音库的语料选取方法综合考虑了多种因素 :三音子覆盖率、三音子覆盖效率、三音子稀疏度、常用词分布等 ,并完全实现程序自动选取 ,充分利用了原始语料 ,使选取结果的信息量更加丰富。程序自动选取结果可以覆盖94 1%的三音子 ,75 4 %的最常用词 ,覆盖效率和稀疏度也比传统方法有了较大改善。

[Abstract]The performance of continuous speech recognition systems depends much on speech database. Text selection is the key step in designing of the speech database. Conventional text selection methods consider too few factors for the recognition systems to use linguistic information effectually. This paper describes a method which can select text automatically and consider multiple factors: triphone covering rate, triphone covering efficiency, triphone sparse rate and distribution of commonly used words, etc. The ...
[关键字]计算机应用; 中文信息处理; 语音库; 三音子; 高频词; 覆盖率;



基于独立分量分析的笔迹识别
[作者]黄雅平; 罗四维; 陈恩义;

[摘要]笔迹识别作为一种身份识别技术 ,具有自然 ,非入侵等优点 ,因此成为模式识别和机器学习领域的一个研究热点。本文提出了一种与文本无关的笔迹识别方法 ,该方法利用独立分量分析 (IndependentCompo nentAnalysis ,ICA)来提取笔迹的纹理特征 ,并利用竞争学习方法确定笔迹的特征编码。实验结果证明利用该方法进行笔迹识别具有很好的效果。

[Abstract]Writer recognition, as an identification technology, has many advantages, such as natural interaction and non-intrusive detection, thus it becomes a hot topic in pattern recognition and machine learning research area. This paper proposes a new writer recognition algorithm of text independent, which adopts Independent Component Analysis (ICA) to extract texture feature and competitive learning mechanism to determine the center of class. Experimental results show that our algorithm is efficient.
[关键字]人工智能; 模式识别; 笔迹识别; 独立分量分析; 竞争学习;



中文语音合成系统中的文本标准化方法
[作者]陈志刚; 胡国平; 王熙法;

[摘要]文本标准化是对输入文本进行分析 ,生成其中非汉字符号的拼音、节奏等信息的过程。本文提出了一种层次化的、基于外部规则的标准化方法 ,通过规则匹配识别这些符号 ,并给出各种正确信息。本文首先介绍了分析树的概念 ,其次给出构造规则的步骤 ,利用权值控制规则的匹配顺序 ,最后给出实验结果。实验结果表明 :这种方法具有很好的易维护性和可扩展性 ,开放测试的正确率达到 99 76 %。

[Abstract]Text normalization is a procedure to generate information, such as pronunciation, rhythm and so on, for special symbols correctly. In this paper, a method based on hierarchical, external rules is presented. By matching rules, we can recognize normal special symbols and generate correct information. This paper introduces the concept of analysis tree firstly, then shows the steps of constructing rules and presents the experiment results. The results show that we can achieve easy-maintainability and easy-expan...
[关键字]计算机应用; 中文信息处理; 文本标准化; 特殊符号; 外部规则;



一种提高中文搜索引擎检索质量的HTML解析方法
[作者]宋睿华; 马少平; 陈刚; 李景阳;

[摘要]中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。

[Abstract]While using search engine, people always find so many irrelevant or peripherally relevant items in the result list. Most of them are produced by the words irrelevant to the topic of a web page. It is costly or even impossible to remove such items using traditional keyword methods. In this paper, we define the concept of noise in web pages, and propose a novel approach to clean the noise information of web pages in the pre-processing stage. A novel model of Chinese web pages and 4 simple rules are build to d...
[关键字]计算机应用; 中文信息处理; HTML解析; 降噪; 分块模型; 搜索引擎;



藏文自动分词系统的设计与实现
[作者]陈玉忠; 李保利; 俞士汶;

[摘要]藏文自动分词系统的研制目前在国内仍是空白。本文从四个方面详细报告了书面藏文自动分词系统的具体实现过程 ,内容包括系统结构、分词知识库的组织与实现以及分词策略、算法设计及其详细的自动分词过程实例。文章最后给出了实验结果 ,结果表明系统具有较高的切分精度和较好的通用性。

[Abstract]Word segmentation for Tibetan has not been well studied yet. This paper reports a Tibetan word segmentation system that we designed and implemented. Several issues about the system are explained, which include system architecture, knowledge bases, segmentation strategy, and algorithms. In preliminary experiments, the system demonstrates higher accuracy and domain independency.
[关键字]计算机应用; 中文信息处理; 格助词; 接续特征; 藏文; 自动分词;



基于语法信息的汉语韵律结构预测
[作者]曹剑芬;

[摘要]韵律结构的预测 ,主要包括短语的自动切分和重音的等级分布两个大的方面。本文在概述汉语韵律结构的基础上 ,根据从自然话语中获得的韵律结构与句法结构和词性的关系 ,用一种新的方法 ,通过文本分析 ,全面地预测韵律边界的位置分布及其等级差异 ,并进一步预测重音的位置分布及其等级差异。

[Abstract]It is especially necessary to generate prosody automatically in a Chinese TTS system. The main task is to segment the Chinese character sequence into proper speech units and organize them as a prosodic hierarchy. This goal can be satisfied by inserting different strength of breaks and assigning certain degree of stresses within a sentence. This paper will discuss how to predict the location and strength of break and stress based on syntactic and lexical information extracted from text analysis. Our attentio...
[关键字]计算机应用; 中文信息处理; 韵律结构; 语法信息; 韵律边界; 重音;



共95页 当前第27页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号