[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2004年第1期)
基于邻接矩阵全文索引模型的文本压缩技术
[作者]陶晓鹏; 胡运发;

[摘要]基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型 ,但是它的最优符号集的寻找算法是NP完全问题 ,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法 ,发现一个局部最优的单词表。这种方法的关键是将文本的邻接矩阵索引作为统计基础 ,邻接矩阵全文索引是论文 [9]提出的一种新的全文索引模型 ,它忠实地反映了原始文本 ,很利于进行原始文本的初步统计 ,因此算法效率得以提高 ,其时间复杂度与文本的汉字种数成线性关系 ,能够适应在线需要。并且 ,算法生成的压缩模型的压缩比是 0 4 7,比基于字的压缩模型的压缩效率提高 2 5 %。

[Abstract]This paper put forth an algorithm, which create the compressions model of length changed word based on a new kind of full text index called adjacent matrix model . It is well known that the created compression model is of higher efficiency to compress Chinese documents than that based on Chinese characters. A good word list is the key of an efficient text compression model based on length changed word. We find such a word list by the minimal average entropy of character and adjacent matrix full text ...
[关键字]计算机应用; 中文信息处理; 邻接矩阵; 文本压缩; 压缩模型; 基于不定长单词的Huffman编码;



基于文本集密度的特征选择与权重计算方案
[作者]吴科; 石冰; 卢军; 牛小飞;

[摘要]在信息检索的向量空间模型中 ,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中 ,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法。它是一种使用词对文本集密度的贡献衡量该词的价值的方法。使用这种方法 ,我们能找出不损失文本有效信息的最小特征词语集 ,并且创造出更为合理权重计算方案。在文中还用了一种新的衡量权重好坏的标准———元打分法 ,来证明提出的方法是有效的

[Abstract]In vector space model of information retrieval,a text is represented as a weighted vector which is composed of terms weighting of the text. And it is a fundamental issue to how to represent the content of a text as exactly and efficiently as possible. In this paper, we will propose a method of feature selection and weighting scheme based on text set density,which is a way of measure of contribution to the text set density about some word. By the means, we can find the set containing least elements, which ca...
[关键字]计算机应用; 中文信息处理; 信息检索; 文本集密度; 权重计算方案; 元打分法;



信息抽取模式自动生成方法的研究
[作者]郑家恒; 王兴义; 李飞;

[摘要]模式匹配是信息抽取系统通常使用的方法 ,如何生成信息抽取模式就成为信息抽取的关键问题。由于手工编写模式的代价太大 ,本文尝试采用聚类方法自动生成针对中文文本的信息抽取模式。通过计算模式实例间的相似度 ,采用单链法聚类 ,将模式实例划分为不同的类别 ,每个类别对应一个模式 ,将同一类别中的模式实例进行合并就可以得到最终的信息抽取模式。以农作物信息文本为实验语料 ,进行了聚类测试 ,错分率与漏分率分别为 0 2 1%和 1 0 7% ,合并后的模式覆盖了人工分析提出的 2 5类中的 2 4类

[Abstract]Most information extraction (IE) systems adopt a pattern matching approach. As a result, how to generate extraction patterns has become an essential step. As the cost of man made patterns is very high, we propose a method to generate extraction patterns automatically by clustering. Calculating the similarity between pattern examples and Using single link clustering, examples of patterns can be clustered into various categories, each of which represents a pattern. We applied the method to Chinese agricult...
[关键字]人工智能; 自然语言处理; 信息抽取; 模式匹配; 信息抽取模式;



第2届学生计算语言学研讨会(SWCL 2004)
[作者]

[摘要]

[Abstract]
[关键字]研讨会; 计算语言学;



EBMT系统中的多词单元翻译词典获取研究
[作者]程洁; 杜利民;

[摘要]EBMT系统是一种基于语料库的机器翻译方法 ,其主要思想是通过类比原理进行翻译。如何从语料库中提取出一个实用的翻译词典进行系统的辅助翻译已经越来越多的引起关注。本文探讨了如何结合阈值和关联度提取的方法获取多词单元翻译词典 ,在这两种方法中 ,阈值提取受主观影响太大 ,关联值提取效率太低 ,都不能很好的满足翻译词典提取的要求。本文提出的算法利用阈值提取出备选多词单元 ,其中提出了四点规则弱化主观影响且保证全面覆盖所有多词单元 ,降低了阈值本身所带来的不精确度的影响 ,然后对计算结果进行三层过滤 ,进一步提高了准确率 ;该算法还合并了单词译成多词单元和多词单元互译两部分词典的提取 ,提高了工作效率

[Abstract]EBMT system is one of corpus based machine translation methods that applies analogy theory to translation as its main idea. It has been focused on how to extract wieldy lexicons for computer aided translation system. The article discusses how to extract multi word units translation lexicon with the approach of combining the threshold filter by the association value. In the two methods, the choice of the threshold depends on subjective estimation excessively; and the calculation of the association value c...
[关键字]人工智能; 机器翻译; EBMT; 翻译词典; 多词单元;



灰度名片图像快速倾斜检测和校正方法
[作者]卜飞宇; 刘长松; 丁晓青;

[摘要]本文针对名片OCR系统的要求 ,提出了一种新的根据图像扫描时产生的黑色边缘来检测灰度名片图像倾斜角度的方法。该方法先检测出名片的四条边缘拟合直线 ,由四条边缘拟合直线的倾斜角度来确定名片图像倾斜角度 ,然后采用逐段整块搬移的方法来对图像进行倾斜校正 ,再根据边缘拟合直线位置去除黑边。实验表明 ,该方法具有很快的速度和很高的正确率 ,是一种实用价值较高的方法。而且 ,该方法能推广应用于其它灰度和彩色扫描图像的倾斜检测和校正

[Abstract]According to the need of business card OCR system, this paper presents a new skew detection and correction method based on black border of gray business card image First, this method decide the skew angle of a business card image according to four border fitting lines of the business card, then a method based on block move is provided to correct image and black border is erased based on position of border near line Experiments show that this approach is fast, accurate and effective This algorithm ca...
[关键字]人工智能; 模式识别; 灰度图像; 倾斜检测; 倾斜校正; 边缘拟合直线;



首届全国少数民族青年计算语言学家学术研讨会
[作者]

[摘要]

[Abstract]
[关键字]语言信息处理; 学术研讨; 民族青年; 计算语言学;



分段模型在解码假设检验中的应用
[作者]张翼燕; 刘文举; 徐波;

[摘要]本文主要研究了分段模型 (以参数轨迹模型为例 )在解码假设检验中的应用。分段模型与传统的HMM相比 ,具有更加精确的建模能力。多年来人们一直致力于研究它对语音识别性能的提高 ,而忽视了其它方面的应用。本文提出了分段模型校验的方法 ,对HMM的识别结果进行二次处理 ,克服了传统方法在不同句子间不具有可比性的缺点 ,简单而有效 ;在此基础上 ,为了满足系统的特殊要求 ,训练Fisher分类器 ,选择分段模型而非HMM的N Best信息作为特征输入 ,验证了分段模型得分作为可信度指标时的优秀区分能力。实验结果表明 ,在第一类错误率为 5 %的情况下 ,最好的第二类错误率可以降到 2 5 2 6 5 %。这体现了系统良好的拒识性能。

[Abstract]This paper introduced the application of Segment Models(SM) in hypothesis testing Compared with HMM, SM relaxes the assumption of the independence of frame features, and thus is powerful in the more precise modeling For decades researchers are engaged in its use for recognition accuracy, but the other fields are rarely dealt with This paper mainly investigates the SM verification (e g Parametric Trajectory Model) in hypothesis testing-alternative PTM provides confidence measurement for HMM result, ...
[关键字]人工智能; 自然语言处理; 解码假设检验; 分段模型; 参数轨迹模型;



基于遗传径向基神经网络的声音转换
[作者]左国玉; 刘文举; 阮晓钢;

[摘要]声音转换技术可以将一个人的语音模式转换为与其特性不同的另一个人语音模式 ,使转换语音保持源说话人原有语音信息内容不变 ,而具有目标说话人的声音特点。本文研究了由遗传算法训练的RBF神经网络捕获说话人的语音频谱包络映射关系 ,以实现不同说话人之间声音特性的转换。实验对六个普通话单元音音素的转换语音质量分别作了客观和主观评估 ,结果表明用神经网络方法可以获得所期望的转换语音性能。实验结果还说明 ,与K -均值法相比 ,用遗传算法训练神经网络可以增强网络的全局寻优能力 ,使转换语音与目标语音的平均频谱失真距离减小约 10 %。

[Abstract]Voice conversion technology makes the speech of one speaker sounds as though it were uttered by another speaker giving it a new identity while preserving the original content. This paper addresses a study on voice conversion using genetic algorithm (GA) to train the hidden layers of RBF neural network, which can help better capture the nonlinear mapping between different speakers. Both subjective evaluations and objective ones are conducted on the transformed speech quality with six mono vowel phones in Ma...
[关键字]人工智能; 自然语言处理; 声音转换; RBF神经网络; 遗传算法; 线谱频;



《中文信息学报》征稿简则
[作者]

[摘要]

[Abstract]
[关键字]中文信息; 自然语言处理;



共95页 当前第24页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号