基于主题的Web文档聚类研究
[作者]孙学刚; 陈群秀; 马亮;
[摘要]网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。
[Abstract]With the ceaseless resource inflation and rapid change of information on Web, it has become difficult to manage vast e-data through traditional manual method. Web clustering can automatically classify documents and help us to discover new information. Considering the complexity of Web documents, we offer a method of feature re-select and document re-cluster and perform a good Web clustering.
[关键字]计算机应用; 中文信息处理; Web文档聚类; OPTICS算法; 特征提取; K近邻准则; 二次特征提取和聚类的方法;
|
自组织中文语义映射网络的优化特征编码方法
[作者]张敏; 马青; 马少平;
[摘要]本文介绍自组织中文语义映射网络 ,并分别基于集合论、代数理论和概率论研究和提出六种不同的特征编码方法 ,这对自组织语义映射效果有很重要的影响。通过性能评价得出如下结论 :使用TFIDF修正的频率密度编码能得到最佳效果 ,其语义映射的精确度和召回率分别为 94 .4 %和 90 .7% ,而基于向量模型的方法则都不适用于中文自组织语义映射。文中给出结果分析。另外比较实验结果表明文中的最好方法其系统性能好于目前广泛采用的分层聚类技术 ,并远好于多元统计分析技术 ,例如主成分分析的特征降维编码。
[Abstract]In this paper, we introduce self-organizing Chinese semantic map, then study and propose six different approaches of feature encoding which is crucial to the performance of a SOM. The approaches are based on set theory, algebra, and probabilistic theory respectively. We conclude from the evaluation results that the method of combining frequency density approach and TFIDF approach has the best performance with 94.4% of precision and 90.7% of recall on semantic mapping, and vector space oriented approaches ar...
[关键字]计算机应用; 中文信息处理; 中文语义映射; 自组织映射; 特征编码; 相似度计算; Kohonen网络;
|
基于字串内部结合紧密度的汉语自动抽词实验研究
[作者]罗盛芬; 孙茂松;
[摘要]自动抽词是文本信息处理中的重要课题之一。当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否。本文分别考察了九种常用统计量在汉语自动抽词中的表现 ,进而尝试将它们组合在一起 ,以期提高性能。为了达到尽可能好的组合效果 ,采用了遗传算法来自动调整组合权重。对二字词的自动抽词实验结果表明 ,这九种常用统计量中 ,互信息的抽词能力最强 ,F measure可达 5 4 77% ,而组合后的F measure为 5 5 4 7% ,仅比互信息提高了 0 70 % ,效果并不显著。我们的结论是 :( 1)上述统计量并不具备良好的互补性 ;( 2 )通常情况下 ,建议直接选用互信息进行自动抽词 ,简单有效。
[Abstract]Word extraction is one of the important tasks in text information processing. A conventional scheme for word extraction is to estimate the soundness of a candidate character string being a word by the internal associative strength among characters involved. In this paper, the authors at first test the performance of nine widely adopted statistical measures of such kind in Chinese word extraction on the individual basis, then try the possibility of improving the performance by properly combining these measur...
[关键字]计算机应用; 中文信息处理; 自动抽词; 统计量的组合; 遗传算法;
|
汉语基调的调模与语音合成的质量提高
[作者]吴禀雅; 周昌乐; 吴洁敏;
[摘要]本文根据输入的汉语语篇中各个语词的感情色彩属性和语体色彩属性 ,通过一种语词属性文法及其合一运算 ,来得到整个语篇的调模。并通过调模得到相对应的音高和音长的基准值 ,来调整机器合成语音的语阶和语速 ,从而使机器合成的语音更加自然、流畅 ,丰富了机器合成语音的表现力 ,提高了语音合成的质量。
[Abstract]ThispaperachievesthetonaltemplateofMandarindiscourse ,byjudgingfromtheemotionalcolor andcolloquialstyleofeverywordintheinputdiscourseandusingakindofphraseologicalattributegrammarandthe relevantcombinationalarithmetic.Thespeedandscaleofthemachinesynthesizedspeechareadjustedbythebasic valueofthepitchanddurationofsyllablescorrespondingtothetonaltemplate ,thereforethenaturalnessandfluency ofthemachinesynthesizedspeechareenhanced ,i.e .thequalityimprovementisrealized .
[关键字]人工智能; 机器翻译; 调模; 属性文法和合一运算; 语速和语阶; 质量提高;
|
正易全:一个动态结构笔组汉字编码输入法
[作者]张小衡;
[摘要]“正易全”是一个以“正”、“易”和“全”为基本指导思想的笔组型汉字编码输入法。在“正”方面 ,采用国际标准汉字集ISO10 646CJK ,并以《GB130 0 0 1字符集汉字字序 (笔画序 )规范》和《信息处理用GB130 0 0 1字符集汉字部件规范》指导编码 ;在“易”方面 ,以单双笔笔组和十来个常用部件为码元 ,按笔顺和音托等简单原则映射到 2 6个英文字母建元上 ,从而避免了传统的繁复字根 -键元对应表 ;在“全”方面 ,支持CJK中的所有 2 0 90 2字符 ,包括简体字、繁体字、日韩字和偏旁部首等 ,而且可以在不改变编码方案的前提下进一步扩充字集。正易全的单字最大码长为 5个字母 ,平均码长 4 315 ,键选率 16 4 %。该输入法的笔组 -键元设计和取码模式是在对整个CJK字集作了全字编码以后多次试验、统计和优化后确定下来的。
[Abstract]In Chinese character input, the form-based co di ng method is an indispensable complement to the Pinyin-based method. The former is preferable in the cases where high-speed input is needed, where a large cha racter set is required, where words of single characters or words missing in nor mal dictionaries are abundant, and where unfamiliar or rarely-used characters a re more frequently used.The present paper introduces ZYQ, a stroke-group-based Chinese character input method whose development has been kept...
[关键字]计算机应用; 中文信息处理; 动态结构笔组; 字形码; 汉字输入;
|
汉语三音子模型观测概率比较
[作者]刘玉宇; 吴及; 王作英;
[摘要]HMM的观测概率能否很好描述模型的实际分布对识别性能有很大的影响。为了比较汉语三音子模型在不同观测概率情况下的差异 ,本文构造了三种不同模型 ,及其训练和识别算法。通过从多方面对这三个模型进行比较 ,得出结论 ,为今后汉语三音子模型观测概率的选择提供依据。
[Abstract]It has great impact on the recognition performance how well HMM observation density can describe the actual distribution. To compare triphone models under different observation densities in Chinese language, three models and their respective algorithms of training and recognizing are constructed. By comparison of these three models in terms of different aspects, a conclusion is drawn, which can be the basis for the future selection of triphone observation density in Chinese language.
[关键字]人工智能; 机器翻译; 语音识别; 三音子模型; 观测概率;
|
基于“相同与差异”的机译单元的自动提取研究
[作者]陈博兴; 杜利民;
[摘要]从双语语料库中提取的机译单元能更好地覆盖真实语言文本 ,本文提供了一个通过找出两个双语句对之间非全部为高频功能词的“相同和差异”部分 ,并且利用翻译词典和动态规划算法对齐“相同和差异”部分来获取机译单元的算法。对于获取的候选机译单元 ,本算法设计了三个过滤器来考察其正确性 :双语词串相似度过滤考察其语义对应性 ,词性相似度过滤考察其语法对应性 ,首尾禁用词过滤考察其搭配正确性。通过抽样检验 ,最后提取的机译单元的正确率为 86% ,召回率约为 61 34 % ,该算法对于获取机译单元提供了一种新的实用的方法。
[Abstract]The Machine Translation Units extracted from the bilingual corpora can cover the natural language text even more. This paper will describe an algorithm for obtaining the Machine Translation Units by learning the Similarity and Difference that are not all high frequency function words from two bilingual sentence pairs and aligning the Similarity parts and Difference parts by utilizing the Translation Lexicon and Dynamic Programming approach. Then, the Bilingual Chunk Similar Score Filter and the Part of Spee...
[关键字]人工智能; 机器翻译; 双语语料库; 机译单元; 相同和差异;
|
四种基本统计句法分析模型在汉语句法分析中的性能比较
[作者]孟遥; 李生; 赵铁军; 曹海龙;
[摘要]统计模型的选择是统计句法分析的关键。目前句法分析常用的有四种经典统计模型—PCFG模型 ,基于历史模型、分层渐近式模型和头驱动模型。本文通过实验 ,在已有的 10 0 0 0句汉语树库基础上 ,测试了这四种经典模型在现有数据规模下各自的性能 ,并论述了这四种经典模型的各自特点。本文旨在通过对四种基本模型的比较研究 ,为具体应用中句法分析模型的选择提供参考和依据。
[Abstract]Choosing the statistical model is the key problem in statistical parsing. Statistical model lies in the core of NLP parsing. This paper investigates 4 primary statistical parsing models, namely PCFG, history-based model, cascading parsing model and head-driven parsing model, and compares their performances in a 10000 Chinese treebank. The analysis based on the experiment were shown in the paper. The comparative study of these models can be exploited to build the practical and effective Chinese parser.
[关键字]计算机应用; 中文信息处理; 统计句法分析; 基本模型; 汉语分析;
|
XML——中文信息处理的变革之路
[作者]李宁;
[摘要]本文从中文信息面临的问题出发 ,阐述了中文信息处理走Internet开放变革之路的必要性。文中还介绍了Internet上已经开展的与中文信息处理相关的部分工作 ,重点论述了XML在中文信息处理方面的优势 ,指出以XML为基础的Web服务是分布式环境中文信息处理技术的发展方向。作者为此提出了一个中文信息处理服务体系框架的构想。
[Abstract]Starting with the difficulties up against modern Chinese information processing,this paper addressed the importance to turn Chinese information processing technology into open and reformatory.Part of the recent work related to Chinese Information Processing carried on the Internet was introduced,particularly the XML related work,which shows great advantage in this area.It was indicated that the XML based web service,a fairly new concept for the distributed environment as web,is the direction that Chinese in...
[关键字]计算机应用; 中文信息处理; 综述; 中文信息处理平台; 统一中文API; XML; Web服务;
|
古文字字库建设与古文字研究手段现代化学术研讨会
[作者]张德劭;
[摘要]
[Abstract]
[关键字]古文字编码; 手段现代化; 古文字研究; 古文字字库; 古文字资料; 学术研讨会;
|
共95页 当前第28页