[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
按年代和期次浏览(最新数据: 2004年第6期)
维吾尔语词切分方法初探
[作者]古丽拉·阿东别克; 米吉提·阿布力米提;

[摘要]维语词的词干 -词附加成分切分、音节切分的规律对维吾尔语自然语言处理方面提供更多方便。本文提出了以“词 =词根 +附加成分”结构。维语附加成分种类繁多 ,连接形式各式各样 ,在句子中起着非常重要的作用 ,同时有相当的规律性。本文提出了维语中可能出现的基本语音规律的处理方法 ,如 :语音同化、音节切分、语音和谐规律处理。本文对维文词的词法和语音法结构进行了归纳 ,提出了维语词切分的一些规律和实现方法。以新疆高校学报为语料来测试 ,对规则词准确率达到 95 %。

[Abstract]Root-affix and syllable segmentation of Uighur word bring great facilities in Uighur natural language processing. Affix in Uighur are various, they link between themselves and to a root in different ways. But there are intricate rules in their linkage. In this paper, we propose methods of handling with the basic phonetic features of Uighur words, such as the final vowel change, rules of vowel and consonant harmony, and syllable segmentation. We also summarized the word structures and phonetic structures of ...
[关键字]人工智能; 自然语言处理; 维吾尔语; 词干; 词附加成分; 切分;



上海普通话与普通话元音系统的声学特征对比研究
[作者]于珏; 李爱军; 王霞;

[摘要]本文通过对单音节字的声学测量及分析 ,对比上海市的地方普通话和普通话的元音系统 ,从而为汉语口语处理基本元音系统提供可靠的声学参数。发现 :1 受上海话自身元音系统的影响 ,上海普通话男女声学元音图都表现出一定的外延性。 2 上海普通话无论男女 ,[ , ]在声学元音图上的分布都有很大的重叠区。3 从共振峰模式图上看 :上海普通话 [y ,i, , ]的F1-F2距离都较标准普通话的大 ,其中 [ ]的共振峰模式几乎接近于 [ ]。 4 多数发音人的 [ ]都或多或少表现出双元音化趋势。

[Abstract]Dialectal differences are widely investigated for dialect identification, language (L2) learning and pronunciation modeling for Automatic Speech Recognition (ASR). Especially in Chinese ASR systems, how to deal with the accent issue becomes a big challenge due to the variability of the language. We compared these pure monophthongs [,,a,u,,y,i] for 10 SM (Standard Mandarin) and 20 ASH (Shanghai-accented Mandarin) speakers in NOKIA-CASS corpus and tried to find out the differences in monophthongs between SC...
[关键字]计算机应用; 中文信息处理; 上海普通话; 标准普通话; 声学元音图; 共振峰模式; 口音;



嵌入式语音识别系统的研究和实现
[作者]方敏; 浦剑涛; 李成荣; 台宪青;

[摘要]本文首先给出了一种适合于在嵌入式平台上实现的可变命令集的非特定人语音识别系统 ,同传统的基于PC的非特定人语音识别系统相比 ,该系统具备内存消耗小 ,运算速度快的优点。然后给出了该语音识别系统在多种嵌入式平台上的实现和评估结果 ,论证了非特定人语音识别系统在嵌入式平台上实现的可行性及其对硬件的最低配置要求 ,在技术层次上分析了目前实现高性能语音识别SOC的主要问题和困难 ,并指出了今后相关的研究方向

[Abstract]Proposed in this paper is a novel speaker-independent speech recognition system, which is command-variable and suitable for realization based on embedded platform. Compared with traditional speaker-independent speech recognition system based on PC, our system is featured small storage and computation cost. The system is evaluated on several embedded platforms that are specially designed. According to the result of the evaluation, the feasibility of speaker-independent speech recognition system based on embe...
[关键字]计算机应用; 中文信息处理; 嵌入式平台; 非特定人语音识别; 语音识别SOC;



分级语音识别研究
[作者]徐明星; 杨大利; 吴文虎;

[摘要]分级识别的策略在模式识别领域中提出相当长的时间了。尽管人类可以训练地使用这个策略进行识别 ,但对语音识别而言 ,缺少一个有效的系统化的方法来实现它。本文给出了我们最近在这方面做的一些研究工作 ,使用了子空间划分原理来实现一个分级识别器 ,并用树型结构来组织多个识别器。实验结果表明 ,该方法与传统方法相比 ,误识率降低 10 %。我们将在未来的研究工作中 ,测试全部汉语音节 ,并将该方法扩展到连续语音识别

[Abstract]Hierarchical recognition has been proposed for a long time in the pattern recognition field. Although it is a familiar action when human performs a recognition task, there is not an effective and systematic method to implement it for the speech recognition. This paper presents our recent experimental results on this topic, which uses the principle of sub-space partition to realize a hierarchical recogntion and a tree-based architecture to organize multi-recognizers. The results show that the proposed algori...
[关键字]计算机应用; 中文信息处理; 语音识别; 分级识别; 空间划分;



《中文信息学报》征稿简则
[作者]

[摘要]

[Abstract]
[关键字]中文信息; 自然语言处理; 征稿简则;



综合型语言知识库的建设与利用
[作者]俞士汶; 段慧明; 朱学锋; 张化瑞;

[摘要]语言知识库的规模和质量决定了自然语言处理系统的成败。经过 18年的努力 ,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源 :现代汉语语法信息词典 ,大规模基本标注语料库 ,现代汉语语义词典 ,中文概念词典 ,不同单位对齐的双语语料库 ,多个专业领域的术语库 ,现代汉语短语结构规则库 ,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时 ,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外 ,还将提供支持知识挖掘的工具软件 ,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展 ;提供多种形式的知识传播和信息服务机制 ,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的、多层次的支持

[Abstract]The scale and quality of the knowledge-base decides the success or failure of the natural language processing system. Institute of computational linguistics of Peking university has accumulated a series of languages-data resources that have good quality with considerable scale after 18 years of diligent work: the grammatical knowledge-base of contemporary Chinese, the large-scale POS-Tagged corpus of contemporary Chinese, Semantics Knowledge-base of Contemporary Chinese (SKCC), Chinese Concept Dictionary (C...
[关键字]计算机应用; 中文信息处理; 语言处理; 语言知识库; 语言数据资源; 电子词典; 语料库;



语料库词性标注一致性检查方法研究
[作者]张虎; 郑家恒; 刘江;

[摘要]在对大规模语料库进行深加工时 ,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法 ,该方法避开了以前一贯采用的规则或统计的方法 ,利用聚类和分类的思想 ,对范例进行聚类并求出阈值 ,对测试数据分类来确定其标注的正误 ,进而得出每篇文章的词性标注一致性情况 ,进一步保证大规模语料库标注的正确性

[Abstract]In the deep processing of large-scale corpus, it has been a chief problem to assure the consistence of part of speech tagging to build the high-quantity corpus. A new inspecting method on consistence of part of speech tagging based on clustering and classifying is put forward, firstly we cluster the sequences of part of speech of the example and get the threshold value, then classify the test sequences to judge its correctness, furthermore, we can know the condition of the consistence of part of speech on ...
[关键字]计算机应用; 中文信息处理; 词性标注一致性; 兼类词; 聚类;



基于统计的网页正文信息抽取方法的研究
[作者]孙承杰; 关毅;

[摘要]为了把自然语言处理技术有效的运用到网页文档中 ,本文提出了一种依靠统计信息 ,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML标记把网页表示成一棵树 ,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点 ,具有简单、准确的特点 ,试验表明该方法的抽取准确率可以达到 95 %以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持 ,很好的满足了问答系统的需求

[Abstract]This paper proposes a statistical approach for extracting text content from Chinese news web pages in order to effectively apply natural language processing technologies to web page documents. The method uses a tree to represent a web page according to HTML tags, and then chooses the node which contains text content by using the number of the Chinese characters in each node of the tree. In comparison with traditional methods, the method neednt construct different wrappers for different data sources. It is ...
[关键字]计算机应用; 中文信息处理; 网页数据抽取; 包装器;



汉语隐喻理解的逻辑描述初探
[作者]张威; 周昌乐;

[摘要]隐喻在语篇中出现非常普遍 ,是语言认知和计算机语篇理解中重要的一环。但无论是其逻辑基础或实验系统的探索都处于初级阶段。本文从逻辑角度给出了隐喻逻辑的定义、建构和性质。同时 ,针对汉语文本中名词性隐喻、动词性隐喻等类型 ,细化了隐喻逻辑的规则 ,并利用细化后的规则 ,分析了隐喻句中隐含信息的发掘方法 ,为隐喻的计算提供了新的解决方案。分析的结果表明 ,本文所提出的隐喻逻辑对汉语隐喻意义的生成有很好的解释能力 ,为后续隐喻句的计算机处理提供了理论基础

[Abstract]People always encounter metaphor phenomenon in daily life. It plays an important role in language epistemology and discourse understanding. But its logic system and computational method researches are all in the early stage. The paper creates a metaphor logic system by giving definition, constructing, and analyzing the properties of the logic. The paper also fractionizes the rules of the logic to analyze Chinese sentences containing nominal metaphor, verbal metaphor and so on. Then it uses a logical method ...
[关键字]人工智能; 自然语言处理; 隐喻逻辑; 隐喻理解;



一种基于Web的汉英CAPP应用研究及开发
[作者]杨雨图; 叶文华; 王宁生;

[摘要]经济全球化要求CAPP支持远程设计和产品数据共享 ,而传统的CAPP系统只支持本地设计 ,生成的工艺文件也是单一语言的 ,通用翻译软件又不能直接被CAPP系统所使用 ,因此对开发基于WEB的中英文工艺设计和计算机辅助翻译软件提出需求。本文在分析国内外计算机辅助翻译 (computeraidedtranslation ,CAT)的现状和工艺语言特点的基础上 ,对中英文工艺编制和机助翻译系统的总体结构、功能及关键技术的实现方法做了一些探索 ,提出了一种基于WEB的汉英CAPP系统。在此基础上 ,针对某航空企业的特点开发了一套工艺编制与计算机辅助翻译软件 ,并取得很好的使用效果

[Abstract]It is necessary for CAPP system to support long-distance design and product data sharing. However most CAPP systems developed so far can only support local design and generate process plans in one kind of language. In addition, general translation software could not been used in CAPP system directly. Therefore, it is compulsory to develop Web-based Chinese-English CAPP system integrated with computer aided translation software. In this paper, based on reviewing of Computer Aided Translation (CAT) and analy...
[关键字]计算机应用; 中文信息处理; 计算机辅助工艺设计; 计算机辅助翻译; 全球制造; 敏捷制造;



共95页 当前第18页 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95   
©中国中文信息学会 1981-2007
京ICP备05039057号