[ 2010 September,10, Friday ]
中国中文信息学会
Chinese Information Processing Society of China
首页
学会简介
学会领导
学会办公室
工作委员会
专业委员会
学术活动
发展会员
钱伟长中文信息处理奖
科技工作者之家
中文信息学报
新书介绍
      
[题目]边界模板和局部统计相结合的中国人名识别
[英文题目]Chinese Name Recognition Based on Boundary Templates and Local Frequency
[作者]李中国; 刘颖;
[英文名]LI Zhong-guo; LIU Ying (Lab of Computational Linguistics; Department of Chinese Language and Literature; Tsinghua University; Beijing 100084; China);
[关键字]计算机应用; 中文信息处理; 人名识别; 命名实体识别; 边界模板; 局部统计量; 词法分析;
[英文关键字]computer application; Chinese information processing; person name recognition; named entity recognition; boundary template; local frequency; lexical analysis;
[摘要]本文提出了一种基于篇章信息的中国人名识别算法。我们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。该算法具有线性时间复杂度,大规模开放测试(针对1354篇新闻报道约304万字,含人名3.7万个)的正确率为94.52%,召回率为98.97%,效果非常令人满意。
[英文摘要]In this paper an effective algorithm for Chinese person name recognition is proposed.Person name's left and right boundary words and person name's character frequency are extracted from tagged corpus,which will be used as the knowledge for recognition.First we use these boundary templates to find possible person names.Then these recognized person names are used to match the missed occurrence in the text.At last,the local frequency obtained from the whole text is used to check and correct the name boundaries...
[期刊]2006年第5期
      
©中国中文信息学会 1981-2007
京ICP备05039057号