汉语命名实体识别与歧义消解

1. 引论

命名实体识别和歧义消解是自然语言处理中的重要问题。在汉语中,命名实体也常常由普通词表示,对于没有形态标记的汉语来说,无疑增加了命名实体识别的困难。例如,普通词“高明”被频繁用作人名;此外,即使是同一个名字,可以作为人名、也可以作为地名、还可以作为机构名(如,金山);对于人名而言,还经常由不同的人共享(如,王刚),地名也有类似的情况。针对汉语中这些问题,SigHan2012中设立了命名实体识别与歧义消解的评测任务。

本任务中的相关问题已在很多评测中有涉及。例如,TACKBP任务就有命名实体的消歧(称为entity link)。KBP提供一个关于实体名的知识库,知识库中同一个名字通常都会给出多个实体的定义;KBP的主要任务就是将文本中出现的某个名字链接到知识库的相应定义中,将无链接关系的名字按其指称进行聚类。

另一个相关的评测是WPS(Web People Search)。WPS评测不提供命名实体知识库,只是将有相同指称的名字聚集在一起。假定文档集合S中的每个文本都含有名字Name,WPS任务对S中的文本进行聚类,将Name指称相同的文本聚集在一起。

本评测对上述两个任务作了融合:判定文本中出现的字串是普通词还是命名实体;对于命名实体,再判定其是否在知识库中定义以及是知识库中的哪一条定义;对于不属于知识库中定义的名字进行聚类,有相同指称的名字聚为一类。

2. 任务说明

假定知识库 Name_KB是关于名字 Name的实体描述。设Name m 个实体共用,那么,在知识库Name_KB 中,该名字有 m 个实体的定义,每个定义由一段文字描述。例如,名字“雷雨”的描述如图1所示:

<?xml version="1.0" encoding="UTF-8" ?>

- <EntityList name="雷雨">

- <Entity id="1">

<text>通江县第二中学教师,男,大学本科,西华师范大学英语语言文学专业毕业。高二英语备课组长。自参工以来一事从事高中英语教学工作,长期从事班主任工作,所任班级历届成绩显著。论文《虚拟语气的用法》、《浅谈分词短语作状语》、《定语从句中介词+关系词介词的选定》在国家级、省级刊物上发表。指导向桀等多名学生参加历届全国中学生英语能力大赛并获优秀指导奖。</text>

</Entity>

- <Entity id="2">

<text>重庆市黔江区太极乡党委副书记、乡长。主持政府全面工作,主管财政、金融、审计、统计、非公有制经济、城乡统筹、乡镇企业、招商引资、烤烟、蚕桑工作。</text>

</Entity>

- <Entity id="3">

<text>罗源县中房镇下湖村人。19788月加入中国共产党。1981年,毕业于上海同济大学规划专业。同年起,任福州市城乡设计院规划室主任、工程师,兼任福州市土木建筑学会秘书长。曾获省4项、市1项建筑规划设计奖。1993年,任福州市政府城市改造办公室主任科员、福州市房地产开发总公司副总工程师。2000年,任福建武夷工程总公司建兴公司总经理(副处级)2001年,任重庆武夷公司总经理(处级)</text>

</Entity>

- <Entity id="4">

<text>男,汉族,硕士研究生学历,出生于19619月,陕西 中共商南县委书记,商州人,19808月参加革命工作,19827月加入中国共产党,现任中共商南县委书记。曾任任共青团商洛地委副书记;洛南县政府副县长;任中共商南县委副书记;中共山阳县委常委、县政府常务副县长,等。</text>

</Entity>

- <Entity id="5">

<text>四川省蒲江县教育局党组书记、局长。主持县教育局全面工作。主管教育督导、计财、基建和教仪电教等工作。</text>

</Entity>

- <Entity id="6">

<text>女,19758月生,回族,广西南宁人,中共党员,19977月广西师范大学汉语言专业毕业,2006年获教育硕士学位,中学中级教师,19977月进入桂林中学任教语文至今。</text>

</Entity>

</EntityList>

1. 名字 “雷雨”的知识库:雷雨.xml

在评测任务中,针对每个名字Name(假定是“雷雨”),都会提供一个文本集合T,其中的每个文本 t Î T ,均含有词 “雷雨”。于是,需要判断t中的“雷雨”对应于知识库中的哪一个定义。当然,“雷雨”本身可能不是名字,而是一个普通词。如果仅仅是普通词而不是实体名,就将其归入Other类中。此外,如果判定“雷雨”既不是普通词,也不是知识库中定义的实体,则把该词所属的文本归入集合SÍT。对于S,还需要按照名字(如,“雷雨”)的指称进一步划分,设划分结果为 Out_XX,其中XX为编号,依次为 Out_01Out_02

3. 输入与输出

关于输入:本次评测将提供两类数据:

(1) 命名实体知识库。对每个名字,将提供一个关于该名字的知识库,命名为:Name.XML(如“雷雨”的知识库名为:雷雨.XML),格式按XML表示,如图1所示;

(2) 针对每个名字Name,提供一个文本集合,该集合的所有文本均放在以Name命名的文件夹中(如含名字“雷雨”的文件放在文件夹“雷雨”下),集合中的每个文件均为纯文本文件,以三位的数字命名(XXX.txt)。

关于输出:对每个名字Name,输出一个纯文本: Name.txt。如名字“雷雨”,输出文件名为:雷雨.txt。每个输出文件的内容由二列构成(两列之间由1个空格间隔):

第1列:为文件名(不包括扩展名),如文件名为XXX.txt,则第1列只输出 XXX部分;

第2列:为文件中的 Name 所属的类。分如下三种情况:

(1) 如果指向知识库中的某个定义,则输出对应的id编号。图1中的id编号为 1-6;

(2) 如果为普通词,则输出 Other;

(3) 如果不属于上述两种情况,输出划分的类编号:Out_XX,其中的“Out_”不能省略。

输出文件中的每一行对应于一个文件的说明,按文件名的编号顺序增序输出。

特别注意,所有输入、输出数据均按 UTF-8 表示

4. 评测方法

仍以“雷雨”为例说明,设知识库中对其定义了6种实体指称,含有“雷雨”的测试文档集合为T,参考答案将T中所含的“雷雨”的文本进行了如下标注:

(1)“雷雨”在知识库中有定义,每个定义属于一类,表示为 L_XX (01≤XX≤06)T,其中,XX表示知识库对“雷雨”的第XX个实体定义;

(2)“雷雨”不是实体名,而是普通词,则为 Other 类;

(3)“雷雨”是实体名,但在知识库中没有定义,被分配在Out_XX类中,其中XX表示编号,类分别表示Out_01,Out_02,…。

我们总是假定,当一个文本中多次出现“雷雨”时,它们的标注都是一样的。因此,一个文本只需给出一种标注结果。系统对含有“雷雨”的文本标注结果分别用 SL_XXSOther,和SOut_XX表示(注意每个文本 t T只标注一个类别)。于是,对于每个文本 t T ,按如下方式计算准确率和召回率:

(1) 若系统将 t 中的“雷雨”划分到 SL_XX,则按知识库实体定义计算准确率和召回率

(2) 若系统将 t 中的“雷雨”划分到SOther中,则作为普通词计算准确率和召回率,

(3) 若系统将 t 中的“雷雨”划分到SOut_XX中,而参考答案中t属于Out_YY,则准确率和召回率分别为,

(4) 对于一个名字(如,“雷雨”)而言,指标定义如下:

注意,对于每个文本t T,上述的(1) (2) (3) 只有一者成立。

(5) 对于所有测试的名字而言,指标定义如下:

5. 联系方式

关于评测的任何问题,请联系:

王厚峰李素建

中国•北京市海淀区颐和园路5号

北京大学信息科学技术学院计算语言研究所

邮政编码100871

电子邮件:{wanghf,lisujian}@pku.edu.cn