第三届汉语句法分析评测CIPS-SIGHAN-ParsEval-2012

评测方案设计

周 强

清华大学信息技术研究院

语音和语言技术中心

zq-lxd@mail.tsinghua.edu.cn

1. 概述

基于清华汉语树库TCT标注语料,我们已进行了两届汉语句法分析评测(ParsEval-2009[1]ParsEval-2010[2])。从其中进行的两次小句层面和一次句子层面评测结果看,汉语复杂句子的成分分析是一个难点。本次评测将通过对汉语句法成分的标记细分类和引入新的组合范畴语法(Combinatory Categorial Grammar, CCG) ([3],[4])描述体系,逐步挖掘汉语句法分析的主要难点所在,为后续改进汉语句法分析器性能的研究工作提供重要参考数据。

本次评测的重点将集中在以下几个方面:1) 通过引进复句内部关系标记,如:连贯、因果、条件等,评测自动分析器对不同类型的复句成分的自动识别能力,挖掘汉语复杂句子的主要分析难点;2) 通过引进小句层面的若干概念复合标记,如:并列、连谓等,评测自动分析器对汉语句子中不同概念复杂化机制的自动识别能力,挖掘汉语小句的主要分析难点;3) 通过对训练语料的分级处理,测试不同规模的训练语料对分析器性能的影响;4) 通过引入CCG描述体系,评测CCG词汇化范畴对自动分析器性能的影响效果。在同样的数据集合和评测指标上,进行CCG和短语结构语法(Phrase Structure Grammar, PSG)的分析性能对比分析。

基于以上几点设想,本次评测将针对完整的汉语句子,设置两个评测任务:PSG分析评测和CCG分析评测。在每个评测任务中,将同时将上面提到的1-3个评测点融入相应的句法标注体系设计中,从而可以进行全方位的数据对比分析。对每个评测任务,都可以使用以下两种开发模式:1)封闭学习,即只使用训练数据习得相关分析模型;2)开放学习:可以使用其他任何资源习得合适的分析模型。我们将分别针对不同处理模式进行评测。考虑到汉语句子中复杂句子关系和概念复合结构识别的复杂性和困难度,本次评测鼓励使用其他开放资源来提升相应成分的分析性能。

另外,为测试单模型的分析能力,在封闭学习模式中,进一步区分了两种不同处理模式:1) 单分析模型:只使用一种分析模型完成分析任务;2) 多模型融合:通过对多种不同的分析模型处理结果的融合处理,达到提升分析性能的目的。我们将提供以上两种处理模式下的各自独立的排序结果。本次评测鼓励使用单分析模型处理方法。

在下面几节中,我们首先介绍这次评测任务的主要设计理念,给出两个子任务的简要描述;接着介绍评价指标设计和具体计算公式描述;然后介绍评测数据的构建方法和数据规模。最后介绍评测工具使用、文件命名等具体评测注意事项。在后面的附录中,将给出相应的标记体系简要说明文档供参考。

2. 评测任务设计

2.1 设计理念

本次评测的处理对象是汉语真实文本中的完整句子。我们把汉语句子定义为真实文本中以句号、问号、感叹号等为边界切分出的汉字序列。注意在此过程中需要保持句子中各个标号对,如:单引号、双引号等的完整性。在具体训练测试样例选择时,又增加了以下限制条件:句子中的词语数目应大于2,以便使评测工作集中在具有实际内容的句子的分析上。

以完整句子为对象的ParsEval-2010[2]的评测结果显示:

1) 汉语复句成分的自动分析F1值比其他小句成分低了5-6个百分点。

2) 在完整句子中的小句成分的自动分析F1(Task 2-2),比在人工切分的事件描述小句片段中的相应成分(Task 2-1),也低了5-6个百分点。

由于ParsEval-2010Task 2-2在测试集合选择上增加了句子复杂度门槛:句子词语总数大于8或句子词语总数大于5并且存在多个点号,因此其分析性能下降也是在所难免的。从中,我们可以得出以下初步结论:汉语句子越复杂,自动分析难度就越大

但这个结论还是太模糊、太宽泛,对如何提升汉语分析器性能的研究意义不是很大。我们需要更深入了解汉语句子的那种复杂化机制(事件组合和概念复合)对自动分析器性能影响最大。另外,针对汉语自动分析器,到底需要多大规模的训练语料就可以达到较好的分析效果,也是值得探索的问题。因此,本次评测将通过设计以下评测点能逐步弄明白以上问题:

1) 引进复句内部关系标记,如:连贯、因果、条件等,评测自动分析器对不同类型的复句成分的自动识别能力和性能差异情况;

2) 引进小句层面的若干概念复合标记,如:并列、连谓等,评测自动分析器对汉语句子中不同概念复杂化机制的自动识别能力和性能差异情况;

3) 对训练语料进行分级处理,测试不同规模的训练语料对分析器性能的影响;

除了以上具体语言现象评测点的设计,本次评测的另一项主要探索是希望引入针对汉语的CCG标注体系。在同样的数据集合和评测指标上,进行PSGCCG的分析性能对比分析。

CCG是一种基于词库(Lexicon)的深层语法理论。其主要特点是可以内置谓词-论元(Predicate-Argument, PA)关系描述和分析机制,从而方便地解决了句子分析中的句法语义链接(Syntactic Semantic Linking, SSL)问题,可以为不同句法语义现象提供强大的描述分析机制支撑。目前,英语方面的大量研究已显示出CCG对海量真实文本的强大分析能力[5]

但由于实验数据的限制,目前我们还不能获得完全融入了PA关系的CCG标注库。因此,在本次评测中,将主要集中在CCG词汇化范畴及其典型CCG应用(application)规则对自动分析器性能的影响效果的评测方面。并与基于词类标注体系的PSG语法规则在上面三个主要测试点进行全面的性能对比分析。

2.2 任务分解

针对PSGCCG两个标注体系,设计以下两个评测子任务。

任务 1: PSG 分析评测

任务描述:

输入:经过正确词语切分的汉语句子,其中的词语总数大于2。具体实例同上。

分析目标:对句子中的每个词语,确定合适的词类标记;并分析形成完整的层次结构树。

输出:输入句子的完整层次结构树。

  • (zj (dj (np (b 小型) (np (n 木材) (n 加工场) ) ) (vp (d ) (vp-LW (ap (a ) (uA ) ) (vp (v 制作) (np (mp (m ) (qN ) ) (n 木制品) ) ) ) ) ) (wE ) )

任务 2: CCG 分析评测

任务描述:

输入:经过正确词语切分的汉语句子,其中的词语总数大于2。

  • 小型 木材 加工场 在 忙 着 制作 各 种 木制品 。

分析目标:对句子中的每个词语,确定合适的CCG范畴指派;并分析形成完整的CCG推导树。

输出:输入句子的完整CCG推导树。

  • (S{decl} (S (NP (NP/NP 小型) (NP (NP/NP 木材) (NP 加工场) ) ) (S\NP ([S\NP]/[S\NP] ) (S{Cmb=LW}\NP (S\NP (S\NP ) ([S\NP]\[S\NP] ) ) (S\NP ([S\NP]/NP 制作) (NP (NP/NP ([NP/NP]/M ) (M ) ) (NP 木制品) ) ) ) ) ) (wE ) )

3. 评测指标设计

目前,基于PSGCCG的句法过程一般分为两个阶段:1) 确定句子中各个词语的句法标记(Syntactic Category, SC),包括:PSG词类标记和CCG范畴标记;2) 生成句法分析树(Parsing Tree, PT),包括:PSG层次结构树和CCG推导树。针对这两个阶段的处理,我们分别设计了针对词语句法标记和分析树句法成分的两组评测指标。下面对相关内容进行简要说明。

3.1 词语的句法标记评测指标

首先,按照测试集中不同句法标记实例的分布比例SC_Token_Ratio,将所有句法标记分成不同类别:

  • 如果某个标记的SC_Token_Ratio >=10%,则这个标记单独成为一类;
  • 否则,将所有低频标记组成一类:Oth_SC

其中的不同标记实例的分布比例计算公式为:

  • SC_Token_Ratio=测试集中该标记实例出现总数 / 测试集中的词语总数 * 100%

然后,对每个标记类别,分别计算其标注准确率(SC_P)、召回率(SC_R)F1(SC_F1)。具体计算公式为:

  • SC_P = 某类正确的句法标记总数 / 自动标注为该类标记的词语总数 * 100%
  • SC_R= 某类正确的句法标记总数 / 标准答案中该类标记的词语总数 * 100%
  • SC_F1= 2*SC_P*SC_R / (SC_P + SC_R)

句法标记的正确性判据:一个词语的自动标注结果与标准答案的标注结果完全一致。

最后,得到整个测试集中所有词语的标注准确度(SC_P = SC_R = SC_F1)作为句法标记阶段性能评价的一个参考排序指标。

针对CCG分析任务,句法标记评价对象为CCG范畴标记;针对PSG分析任务,句法标记评价对象为词类标记。

3.2 句法树中的句法成分评测指标

句法成分评测阶段的处理对象是句法分析树(CCG推导树和PSG层次结构树)中的所有非叶子节点。它们统称为句法成分。

首先,按照句法成分的不同标记将它们分为以下5个类别。具体分类标准主要依据TCT提供的双标记组合信息,有关详细内容可参阅下节说明。

1) 事件组合成分:复句,句群;

2) 概念复合成分:并列、连谓、重叠等结构成分;

3) 小句组合成分:名词短语、动词短语、单句等;

4) 单节点成分:包括TCT中的独立成分dlcCCG中的类型转换规则等。它们反映了汉语句子中的一些特殊语言现象,需要进行单独评测。

5) 其他成分:所有不能归入上面4类的句法成分,包括:整句、引句以及二叉化过程中形成的其他标点组合结构等。

然后,对每类成分,分别计算其分析准确率(Cont_P)、召回率(Cont_R)F1(Cont_F1)。具体计算公式为:

  • Cont_P = 某类正确分析的句法成分总数 / 某类自动分析的句法成分总数 * 100%
  • Cont_R= 某类正确分析的句法成分总数 / 标准答案中某类句法成分总数 * 100%
  • Cont_F1= 2*Cont_P*Cont_R / (Cont_P + Cont_R)

句法成分分析的正确性判据:自动识别的句法成分的左右边界和句法标记与标准答案数据完全一致。

最后,计算以上各类中前4类的有效成分F1值的加权平均值Tot4_F1作为句法分析阶段性能评价的排序指标。计算公式为:Tot4_F1 = Cont_F1i * Cont_Ratioii[1,4]。其中Cont_Ratioi是测试集中各类成分的分布比例,计算公式为:Cont_Ratioi=某类成分实例总数 / 所有成分实例总数 * 100%。为便于分析比较,同时也计算出上面全部5类的F1值加权平均TotAll_F1作为参考数据。

为了获取更精细的评价数据,针对上面的每类句法成分,还可以使用3.2节中句法标记的处理方法,计算其中每个典型句法成分的相应分析准确率、召回率和F1值。

另外,我们准确估计现有分析器性能的下界,设计了成分边界准确率(BD_P)、召回率(BD_R)F1(BD_F1)和不交叉成分边界准确率(NoCross_P)等指标。具体计算公式为:

  • BD_P= 边界分析正确的句法成分总数 / 自动分析的句法成分总数 * 100%
  • BD_R= 边界分析正确的句法成分总数 / 标准答案中的句法成分总数 * 100%
  • BD_F1 = 2*BD_P*BD_R / (BD_P + BD_R)
  • NoCross_P = 边界不交叉的句法成分总数 / 自动分析的句法成分总数 * 100%

这些指标的评价对象是全部的二叉分析成分。它们将作为句法分析性能评价的一个参考排序指标。

4. 评测数据准备

本次评测的基本训练数据为清华句法树库 TCT Version 1.0[6]中的新闻和学术类标注数据。总标注规模约48万词,基本与ParsEval-2010的训练库保持一致。测试数据是从TCT-2010150篇新闻类标注数据中抽取出的1000个汉语句子。以此为基础,可以通过以下构建过程自动生成两个评测任务的相应训练测试数据集:

首先对TCT数据进行二叉化处理,得到完全二叉化的TCT标注版本。在这个过程中,新增加关系标记RT, LT分别表示二叉化中形成的左右标点组合成分。其他成分基本上可以保持TCT原有的双标记标注信息。

在此基础上,利用TCT双标记组合,可以将所有的TCT句法成分划分为以下5类:

1) 事件组合成分:只需满足以下条件之一

a) TCT成分标记=fj(复句),并且TCT关系标记属于以下集合:{并列(BL)、选择(XZ)、连贯(LG)、递进(DJ)、因果(YG)、目的(MD)、条件(TJ)、假设(JS)、转折(ZE)、解注(JZ)、流水(LS)}

b) TCT成分标记=jq(句群)

2) 概念复合成分:需同时满足以下两个条件

a) TCT关系标记属于以下集合:{并列(LH)、连谓(LW)、顺序(SX)、重叠CD、复指(FZ)、补充(BC)、述补(SB)

b) TCT成分标记属于以下集合:{np, vp, ap, bp, dp, mp, sp, tp, pp}

3) 小句组合成分:需同时满足以下两个条件

a) TCT成分标记属于以下集合:{dj, np, sp, tp, mp, vp, ap, dp, pp, mbar, bp}

b) TCT关系标记属于以下集合:{ZW, PO, DZ, ZZ, JY, FW, JB, AD}

4) 单节点成分:

a) TCT成分标记= dlc(独立成分)

5) 其他成分:只需满足以下条件之一

a) TCT成分标记= zj(整句)yj(引句)

b) TCT关系标记= LT, RT, XX

c) 所有不能归入上述4类的句法成分

然后,可以通过以下步骤生成两个评测任务的相关数据:

  • 运行TCT2CCG自动转换程序,将TCT标注数据自动转换为CCG标注数据,并使用CCG提供的非范畴组合型规则形式保留事件组合和概念复合特征信息,形成任务1的训练测试数据[7]
  • 对上面1-25三类成分,保留TCT的双标记信息;对上面的3-4两类成分,只保留TCT成分标记信息,转换形成任务2的训练测试数据。

经过以上处理,可以在同样的汉语句子上,形成CCGPSG两套不同标注体系的评测数据,从而为两种标注的分析性能的对比分析打下了很好的基础。

5. 评测结果提供

5.1 不同训练条件下的评测结果

为了评测不同规模的训练语料对分析器性能的影响,我们将把训练库分为N个等分库A,每次选择i*A部分语料构成训练库,训练形成不同的分析器,在同样的测试库上得到N组不同的评测数据,汇总形成不同训练规模条件下的句法标记和句法成分评测指标分布趋势图。在本次评测中,计划选择N=10,获取各个若干典型评测指标的变化趋势图。这种评测只在封闭训练模式中进行。

具体实施方法为:主办方将为每个封闭训练模式参加单位提供10份增量提升训练语料,要求每个参加单位分别使用这10份标注语料,训练出10个不同的分析模型,在同样的测试数据上,分析提交10份测试结果,供主办方分析提取出10个不同训练条件下的评测结果。

5.2 数据文件命名格式

各个提交的测试数据文件应采用以下统一的命名格式:<单位ID>-<任务名称>-<训练模式>-<模型使用>-<系统名称>-<训练规模>.CPT,其中:

1) <单位ID>:由主办方提供的各个参赛单位的序列号;

1) <单位ID>:各个参加单位注册时自动获取的唯一ID

2) <任务名称>:表明参加的句法分析子任务名称,使用不同语法体系标记,主要选项:PSG, CCG

3) <训练模式>:表明模型训练方式,主要选项:Closed(封闭资源训练), Open(开放资源训练)

4) <模型使用>:表明分析器中的不同模型使用方式,主要选项:Single(单分析模型), Multiple(多模型集成)

5) <系统名称>:对参赛的各个系统的简要命名(要求不超过5个字符)

6) <训练规模>:对封闭训练模式,提供使用的训练语料规模数据,主要选项:1-1010为全部数据;对开放训练模式,使用缺省数据10,表示全部数据

下面是一个具体命名实例:01-PSG-Closed-Single-CCP-1.CPT,该文件名提供了以下信息:序号为01的单位参加了PSG分析任务,其提交的系统名称为CCP,该系统使用了封闭资源训练模式,分析器中只使用了单个训练模型,训练规模为全部训练数据的10%。这些信息可以为进行后续的评测结果汇总提供重要的基础数据。

参考文献

[1]. 周强,李玉梅 CIPS-ParsEval-2009评测报告 第一届汉语句法分析评测学术研讨会论文集(CIPS-ParsEval-2009),北京,200911月,pIII—XIII. (2009)

[2]. Qiang Zhou, Jingbo Zhu. Chinese Syntactic Parsing Evaluation. Proc. of CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2010), Beijing, August 2010, pp 286-295. (2010)

[3]. Surface Structure and Interpretation. MIT Press, Cambridge, MA. (1996).

[4]. Steedman, Mark. The Syntactic Process. MIT Press, Cambridge, MA. (2000)

[5]. Clark, S., Copestake, A., Curran, J.R., Zhang, Y., Herbelot, A., Haggerty, J., Ahn, B.G., Wyk, C.V., Roesner, J., Kummerfeld, J., Dawborn, T.: Large-scale syntactic processing: Parsing the web. Final Report of the 2009 JHU CLSP Workshop (Oct 2009)

[6]. 周强. 汉语句法树库标注体系. 中文信息学报. 18(4): 1-8. (2004)

[7]. 周强. 句法树库TCTCCG bank的自动转换:设计规范Ver 3.0. 清华大学信息技术研究院语音和语言技术中心技术报告 (2011)