微博领域的汉语词语

组织者:北京大学信息科学技术学院计算语言研究所

一、 引言

汉语词语切分经过多年的研究,已可以达到较高的准确率。然而对于微博领域的词语切分而言,效果仍然不够理想。本次CIPS-SIGHAN-2012汉语词语切分评测将着重考察汉语词语切分算法对于微博文本的适应能力。

二、 任务描述

本次评测包含如下任务

汉语简体微博文本的词语切分开放测试。本任务不提供训练集,可以使用在任何资源上训练的数据及习得的模型

三、 评价指标

本次评测采用的评价指标为:

正确率P= 准确切分的词语数/切分出的所有词语数*100%

召回率R= 准确切分的词语数/应该切分的词语数*100%

综合指标F值 = 2*P*R/(P+R)

四、 数据

本次评测只给出极少量的切分数据作为参评系统格式训练用,它包括原始数据和切分数据两类。其切分标准参照《北京大学现代汉语语料库基本加工规范

五、 测试语

测试语料约为5千篇微博文本。

六、 提交结果

系统运行结果文件命名为:Result-#ID.txt。其中#ID为参评单位名称的简写形式。

参评单位还需提交一个系统描述文件,该文件命名为:Description-#ID.txt

系统描述需对以下问题给出说明:

软硬件环境:操作系统及其版本、CPU类型和主频、内存大小等等

运行时间:参评系统从接受输入到产生全部输出所花费的时间

技术概要:简要说明参评系统所采用的主要技术和重要参数

训练数据:对于开放训练测试,需要给出所使用的外部数据说明

七、 数据格式说明

输入数据格式:

输入数据是未经词语切分的文本文件,如下所示:

【拍客】最给力的美女主持亲妮动作热场引观众爆掌声-芝麻拍客 http://t.cn/aEZfpo

输出数据格式

输出数据是经过自动词语切分的文本文件,每个词语为一逻辑行:

拍客

给力

美女

主持

亲妮

动作

热场

观众

掌声

-

芝麻拍客

http://t.cn/aEZfpo

八、 编码

输入输出数据统一采用UTF-8编码

九、 评测技术报告

每个参评单位都需要提交一份评测技术报告到CIPS-SIGHAN-CLP2012 (http://www.cipsc.org.cn/clp2012)

温馨提示重要日期

2012-05-15:开放注册

2012-07-01:公布训练500篇微博文本数据

2012-08-01:提交格式验证

2012-09-27:公布评测数据

2012-09-30:返回测试结果截止

2012-10-20:公布评测结果

联系信息

关于评测的任何问题,请联系:

段慧明、穗志方

中国•北京市海淀区颐和园路5号

北京大学信息科学技术学院计算语言研究所

邮政编码100871

电子邮件:duenhm@water.pku.edu.cn , szf@pku.edu.cn