CIPS青工委学术沙龙活动之走进北京大学

2018年4月22日,应三位中文信息学会青工委委员(北京语言大学信息科学学院于东副教授、北京语言大学对外汉语研究中心助理研究员饶高琦博士和北京大学计算机科学技术研究所孙薇薇副教授)邀请,北京信息科技大学智能信息处理研究所张仰森所长、哈尔滨工业大学计算机科学与技术学院车万翔教授、阿里巴巴机器智能技术实验室NLP组算法专家李辰在北京大学计算机科学技术研究所一楼106会议室举行了题为“面向汉语国际传播的自然语言处理技术与评测”的CIPS青工委专场主题报告会。报告会由孙薇薇副教授主持,北京信息科技大学计算机学院蒋玉茹副教授及近40名师生到场参加。

张仰森教授的报告题目是“中文文本错误自动侦测与纠错方法”。张教授首先介绍了文本校对的重要性和文本中的错误来源与类型,然后重点讲解了中文文本错误侦测模型及中文文本校对系统的构建,最后提出了对中文文本错误自动侦测的展望。

车万翔教授的报告题目是“基于LSTM的中文语法错误检测”。车教授带领的团队曾在2016年CGED国际评测中获得第一名的成绩,本次报告便是对参赛系统的详细介绍。该系统将CGED任务视为序列标注问题,可检测四种中文语法错误:多词、少词、错词及乱序,并尝试了三种模型:基于CRF的诊断模型、基于LSTM的诊断模型和Stacking集成模型。

李辰的报告题目是“基于语法特征嵌入的中文语法诊断”。阿里巴巴团队在2017年CGED国际评测中获得冠军,其构建的系统在BiLSTM-CRF模型的基础上,结合了char、char bigram、POS、POS score、adjacent word collocation、dependent word collocation等特征,并采用了三种不同的ensemble方法来进一步增强效果。

随后,孙薇薇博士和饶高琦博士分别介绍了中文句法错误诊断(CGED)评测和新兴的句法错误修正(GEC)评测的研究现状及最新进展,并对未来领域的发展进行了展望。

会后,张仰森教授向饶高琦博士赠送了所著的《统计语言建模与中文文本自动校对技术》一书。

整场报告节奏高效,内容精彩,中场休息及会后均引发了在场师生对CGED及GEC等相关问题的热烈讨论。大家积极提问,深入交流,都表示受益匪浅。