一、学会新闻

第九届中国中文信息学会语言技术暑期学校成功举办

    2014年8月15日至17日,第九届中国中文信息学会语言技术暑期学校在天津大学计算机学院成功举办。由中国中文信息学会及微软亚洲研究院联合主办的语言技术暑期学校自2005年以来已成功举办八届。往届暑期学校在承办方哈尔滨工业大学语言技术研究中心的竭诚努力下,获得了广大师生的普遍好评,为自然语言技术的人才培养和技术推广做出了卓越贡献,数以千计的学子在暑期学校中获得了来自国内外顶级企业及研究机构的著名学者的当面指导,受益匪浅。自今年起,中国中文信息学会进一步将暑期学校推广到全国知名高校。

    2014年度暑期学校由天津大学计算机学院网络智能信息技术研究所承办。本届暑期学校邀请到了来自微软、百度、北京大学和中科院的6位著名专家为学员授课。其中,包括了微软亚洲研究院首席研究员周明博士,和研究院韦福如博士,介绍了社会媒体内容分析的研究进展;中科院信息工程研究所王斌研究员为大家深入浅出的介绍了信息检索的关键技术;北京大学计算语言学研究所所长王厚峰教授介绍语篇处理的最新进展;百度自然语言处理技术负责人吴华博士介绍了机器翻译技术理论和应用;最后百度深度学习研究院副院长,国家千人计划专家余凯博士为大家梳理了机器学习领域近年来的发展脉络和深度学习的内容。

    中国中文信息学会理事长,哈尔滨工业大学李生教授,暑期学校创始人微软亚洲研究院周明教授,天津大学计算机学院院长,千人计划专家党建武教授,会务组主席,天津大学教授,天津市千人计划专家宋大为教授出席了暑期学校并致辞。来自51个高校,研究所和企业的近200名研究生、教师和研究人员共聚一堂,听取了为时三天的课程,学员规模达到了历届最大。通过对自然语言处理及相关技术的最新进展的深入学习和探讨,大家不仅学有所得,也对自然语言处理技术的发展前景充满了信心,纷纷表示希望暑期学校能够越办越好,成为自然语言处理领域的重要交流平台,为自然语言处理及相关技术的发展贡献力量!

学会青工委执行委员刘康助理研究员和理事赵军研究员的学术论文获COLING2014最佳论文奖

    8月29日,在第25届计算语言学国际会议COLING2014颁奖仪式上,我学会青年工作委员会执行委员刘康助理研究员和学会理事赵军研究员的学术论文"Relation Classification via Convolutional Deep Neural Network"(作者:曾道建,刘康,来斯惟,周光有,赵军)获得大会最佳论文——IBM Watson Best Paper Award。

    COLING会议是计算语言学领域的顶级国际会议,由国际计算语言学学会(the International Committee on Computational Linguistics,ICCL)主办,每两年一届。本届会议于2014年8月23到29日在爱尔兰的都柏林召开,世界各地近700人参加了会议。这次会议共收到691篇论文,其中录用口头报告论文139篇,录用率为20.1%。由全世界几十位权威专家组成的评奖委员会通过投票评出了两篇最佳论文,该论文得票数名列第一,得到了国际同行的广泛关注,认为是该领域一个开创性的工作,将对关系分类这一任务产生重要影响。COLING2014最佳论文奖由IBM Watson研究中心冠名赞助,该中心于2011年推出了一台能快速回答自然语言复杂问题的机器——Watson,并在美国著名智力问答竞赛节目《危险边缘》中战胜人类选手。

    互联网上存在大量的非结构化电子文本,如新闻、博客、电子邮件通信、政府文件、聊天记录等。如何帮助人们理解这些数据?普遍的观点是通过注释语义信息,把非结构化文本变成结构化文本,其中的关键技术之一是实体语义关系分类。传统的关系分类主要采用有监督的方法,研究重点在于找出更具区分性的特征。传统的特征提取凭借经验进行,依赖于现有的自然语言处理工具(词性标注、句法分析、实体识别等)。然而,对于大规模网络信息而言目前的自然语言处理工具性能有限,同时传统方法也会导致处理过程中的误差累积。针对上述这些问题,该获奖论文提出了基于卷积深层神经网络(Convolutional Deep Neural Network)的文本语义特征学习方法;利用卷积深层神经网络,自动学习表征实体语义关系的词汇特征、上下文特征以及实体所在的句子文本特征等;相对于以往关系分类方法,该方法不需要利用NLP处理工具(POS、NER、Parsing等)抽取特征,极大的改善了特征抽取过程中多个处理环节所带来的误差累积问题。实验结果表明,相对于已有state-of-the-art方法,该方法在关系分类任务上性能有显著提升。

 

二、学术活动

第八届全国汉字信息处理技术研讨会(CIPT2014)

    为充分交流汉字信息处理技术中的最新成果,推进中文信息处理技术的发展,中国中文信息学会汉字信息处理系统专业委员会、汉字字形信息专业委员会、汉字编码信息专业委员会、咨询委员会将于2014年10月底在北京联合召开全国汉字信息处理技术研讨会(The 8th China National Conference on Chinese Character Information Processing Techniques,简称CIPT2014)。会议由汉字信息处理系统专委会承办。诚挚地邀请和欢迎中文信息处理技术相关的专家学者参会。

    重要日期

    投稿截止日期: 2014年9月15日

    论文录用与会议通知时间:2014年9月30日前

    会议日期:2014年10月27日-28日

    详细事宜请参考学会网站

第十三届全国计算语言学学术会议将于2014年10月18日—19日在武汉举行

     "第十三届全国计算语言学学术会议"(The Thirteenth China National Conferenceon Computational Linguistics,CCL2014)将于2014年10月18日—19日在华中师范大学举行。作为国内最大的自然语言处理专家学者的社团组织——中国中文信息学会(CIPS)的旗舰会议,全国计算语言学会议从1991年开始每两年举办一次,从2013年开始每年举办一次。CCL着重于中国境内各类语言的计算处理,为传播计算语言学最新的学术和技术成果提供了广泛的交流平台。

    重要日期

    报到时间:2014年10月17日8:00

    召开时间:2014年10月18日至19日(会期两天)

    详细事宜请参考会议网站

第二届全国中文知识图谱研讨会将于2014年10月17日在武汉举行

     知识图谱(Knowledge Graph)是当前学术界和企业界的研究热点。中文知识图谱的构建对中文信息处理和中文信息检索具有重要的价值。作为国内最大的自然语言处理专家学者的学术类社团团体——中国中文信息学会(CIPS)主办的前沿学术研讨会之一,本次会议将与第十三届全国计算语言学会议在同一会议地点举办,会务、交通等详细信息敬请查看第十三届全国计算语言学会议网站中的参会说明部分。

    重要日期

    报到时间:2014年10月16日14:00

    召开时间:2014年10月17日(会期一天)

第三届CIPS-SIGHAN中文处理资源与评测国际会议(CLP-2014)将于2014年10月20日—21日在武汉举行

     2014年中文处理资源与评测国际会议(CLP-2014)由中国中文信息学会(CIPS)和国际计算语言学协会中文处理专业兴趣组(SIGHAN)联合组织。首届中文处理资源与评测国际会议(CLP-2010)与第23届国际计算语言学大会(COLING-2010)同期在北京举办。第二届中文处理资源与评测国际会议(CLP2012)于2012年12月20-21日在中国天津大学举行。本届大会CLP2014将于2014年10月20-21日在中国华中师范大学举行。

     本次中文处理资源与评测国际会议(CLP-2014)旨在为中文处理领域中全球的研究人员提供一个展示研究成果、交流学术思想、探索研究新方向、推动研究发展的平台。CLP-2014还将举办一个国际评测竞赛,包括四项评测任务:中文分词、中文拼写检查、简体中文句法分析、中文人物属性抽取。有关此次国际评测竞赛的详细信息,请参见 http://www.cipsc.org.cn/clp2014/webpage/cn/bake-off.htm。本次会议将与第十三届全国计算语言学会议在同一会议地点举办,会务、交通等详细信息敬请查看第十三届全国计算语言学会议网站中的参会说明部分。

    重要日期

    报到时间:2014年10月19日8:00

    召开时间:2014年10月20日至21日(会期两天)

三、学会通知

中国中文信息学会会员发展工作的通知

    为推进学会的改革,建立以会员为主体的管理体制,健全会员管理制度,按照中国科协《关于规范全国性学会个人会员登记号的通知》的要求和规定,结合本会的具体情况,建立个人会员登记制度。

会员登记的简要流程:

    1.下载会员申请表,填写完成后发送至学会邮箱:cips_m@iscas.ac.cn

    2.收到会员信息确认函后缴纳学会年度会费, 完成会员资格认证。

2014年度"中国中文信息学会"个人会员收费标准:

    个人会员:120元/年    学生会员: 60元/年

会员费缴费方式:

    (1) 银行转账:

       开户银行:工商行北京市分行海淀西区支行 户名:中国中文信息学会 账号:0200004509014415619

    (2) 邮局汇款:

       地址:北京8718信箱"中国中文信息学会" 收款人:中国中文信息学会 邮政编码:100190

    (3) 学会支付宝账号转账:

       户名:中国中文信息学会 账号:cips_pay@163.com

    (4)中国中文信息学会办公室缴费

       地址:北京市海淀区中关村南四街4号院7号楼201房间 联系电话:010-62562916

    会员经注册并缴费后,将获得会员登记号和会员证。在参加学会主办的各类学术活动时,凭会员证将享受会费优惠;定期获赠中国中文信息学会会员通讯(电子版)。

    为鼓励更多学者加入学会,完成2014度会员登记的全体会员和部分学生会员(以缴费顺序,先到先得,赠完为止),将获赠2014年度全年《中文信息学报》(纸质版)。

四、学术动态

SIGIR 2015 明年8月9-13日在智利的圣地亚哥举行

    SIGIR 2015 明年8月9-13日在智利的圣地亚哥举行。长文投稿截止日期为2015年1月28日。

    http://www.sigir2015.org/

COLING 2016将在日本大阪举办

    在爱尔兰都柏林的COLING 2014闭幕式上,委员会宣布COLING 2016将在日本大阪举办,日本情报通信研究机构(NICT)主办。


Twitter向所有账号开放推文分析工具

    Twitter 前端工程师 Ian Chan 日前发推文宣布,Twitter 将向其所有用户开放推文分析工具(Tweet Activity Analytics)。这是 Twitter 在 7 月推出的一个与 Google Analytics 相似的文本分析工具,使用该工具的用户可以对自己发出的推文进行量化分析,量化的指标包括一定时间内的曝光度、点击量、互动量等。之前,这项功能仅对广告主开放,以方便他们更好的衡量自己在 Twitter 上投放广告的效果。从今天起,这项功能将面向所有账号开放使用至少 14 天,但不涉及受限、受保护以及停用的账号。并且,可分析的推文语种主要为英语、法语、西班牙语和日语。


IBM具备阅读和学习能力的人工智能Watson投入使用,开始服务于科研人员

    IBM8月28号宣布,他们旗下的 Watson 系统投入使用,开始为一些科学家服务,加速研究的进展。IBM 最新的人工智能可以阅读文献、理解化学反应式和数据图表。

    Watson 是一台超级计算机,由 90 台 IBM 的 Power 7 服务器并行组成。和 Google、微软的人工智能相比,它(还是应该用他?)从硬件芯片构架就开始模拟人类神经元。基于 IBM 的 "DeepQA" 技术开发,它可以听取人类的问题,在浩如烟海的数据中寻找答案并用自然语言回答。

    http://www.36kr.com/p/214911.html

科大讯飞智能家庭语音产品发布

    近日,科大讯飞(002230,股吧)在京举行"语音点亮生活—科大讯飞智能家庭语音产品发布会",并启动"讯飞超脑"计划。

    据了解,产品面向智能家庭领域,包括新版本语音助手灵犀3.0、语音交互的讯飞智能音箱、智能电视交互的"未来遥控"等。科大讯飞董事长刘庆峰详细介绍了近年来科大讯飞在智能语音和人工智能方面的创新发展。科大讯飞还将配套语音新投基金,联合创业投资机构对优质项目进行投资。

    http://tech.hexun.com/2014-09-01/168086162.html

五、学术资源

CIKM 2014 Accepted Papers
http://cikm2014.fudan.edu.cn/index.php/Index/info/id/11

Deep Learning KDD 2014 Tutorial
http://www.cs.toronto.edu/~rsalakhu/kdd.html
    由Russ Salakhutdinov在KDD 2014中给出的关于Deep Learning 的tutorial,包括RBMs, DBMs, DBNs, 及multimodal learning。相关例子和代码见:http://deeplearning.cs.toronto.edu/

Tutorial: Statistical Methods for Mining Big Text Data
http://www.itee.uq.edu.au/dke/filething/get/855/text-mining-ChengXiangZhai.pdf
    翟成祥老师(UIUC)今年在澳大利亚数据库博士短训班的教程:"Statistical Methods for Mining Big Text Data" 介绍两种基于统计语言模型(Statistics Language Model)的基本话题模型(Topic Model): LDA和PLSA的原理及应用。最后列出六个未来研究课题

微软研究院教授峰会的深度学习讨论会相关资源
http://research.microsoft.com/en-us/events/fs2013/agenda_collapsed.aspx
    包含Li Deng, John Platt (微软),Yoshua Bengio(蒙特利尔大学),Honglak Lee(密歇根), Andrew Ng (斯坦福), Ruslan Salakhutdinov(多伦多)等人的报告PPT和视频。

斯坦福大规模网络数据集大全
https://snap.stanford.edu/data/
    由斯坦福教授Jure Leskovec整理,可免费下载。共包括十多种不同类型的网络数据集(社交;在线社区;电子邮件;引用;Web等等),其中Friendster数据集有6千5百万节点,18亿条边。

《纽约时报》标注数据集
    https://code.google.com/p/nyt-salience/
    训练集包括100,834文件,19,261,118标注实体。测试集合包括9,706文件,187,080标注实体。

综述专著:Graph-Based Semi-Supervised Learning
    http://www.morganclaypool.com/doi/abs/10.2200/S00590ED1V01Y201408AIM029
    While labeled data is expensive to prepare, ever increasing amounts of unlabeled data is becoming widely available. In order to adapt to this phenomenon, several semi-supervised learning (SSL) algorithms, which learn from labeled as well as unlabeled data, have been developed. In a separate line of work, researchers have started to realize that graphs provide a natural way to represent data in a variety of domains. Graph-based SSL algorithms, which bring together these two lines of work, have been shown to outperform the state-of-the-art in many applications in speech processing, computer vision, natural language processing, and other areas of Artificial Intelligence. Recognizing this promising and emerging area of research, this synthesis lecture focuses on graph-based SSL algorithms (e.g., label propagation methods). Our hope is that after reading this book, the reader will walk away with the following: (1) an in-depth knowledge of the current state-of-the-art in graph-based SSL algorithms, and the ability to implement them; (2) the ability to decide on the suitability of graph-based SSL methods for a problem; and (3) familiarity with different applications where graph-based SSL methods have been successfully applied.