当前位置:首页 > 学术活动

第四届中国情感计算大会(CCAC 2024)技术评测任务发布

来源:情感计算Affective Computing发布时间:2024-05-01
第四届中国情感计算大会(Chinese Conference on Affect Computing, CCAC 2024)由中国中文信息学会情感计算专委会主办,江西财经大学承办,将于2024719-21日在江西南昌召开。中国情感计算大会每年举办一次,旨在聚焦情感计算领域的最新研究和技术成果,现已成为自然语言处理、社会计算领域的重要学术活动,聚集了情感计算的前沿研究,为促进学术界和产业界之间的融合发展、传播情感计算最新的学术和技术成果提供交流平台。
CCAC 2024大会上,我们将继续组织情感计算相关技术评测,旨在为研究者们提供一个测试技术、算法、及系统的平台。经过前期评测任务征集,评测委员会已确定5项评测任务,包括大模型安全的双重防线:少样本文本内容安全挑战赛、第四届智慧论辩评测、结合用户画像信息中文情绪分类评测、微表情自动识别、中文讽刺计算五个情感计算领域重要的研究方向。我们诚挚欢迎广大研究者参与评测竞赛,评测竞赛的获奖团队将会被邀请在大会上分享其技术、方法和经验。
一、评测任务

任务一:大模型安全的双重防线:少样本文本内容安全挑战赛

任务背景

大模型具有强大的通用能力,其可以遵循用户的指令,为用户解决多种多样的问题。然而,未经安全性增强的原始大模型存在严重的安全性缺陷,其经常会不受控制地输出各种不符合人类价值观甚至违法犯罪的不良言论,如社会偏见、淫秽色情、暴力恐怖等。这种安全性缺陷会导致大量风险,不仅会毒害个人心灵,并且还会传播不良价值观、传播偏见,最终引发群体对立甚至是危害国家安全。20242月底,全国网络安全标准化技术委员会发布《生成式人工智能服务安全基本要求》,规定了一系列包括语料安全、模型安全和安全措施等基本要求,本次评测主要关注中文大模型对话场景下的文本内容安全评估任务,不排斥使用小模型,也鼓励参赛者充分利用开源/闭源大模型的能力而非单纯调用文本生成接口对文本中的安全风险进行识别分类,旨在推动中文领域AI向善相关研究的发展,并试图为学界研究者与相关产业从业者提供良好的沟通交流平台。

任务介绍

本届大模型安全的双重防线:少样本文本内容安全挑战赛共包含2个子任务:少样本用户问询安全检测和少样本模型回复安全检测,分别对应文本内容安全检测在大模型对话应用方面的两个具体场景,用户侧的风险询问文本前过滤和大模型侧的风险回复文本后过滤。我们在《生成式人工智能服务安全基本要求》指导下参考一系列开源大模型的技术报告、大模型服务提供商的使用政策和云服务的内容审核接口设计了一套安全体系,在该体系下构建了中文数据集作为评测语料。我们所设计的安全体系包含违法违规淫秽色情偏见歧视暴力恐怖侮辱谩骂个人权益道德伦理政治敏感八大类别,由专业标注员对各个类别撰写了触犯安全风险和不触犯安全风险的询问文本,将这些询问文本输送到现有的一些中文开源大模型中获取回复并进行回复的安全性标注,包含用户的询问、模型的回复,以及询问和回复的安全性标签。
  • 评测赛道一:少样本用户问询安全检测
给定一个句子,可以视为用户对大模型的问询,参赛模型需要判断当前句子在安全体系中所属的主题类别并同时判断该句子的安全性,若句子存在安全体系中的违反行为,标签为不良,若不存在违反行为,标签为安全。
评测指标:
安全体系类别多标签分类:Macro-F1
安全性二分类:不良的漏判率 / 安全的错判率。
  • 评测赛道二:少样本模型回复安全检测
给定一段用户与模型单轮对话形式的句子,参赛模型判断模型回复是否安全,若模型回复存在安全体系中的违反行为,标签为不良,若不存在违反行为,标签为安全。
评测指标:
安全性二分类:不良的漏判率 / 安全的错判率。
具体任务细节参见:
https://github.com/rangwang/CCAC2024-FS_Moderation

组织者和联系人

评测组织:哈尔滨工业大学
评测主席:赵妍妍
评测委员会成员:李卓君,陆鑫,刘宇晟,孙怡馨
如有疑问,请致信评测会务组:李卓君(zjli@ir.hit.edu.cn)、刘宇晟(ysliu@ir.hit.edu.cn)

评测报名方式

https://docs.qq.com/form/page/DQXpOVlFtZFBVbGhF

任务二:第四届智慧论辩评测

任务背景

论辩是人类智慧的一项重要技能,在诸多人类活动中承担着不可或缺的作用。计算论辩技术关注机器对人类论辩过程的理解和模仿,广泛应用于决策辅助、写作支持和逻辑审查等场景,也可以在网络认知计算中发挥重要作用,于近年来逐渐成为人工智能研究的新兴重要分支。本届评测重点关注大模型技术,鼓励参赛者将大模型技术与计算论辩研究结合,旨在推动计算论辩社区对齐前沿方向。

任务介绍

本届智慧论辩评测包含基础论辩能力评测及综合论辩表现评测两个阶段。本届评测鼓励参赛选手使用大语言模型(LLM)解决问题,因此不针对各个任务分别提供训练数据,而是统一提供论辩指令数据集。除阶段二的自主论辩任务外,每个任务都有相应的测试集。
以下是各阶段任务的具体介绍。
阶段一:LLM基础论辩能力评测
  • 子任务一、论据发现
给定一个论点和一个候选句子,判断当前句子是否为支持当前论点的论据。输出有两种标签:1表示是论据,0表示非论据。
评价指标:F1
  • 子任务二、立场分类
给定一个辩题和一个论点,判断该论点的立场为支持或反对。输出有两种标签:1表示支持,-1表示反对。
评价指标:F1
  • 子任务三、反论点生成
针对给定的话题和原始论点,由参赛模型自动生成反驳原始论点的1个句子(称为反论点)。
评价指标:BLEUROUGEMETEOR
阶段二:LLM综合论辩表现评测
  • 子任务一、基于辩题的论点生成
针对既定的辩题,由参赛模型自动生成贴合辩题的5个论点。
评价指标:混淆度(Perplexity)BLEUROUGE
  • 子任务二、自主论辩
基于阶段一构造的LLM实现一个自主论辩智能体,与基准智能体针对给定的辩题进行辩论赛。基准智能体持正方,参赛智能体持反方。
评价指标:Debatrix、人工评价。
具体任务细节参见:
http://www.fudan-disc.com/sharedtask/AIDebater24/index.html

组织者和联系人

评测组织:复旦大学数据智能与社会计算实验室
评测主席:魏忠钰(复旦大学)
评测委员会成员:林嘉昱(复旦大学),黄柏特(西安电子科技大学)
顾问委员会成员:黄萱菁(复旦大学),蒋昌建(复旦大学)
如有疑问,请致信评测会务组:disclab@fudan.edu.cn

评测报名方式

http://www.fudan-disc.com/sharedtask/AIDebater24

任务三:结合用户画像信息中文情绪分类评测

任务背景

情绪分类是一项关键的情感分析任务,其在学术界和工业界都引起了广泛关注。在社交媒体、在线评论、产品反馈等各类文本中,有效地识别和分类用户的情绪,对于提升产品服务、优化用户体验等方面具有重大价值。目前,虽然存在许多关于情绪分类的任务和数据集,但是大多数都仅仅关注于单一的文本内容,忽视了用户画像信息的重要性。用户画像信息,如用户的昵称、地区等,往往能够提供更丰富的上下文信息,帮助更准确地理解和识别用户的情绪。尤其在面临ChatGPT等大模型冲击的背景下,如何利用这些丰富的用户画像信息,提高情绪分类的效果,成为了一个具有挑战性的问题。因此,我们标注了一个结合用户画像信息的情绪分类数据集,该数据集包括用户的昵称、地区、性别、好友等要素,支持对隐式情绪的识别和理解。我们基于该数据,设定了结合用户画像信息中文情绪分类评测任务。

任务介绍

在本次评测中,我们从新浪微博网站上收集了用户的信息,由专业标注员进行了中文情绪分类的标注,以此构建了一个结合用户画像信息的情绪分类数据集作为评测语料。 
  • 评测任务:结合用户画像信息中文情绪分类
给定一个用户画像(包括用户所在的地区、性别、关注人列表、发表的历史文本等)以及一个用户文本,参赛模型需判断用户文本所表达的情绪,输出的情绪是下面五种情绪之一:喜、哀、惊、恐、怒。
评价指标: Macro-F1 score
具体任务细节参见:
https://github.com/qiangminjie27/CCAC2024-Chinese_Sentiment_Classification/tree/main

组织者和联系人

评测组织:苏州大学
评测主席:王中卿
评测委员会成员:强敏杰
如有疑问,请致信评测会务组:
王中卿(wangzq@suda.edu.cn)、强敏杰(qiangminjie27@gmail.com

评测报名方式

https://docs.qq.com/form/page/DY1BmR1JWUVZneFpB

任务四:微表情自动识别

任务背景

微表情是一种微弱的、短暂的和无意识的面部情感表达,通常发生在有压力的情境下,伴随着个体尝试掩盖其内心真实想法时产生。由于微表情能有效地揭露个体的真实情感和意图,所以准确识别微表情在刑侦审讯、临床心理、商业洽淡等多个领域都有重要的应用价值。微表情自动识别旨在让机器有足够的智能,感知人脸视频序列的微表情运动特征,并理解对应的隐藏情绪。近年来,微表情识别研究已经吸引了大量情感计算研究者们的关注,但微表情运动微弱、短暂且局部,以及缺乏大规模训练样本,严重制约了微表情识别及应用的发展。
本挑战赛使用目前规模最大的DFME动态人脸微表情数据集的部分数据作为训练及测试数据,旨在促进在数据更充分条件下的微表情识别方法的探索,进而推进本领域研究的交流和发展。本次挑战赛的任务主要是进行微表情情感标签分类识别,即对给定的微表情视频样本,参赛者需要设计识别算法模型以预测其对应的七种情感类别。

任务介绍

本次比赛的任务为七分类人脸微表情识别,参赛者需要设计识别方法,对测试集中的每个微表情样本,从高兴、愤怒、鄙视、厌恶、恐惧、伤心惊讶七种类别中选择一种情感标签进行预测。如果预测标签与数据集中的真实标签一致则视为该样本识别正确,否则为识别错误。比赛将根据识别准确程度对参赛者提交的方法进行排名。
评价指标:UF1UAR
特别说明的是,为了保证比较的公平性和客观性,本次比赛采用A/B榜的竞赛方法,A榜成绩决定参赛队伍能否进入决赛B榜,最终比赛排名由B榜决定。
具体任务细节参见:
https://github.com/MEA-LAB-421/CCAC2024_DFME_MER

组织者和联系人

评测组织:中国科学技术大学
评测主席:赵思蕊
评测委员会成员:唐华楹,刘世凤,毛星茏,徐一凡
如有疑问,请致信评测会务组:sirui@mail.ustc.edu.cniamthy@mail.ustc.edu.cn

评测报名方式

https://docs.qq.com/form/page/DQ3dVQ3NDVkdnSHNm

任务五:中文讽刺计算

任务背景

讽刺,作为表达隐式情感的修辞手段,其特点在于字面语义与实际含义相悖。社交媒体时代,讽刺表达的广泛使用促使学术界和产业界加强了对讽刺文本的理解与识别研究。研究者正致力于研究讽刺的内在语言规律和认知逻辑,构建能模拟人类讽刺思维过程的认知语言模型,以增强人工智能对复杂情感的解读能力。然而,由于自然语言的多样性和复杂性,尤其是在互联网环境下的非正式表达,极大增加了讽刺文本自动检测的难度。如何有效解析中文讽刺文本的情感语义并结合多元知识进行准确建模分析,是当前自然语言处理领域亟待解决的难点问题之一。

任务介绍

本届中文讽刺计算评测包含3个子任务,采用统一的评测数据集,该数据集包含50个微博主题及其对应的相关评论,评论数据约3万条。对于每条评论数据,标注了是否为讽刺、情感极性、讽刺类别、讽刺的细粒度目标等标签。
以下是各任务的具体介绍。
  • 子任务一、讽刺识别
对于给定的微博正文(上下文)和评论数据(目标语句),参赛模型需判断当前评论数据是否为讽刺语句。输出为2种标签:“1”表示该句子为讽刺语句,“0”表示该句子为非讽刺语句。
评价指标:macro-F1
  • 子任务二、讽刺类别识别
讽刺类别识别:对于给定的微博正文(上下文)和评论数据(目标语句),参赛模型需判断当前评论数据属于哪个讽刺类别。输出为6种标签,“1”表示Sarcasm(嘲笑),“2”表示Irony(反语),“3”表示Satire(讽刺文学),“4”表示Understatement(轻描淡写),“5”表示Overstatement(夸大),“6”表示Rhetorical question(反问)。
评价指标:macro-F1
  • 子任务三、细粒度讽刺目标识别
对于给定的微博正文(上下文)和评论数据(目标语句),参赛模型需识别评论语句中讽刺目标实体。从目标语句中准确识别出一个或多个讽刺目标。
评价指标:AccDice score

具体任务细节参见:

https://github.com/pjzj220113/chinese-sarcasm-calculation/tree/main

组织者和联系人

评测组织:新疆师范大学
评测主席:樊小超
评测委员会成员:唐敬,徐迪,颜勤沛
如有疑问,请致信评测会务组:樊小超(fxc1982@xjnu.edu.cn)、唐敬(tangjing_xj22@163.com

评测报名方式

https://f.kdocs.cn/g/LRqWFdbN/
二、评测总体时间安排
事项
时间
任务发布与报名启动
202451
训练集语料发布
20245月上旬
测试集语料发布
20246月上旬
提交截止
20247月上旬
比赛结果公布
20247月上旬
CCAC2024大会召开及颁奖典礼
2024719-21
各评测任务的具体时间安排请关注各个评测任务通知详情。
如您有任何问题请与各任务组织者或评测主席联系。
  健(liaoj@sxu.edu.cn
虞剑飞(jfyu@njust.edu.cn
CCAC 2024评测主席 
 健(山西大学)
虞剑飞(南京理工大学)
评测顾问专家
王素格(山西大学)
赵妍妍(哈尔滨工业大学)
 亮(大连理工大学)
中国中文信息学会情感计算专委会
主任:
秦兵(哈尔滨工业大学)
副主任:
林鸿飞(大连理工大学)    陶建华(清华大学)
王素格(山西大学)        宋大为(北京理工大学)
秘书长:
徐睿峰(哈尔滨工业大学(深圳))