Press "Enter" to skip to content

北大获中国首个WWW大会最佳论文奖,提出ELSA跨语言情感分析模型

WWW 2019(The Web Conference)已于5月13-17日在美国旧金山召开。会议闭幕式上,大会主席公布了两篇最佳长论文和一篇最佳短论文。

 

其中来自北京大学信息科学技术学院计算机科学技术系、高可信软件技术教育部重点实验室刘譞哲副教授课题组的论文“Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification”获得了今年WWW大会最佳长论文奖,这是WWW历史上中国学术研究机构(含港澳台)首次获此荣誉。

 

WWW大会由万维网发明人、2016年度图灵奖获得者Tim Berners-Lee爵士等人于1992年发起并创办,是计算机与互联网领域的顶级学术会议,也被列为《中国计算机学会推荐国际学术会议和期刊目录》中的A类学术会议,录用率常年维持在14%~18%。

 

今年,WWW 大会投稿总数为1247篇,录取225篇,录取率为18%。值得一提的是,今年也正值万维网诞生30周年。

 

以下是大会官方公布的三篇获奖论文信息:

 

 

最佳长论文1:Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification

 

作者:Zhenpeng Chen、Sheng Shen、Ziniu Hu、Xuan Lu、Qiaozhu Mei、Xuanzhe Liu(北京大学)

 

链接:https://arxiv.org/abs/1806.02557

 

获奖理由:创造性地使用全球通用的emoji作为跨语言情感分类表征学习的一部分,显着优于之前的SOTA结果。

 

最佳长论文2:OUTGUARD: Detecting In-Browser Covert Cryptocurrency Mining in the Wild

 

作者:Amin Kharraz、Zane Ma、Paul Murley、Charles Lever、Joshua Mason、Andrew Miller、Nikita Borisov、Manos Antonakakis、Michael Bailey(伊利诺伊大学香槟分校、佐治亚理工学院)

 

链接:https://nikita.ca/papers/outguard-www19.pdf

 

获奖理由:首个无需手动分析、有效防御浏览器内cryptojacking系统的设计、实现和评估。

 

 

最佳短论文:ViTOR: Learning to Rank Webpages Based on Visual Features

 

作者:Bram van den Akker、Ilya Markov、Maarten de Rijke(阿姆斯特丹大学)

 

链接:https://arxiv.org/abs/1903.02939

 

获奖理由:集成了ImageNet 预训练CV模型和IR显着模式(salience pattern),从而极大提升排序的准确率,特别是对于更早网页位置而言。

 

北大最佳长论文解读

 

 

图注:本文第一作者为北京大学信息科学技术学院2018级博士生陈震鹏,通讯作者为刘譞哲副教授,论文作者还包括北京大学信息科学技术学院2014级本科生沈晟、胡子牛,2016级博士生陆璇,以及密歇根大学梅俏竹教授。

 

在动态、开放和多变互联网环境下,软件系统需要深入准确地感知和理解用户情境(包括所处环境的状态和用户的行为),以更加智能地提供服务。作为用户情境感知和理解中一个重要方面,情感分析得到了包括数据挖掘、系统软件、人机交互等多领域研究者的广泛关注,成为交叉研究热点并取得一系列进展。现有情感分析工作主要基于英语文本开展。在其他语言上,研究较少、标注语料稀缺,现有方法效果较差。但是,75%的互联网用户为非英语用户,大约一半的Web内容为非英语内容。考虑到上述学术研究上的不平衡问题,非英语用户对Web贡献很大,却无法像英语用户一样享受到高质量的基于情感分析的Web服务。

 

针对这一现象,学术界提出了“跨语言情感分析”,将英语语料中学习到的知识迁移到那些缺乏标注语料的语言(称为目标语言)上。最直接的跨语言情感分析方法就是使用机器翻译技术来连接两种语言。比如,将目标语言文本翻译成英语,直接使用英语的情感分析工具来处理翻译语料。近年来,随着表征学习的发展,研究者开始尝试更复杂的方法,例如,借助机器翻译技术将两种语言的表征对齐,形成一个统一的表征空间,并基于该表征空间开展情感分析。

 

尽管上述方法听起来可行,但是效果却一直不尽人意。事实上,上述方法均未考虑到语言差异问题。具体来说,不同语言中的情感表达方式不同,机器翻译只能保留那些语言之间共性的情感表达,不能保留语言特定的情感信息。例如,“怒っている”翻译成英语是“angry”,两者均蕴含负面情感,是英语与日语之间共性的表达;“汤水のように使う”在日语中形容浪费,是负面的表达,但是翻译成英语后是“use it like hot water”,丢失了原本的情感。

 

因为机器翻译只能保留两种语言的共性,需要一个新的“桥梁”来连接两种语言,同时保留两种语言共性和个性的情感信息。作为情感信息的载体,该桥梁需要比人工标签更易获得,且在各语言中普遍存在。基于上述需求,本文使用emoji表情符号作为这一桥梁。一方面,emoji是情感表达的有效工具,可以充当人工标注的情感标签的替代品;另一方面,emoji作为世界通用的普适性语言,可以充当连接两种语言(即英语与目标语言)的桥梁。两种语言之间共性的emoji使用模式可以和机器翻译一起,缩小语言之间的差异;各语言特定的emoji使用模式可以缓解语言差异问题。

 

 

具体地,本文提出了ELSA( E moji-powered representation learning for cross- L ingual S entiment A nalysis)模型。首先,从Twitter上收集两种语言的语料,基于语料中的emoji使用情况学习两语言各自的表征模型。英语和目标语言各自的表征模型中蕴含了各自特定的情感信息。接着,使用机器翻译技术生成平行语料,抓住两种语言之间共性的情感信息。

 

为了验证ELSA的效果,本文选用了经典的亚马逊评论数据集,该数据集中包含9个任务,即分析法语、德语、日语的关于书籍、DVD、音乐的评论文本中的情感。结果显示,ELSA较已有的跨语言情感分析方法,效果上有显着提升。为了验证模型的泛化能力,本文还选用了Twitter数据集进行验证,较已有方法,准确率提升十几个百分点。

 

2016年开始,刘譞哲副教授课题组在研究移动互联网系统与服务时发现,emoji正在成为一种新的“普适”语言,是用户最为广泛使用的交互方式(大多数输入法都已内置emoji)。课题组认为,emoji不仅可以让表达更加生动,而且可以作为一种新的“软”传感器(Soft Sensor)来感知和理解用户的情境。特别地,随着用户数据的安全隐私问题日益得到关注,如欧盟《通用数据保护条例》(GDPR)等法律法规的推出,传统方法可能因涉及用户隐私数据而无法应用;而emoji可以在一定程度上避免涉及这些敏感数据,并在用户画像、情感理解等方面被验证具有良好的效果。以emoji作为理解和分析用户情境的切入点,课题组在过去三年形成了一系列研究成果,已陆续发表于WWW和UbiComp等国际顶级会议,为用户情境分析理解并进行服务推荐开辟了全新的研究视角。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注