Press "Enter" to skip to content

文娱技术喜提多篇ACM MM论文

文娱妹导读

 

2021ACM MM(ACM International Conference on Multimedia),阿里巴巴文娱技术共4篇论文被收录。研究成果分别是:视频修复、目标检测器、视频质量评估、情感计算 技术领域。

 

 

Deep Interactive Video Inpainting: an Invisibility Cloak for Harry Potter

 

作者

 

陈诚 华中科技大学、阿里巴巴摩酷实验室

 

蔡佳音 清华大学、阿里巴巴摩酷实验室

 

汤旭 阿里巴巴摩酷实验室

 

胡尧 阿里巴巴摩酷实验室

 

王兴刚 华中科技大学

 

袁春 清华大学

 

白翔 华中科技大学

 

柏松 牛津大学、阿里巴巴摩酷实验室

 

在本文中,阿里巴巴摩酷实验室提出了一个新的交互式视频修复任务和一个对应的端到端的框架。据调研,这是第一个基于深度学习的交互式视频修复方法,仅使用任意的用户涂鸦作为指导信息,而不是每一帧的蒙版注释。通过用户在某一帧上的涂鸦,摩酷实验室的方法可以在整个视频中同时执行交互式视频目标分割和视频修复任务,同时具有学术、娱乐和商业应用价值。

 

利用一个共享的时空记忆模块,它将交互式视频对象分割和视频修复任务结合到一个端到端的框架中。在此框架中,具有对象掩码(用户的涂鸦或网络预测的对象掩码)的历史帧输入到共享的时空记忆模块,来帮助当前帧的分割和修复。此外,允许用户迭代细化分割结果,这可以有效地改善视频对象分割失败的修复结果,从而使用户即使在具有挑战性的序列上也可以获得高质量的视频修复结果。

 

定性和定量的实验结果证明了该方法的优越性。

 

 

 

Decoupled IoU Regression for Object Detection

 

作者

 

高龑 阿里巴巴摩酷实验室

 

王启萌 华中科技大学、阿里巴巴摩酷实验室

 

汤旭 阿里巴巴摩酷实验室

 

王昊臣 阿里巴巴摩酷实验室

 

丁飞 阿里巴巴摩酷实验室

 

李静 阿里巴巴摩酷实验室

 

胡尧 阿里巴巴摩酷实验室

 

非极大值抑制(NMS)广泛用于目标检测器中,用于去除重复的边界框。NMS 的置信度与真实定位置信度之间的不一致严重影响了检测性能。先前的工作提出预测IoU以改进 NMS,而准确预测 IoU 仍然是一个具有挑战性的问题。

 

在本文中,分析了现有IoU预测方式的缺陷,提出了一种新颖的解耦 IoU 回归模型(DIR),将先前复杂的定位置信度指标 IoU 解耦为两个新指标Purity和Integrity并分别对其进行预测。此外,文中提出了一种简单但有效的特征重新对齐方法,以hindsight的方式预测IoU,可以使映射更加稳定。

 

大量实验证明,文中的方法可以方便地集成到现有的两阶段目标检测器中,并显着提高其性能。

 

 

 

Perceptual Quality Assessment of Internet Videos

 

作者

 

许家华 中国科学技术大学,阿里巴巴摩酷实验室

 

李静 阿里巴巴摩酷实验室

 

周星光 阿里巴巴摩酷实验室

 

周玮 中国科学技术大学

 

王百超 阿里巴巴摩酷实验室

 

陈志波 中国科学技术大学

 

由于在线视频网站与社交媒体平台的迅速流行,UGC,PGC和OGC(User, Professionally and Occupationally Generated Content)等网络视频被大量传输及分享。为了对现有视频进行有效的质量评价,摩酷实验室建立了一个包含1072个视频的网络视频质量评价数据集NET-1k。一方面,多个质量评价指标被用于筛选源视频序列,以最大化有限数据集内的内容及失真多样性。另一方面,概率图模型被用于清洗带有噪声的主观打分,以保证数据标签的真实有效性。

 

基于网络视频的特性,文中提出了模型STDAM(Spatio-Temporal Distortion-Aware Model)。第一,该模型对视频质量预测时无需高清参考源,适用于大多数业务场景;第二,通过在大型图像数据集上的预训练,模型能够适应复杂内容;第三,在模型中引入图卷积与注意力模块用于提取与增强输入视频的特征,处理空域失真。此外,在光流模块中利用运动信息,并通过双向LSTM模块将帧级别特征融合为视频级别特征用于衡量时域失真。模型STDAM在自建数据集NET-1k上性能优异,且在跨数据集验证实验中展现出良好的泛化性能。

 

 

Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and Benchmark

 

作者:Xun Gao, Yin Zhao, jie Zhang, Longjun Cai ( 作者均来自阿里巴巴阿里文娱AI大脑北斗星团队 )

 

本文首次提出成对演员情感关系识别(Pairwise Emotional Relationship Recognition, PERR)任务, 其目标是在给定的视频片段中, 通过视频背景音乐、字幕文本和交互演员的面部表情、行为举止、对话等多种模态信息,识别成对演员的情感关系是亲密、敌对或者中性。

 

针对此任务,本文收集了一个大规模的多模态标注的数据集ERATO, 并提出了同步多模态-时序注意力单元来处理多模态信息流。本文提出的多模态融合机制可以扩展到多个任务,并在两个数据集上优于现有方法。

 

 

图 1 亲密或者敌对?

 

从图中可以明显看出女士的情绪是负向的,但我们可以从两人的谈话以及男人温柔安慰和抚摸女人脸庞来推断出两人的情感关系是亲密的。

 

【后续将会陆续推出文章的详细解读和分享活动,欢迎关注】

 

【 摩酷实验室】

 

阿里巴巴从事文娱智能研发的顶级团队,其研究范围包括:计算机视觉、机器学习、搜索与推荐等,团队拥有多位业内资深专家,并已在 IJCAI/KDD/CVPR/ICML/CIKM 等多个人工智能顶级会议上发表了数十篇论文。

 

摩酷实验室通过打造视频内容生产全链路的一站式解决方案,以技术赋能视频行业上下游,实现科技与艺术的深度结合。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注