Press "Enter" to skip to content

SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统

 

 

论文动机

 

对话系统一直是自然语言理解领域一个重要的研究内容,它可以使人们更便捷的与机器进行交互,多模态的对话系统就是其中非常重要的一个研究方向。

 

以下图的零售业对话为例,首先多模态对话能够带给顾客更加详细直观的建议,通过加入图片信息,顾客能够更加直接的表达出自己的观点;同时,通过顾客的关注点,例如颜色,样式等,对话机器人能够更清楚的获取顾客的偏好,从而最终为顾客提供符合其要求的推荐内容,提升顾客的满意度。

 

基于这样的一个想法,本文作者 针对任务型对话系统,提出了用户注意力指导的多模态对话系统。

 

 

模型

 

具体而言,在任务型对话系统中,作者希望利用用户的注意力信息实现对产品的层次化选择,在每一个不同的层次关注到不同的产品特点,通过细化的区分实现精准的产品推荐。模型的整体框架图如下:

 

 

该框架主要完成两个任务: 文本回复生成与图像回复选择。 多模态编码器和解码器用于编解码多模态的内容信息,同时由一个高层次的 RNN 控制整个对话进程。接下来,将详细讲述每个部分的相关细节。

 

多模态编码器

 

 

该模块主要用于编码文本信息和图像信息,生成情境感知的语义内容表示。针对文本内容,考虑到不同的文本对最终的语义表达贡献不同,作者在这里使用了基于 CNN 的注意力机制,具体由以下公式实现:

 

 

 

首先为了获取到词之间的序列信息,作者使用了 BI-LSTM 处理每个词,在得到隐层状态之后,作者使用了基于 CNN 的方法计算不同的权重,相比于传统的注意力计算方法,这里针对每个词的权重计算方法考虑了局部信息,也就是说每个词的权重信息不单单是由它自身决定,同时也是由它周围的上下文决定。

 

当然如果在这里想使用 multi-head 的结构的话,那幺也可以考虑使用多个卷积核,这是一个非常有意思的操作。接下来就是对所有的隐层状态做加权和,得到最后的文本语义表示。

 

针对图像信息,在目前的电子商务中,每个产品都会拥有很多类别属性,并且这些属性可以整合为层次化的树结构。同一类产品会拥有很多相同的特征。因此作者在这里使用了基于分类学的属性树结构表示。

 

作者首先定义了 N 个常见的属性,然后构建了一个 key-value 的属性树来分析用户的偏好。key 就是属性值,例如颜色,样式,value 就是具体的内容,例如红色,长裤等,具体的模型图如下:

 

 

作者首先利用一个残差网络处理输入的图像,然后将得到的特征表示张量输入到基于分类学的属性树中,该树包含了 L 层和 M 个叶节点,每个叶节点表示的一类产品,而该叶节点对应的路径就是属性信息。通过这样的一个形式就可以在属性层次上对图像的特征表示进行不断更新:

 

 

最后,这些特征信息就要和文本特征信息进行整合,从而计算出顾客在不同属性上的关注度,进而得到顾客注意力指导的图像语义信息表达:

 

 

最后就是多模态信息融合,作者使用 VQA 中常用的一个融合方式 MFB 实现图像和文本信息的融合,并通过池化操作得到本轮对话最后的状态输出,并使用高层的 RNN 控制整个对话进程:

 

 

 

多模态解码器

 

在 decoder 阶段,作者针对图像和文本使用了两种解码方式,具体的方式如下图:

 

 

1. 基于 RNN 的回复生成方式,基于编码阶段高层 RNN 的输出状态,使用一个语言模型用于生成对话系统的机器人的回复:

 

 

 

2. pairwise 的排序方法,基于图像和上下文的相关性,从一系列相关图像中选出最相关的图像,在这里作者使用了 cosin 相似度作为度量标准,并通过非监督的方法进行训练。

 

以上就是这个模型的细节内容。

 

实验

 

作者在一个公开的多模态对话数据集上进行了实验,并使用了 BLUE-N 作为评价标准,在实验结果对比上,作者分别对比了文本生成的效果以及图像选择的效果,具体结果如下:

 

 

 

从实验结果可以看作,作者提出的模型在多个指标上都远远优于 baseline,充分证明了作者模型的有效性,同时为了更好的展示模型效果,作者还展示了相关的例子,如下图:

 

 

总结

 

针对任务型对话系统,作者利用用户的注意力信息,通过从属性角度对商品进行细分,分层的建模顾客的兴趣,从而最终实现精准的推荐; 另外加入了图像信息,从而保证了整个交互过程更加的准确高效。 这是一篇非常值得学习的文章。

 

参考文献

 

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017. 2, 3, 5, 6, 7, 8, 11

 

[2] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli Shechtman. Toward multimodal image-to-image translation. In Advances in Neural Information Processing Systems, 2017. 2

 

[3] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8

 

[4] Matthew Amodio, Smita Krishnaswamy. TraVeLGAN: Image-to-image Translation by Transformation Vector Learning. In CVPR, 2019.2

 

[5] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-to-image translation via disentangled representations. In ECCV, 2018. 1, 2, 3, 4, 5, 6

 

[6] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image translation. In ECCV, 2018. 1, 2, 3, 4, 6, 7, 8

 

[7] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unifified generative adversarial networks for multi-domain image-to-image translation. arXiv preprint, 1711, 2017.

 

[8] Dongwook Lee, Junyoung Kim, Won-Jin Moon, Jong Chul Ye. CollaGAN: Collaborative GAN for Missing Image Data Imputation. In CVPR, 2019.4

 

[9] Hao Tang, Dan Xu. Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation.In CVPR, 2019.4

 

[10] Hongyu Liu, Bin Jiang,Yi Xiao,Chao Yang. Coherent Semantic Attention for Image Inpainting. In ICCV, 2019.7

作者丨张琨

学校丨中国科学技术大学博士生

研究方向丨 自然语言处理

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注