## 二、多模态融合办法

a) 简单操作融合办法

l Concatenation拼接操作可以用来把低层的输入特征[1][2][3]或者高层的特征(通过预训练模型提取出来的特征)[3][4][5]之间相互结合起来。

l Weighted sum 对于权重为标量的加权求和方法，这种迭代的办法要求预训练模型产生的向量要有确定的维度，并且要按一定顺序排列并适合element-wise 加法[6]。为了满足这种要求可以使用全连接层来控制维度和对每一维度进行重新排序。

b) 基于注意力机制的融合办法

c) 基于双线性池化的融合办法

#### 双线性池化的因式分解

MUTAN是一种基于多模态张量的Tucker decomposition方法，使用Tucker分解[39]将原始的三维权量张量算子分解为低维核心张量和MLB使用的三个二维权量矩阵[40]。核心张量对不同形式的相互作用进行建模。MCB可以看作是一个具有固定对角输入因子矩阵和稀疏固定核张量的MUTAN, MLB可以看作是一个核张量为单位张量的MUTAN。

## 三、总结

Zhang, C., Yang, Z., He, X., & Deng, L. (2020). Multimodal intelligence: Representation learning, information fusion, and applications .IEEE Journal of Selected Topics in Signal Processing.

## 参考文献：

