Press "Enter" to skip to content

神经网络(八)注意力机制与外部记忆

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

一、注意力机制

 

1.定义

 

只处理重要的数据,用以对抗数据超载。

 

2.分类

 

自下而上:无需主动关注,对应 汇聚 (pooling)

 

自上而下:需要主动关注(带有问题)对应 会聚 (focus)

 

3.人工神经网络中的实现

 

 

软性注意力机制: 以概率分布 为数据赋予不同的 权重

 

①计算注意力分布α

 

 

②根据α来计算信息的加权平均

 

 

打分函数

 

 

加性模型
点积模型
缩放点积模型
双线性模型

 

4.注意力机制的变体

 

①硬性注意力:离散决策(不依赖概率分布),通常与强化学习相结合

 

②键值对注意力:

 

 

 

其中(K,V)用以表示N个输入信息

 

③多头注意力:利用多个查询,同时从输入信息中选取多组信息,籍此 每个注意力头可以关注不同的信息

 

 

④结构化注意力:一般不用

 

5.指针网络

 

作为一个 软性指针 来 指出 相关信息的 位置 。一般协同其他神经网络使用

 

通过一个查询向量,与各个数据计算相似度,得出数据的位置。

 

也可单独使用,例如数据排序

 

 

6.自注意力模型

 

 

权重矩阵 由注意力 动态生成

 

QKV模式(引入三个参数,使得自注意力模型变得可学习)

 

 

①输入序列矩阵化

 

②生成三个向量序列Q ,K ,V

 

③计算

 

多头自注意力模型

 

 

7.Transformer

 

自注意力模型的 单独使用 ,但是并不能仅有自注意力,需要结合其他操作: 位置编码、层归一化、直连边、逐位的FFN 。

 

 

主要用于建模 局部连接 ,效率更高。

 

与CNN,RNN的对比分析

 

 

二、记忆增强网络

 

1.记忆

 

 

2.记忆增强神经网络

 

 

记忆神经网络 = 主网络 + 外部记忆 + 读写操作

 

3.结构化的外部记忆单元

 

外部记忆的定义为 矩阵M ,N为记忆片段的数量,D为每个记忆片段的大小

 

读写操作:通过 注意力机制 实现。由 查询向量 q 查找外部记忆中最相关的内容

 

4.基于神经动力学的联想记忆

 

由一个 相关的输入 查询内容,而不是由地址查询内容

 

 

Hopfield网络:是一种记忆的 存储和检索 模型(属于全连接神经网络)

 

 

仅S0时刻获取外部信息,直至迭代收敛后输出

 

更新过程:

 

①神经元 自身无连接 且具有 对称性 ( )

 

②第 i 个神经元状态: 若

 

= -1            其他情况

 

公式为其 所有邻居 的 加权偏置

 

 

Hopfield网络是稳定的(多次迭代后 必定收敛 ),其中有一个标量属性,称为“ 能量 ”

 

且 (每迭代一次能力就会下降)

 

权重对称也是一个重要特征,保证了 能量函数的单调递减 ,若不对称可能会导致周期性的震荡/混乱

 

联想记忆

 

 

每次更新能量会下降,所以会是的 迭代指向局部最优点。 也就是所谓的 吸引点 ,可以视为网络中存储的信息。

 

存储过程

 

 

若两个神经元经常 同时激活 ,则 加强 他们的 连接 ;若不经常激活,则连接消失

 

相较于结构化外部记忆,具有更好的生物学特征

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注