本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.
一、注意力机制
1.定义
只处理重要的数据,用以对抗数据超载。
2.分类
自下而上:无需主动关注,对应 汇聚 (pooling)
自上而下:需要主动关注(带有问题)对应 会聚 (focus)
3.人工神经网络中的实现
软性注意力机制: 以概率分布 为数据赋予不同的 权重
①计算注意力分布α
②根据α来计算信息的加权平均
打分函数
加性模型 | |
点积模型 | |
缩放点积模型 | |
双线性模型 |
4.注意力机制的变体
①硬性注意力:离散决策(不依赖概率分布),通常与强化学习相结合
②键值对注意力:
其中(K,V)用以表示N个输入信息
③多头注意力:利用多个查询,同时从输入信息中选取多组信息,籍此 每个注意力头可以关注不同的信息
④结构化注意力:一般不用
5.指针网络
作为一个 软性指针 来 指出 相关信息的 位置 。一般协同其他神经网络使用
通过一个查询向量,与各个数据计算相似度,得出数据的位置。
也可单独使用,例如数据排序
6.自注意力模型
权重矩阵 由注意力 动态生成
QKV模式(引入三个参数,使得自注意力模型变得可学习)
①输入序列矩阵化
②生成三个向量序列Q ,K ,V
③计算
多头自注意力模型
7.Transformer
自注意力模型的 单独使用 ,但是并不能仅有自注意力,需要结合其他操作: 位置编码、层归一化、直连边、逐位的FFN 。
主要用于建模 局部连接 ,效率更高。
与CNN,RNN的对比分析
二、记忆增强网络
1.记忆
2.记忆增强神经网络
记忆神经网络 = 主网络 + 外部记忆 + 读写操作
3.结构化的外部记忆单元
外部记忆的定义为 矩阵M ,N为记忆片段的数量,D为每个记忆片段的大小
读写操作:通过 注意力机制 实现。由 查询向量 q 查找外部记忆中最相关的内容
4.基于神经动力学的联想记忆
由一个 相关的输入 查询内容,而不是由地址查询内容
Hopfield网络:是一种记忆的 存储和检索 模型(属于全连接神经网络)
仅S0时刻获取外部信息,直至迭代收敛后输出
更新过程:
①神经元 自身无连接 且具有 对称性 ( )
②第 i 个神经元状态: 若
= -1 其他情况
公式为其 所有邻居 的 加权偏置
③
Hopfield网络是稳定的(多次迭代后 必定收敛 ),其中有一个标量属性,称为“ 能量 ”
且 (每迭代一次能力就会下降)
权重对称也是一个重要特征,保证了 能量函数的单调递减 ,若不对称可能会导致周期性的震荡/混乱
联想记忆
每次更新能量会下降,所以会是的 迭代指向局部最优点。 也就是所谓的 吸引点 ,可以视为网络中存储的信息。
存储过程
若两个神经元经常 同时激活 ,则 加强 他们的 连接 ;若不经常激活,则连接消失
相较于结构化外部记忆,具有更好的生物学特征
Be First to Comment