Press "Enter" to skip to content

Word2Vec算法梳理

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

1.Wor d 2Vec 模型总述

 

 

Word2Vec 简单讲其实就是通过学习文本然后用词向量的方式表征词的语义信息,即通过 Embedding  把原先词所在空间映射到一个新的空间中去,使得语义上相似的单词在该空间内距离相近。

 

以传统神经网络为基础的神经概率语言模型,缺点主要是计算量太大,集中体现在: 隐层和输出层之间的矩阵运算和输出层上的 Softmax 归一化运算上。

 

因此 就是针对这两点来优化神经概率语言模型的。 中两个重要的模型是     模型和 Skip-gram 模型 。对于这两个模型, 给出了两套框架,分别是基于 Hierarchichal Softmax   Negative Sampling 来设计的,本文梳理的是第一种类型。

 

2.CBOW 模型

 

2.1  基于Hierarchichal Softmax模型的网络结构

 

CBOW 模型的全称是  Continous bag-of-words ,它包括三层结构分别是:输入层、投影层和输出层。

 

1.输入层:包含 Context(w) 中 2c 个词的词向量

 

其中 表示词向量的长度。

 

2.投影层:将输入层的  2c 个向量做求和累加处理,即  

 

 

3.输出层:输出层对应一颗 树,它是以语料中出现过的词当叶子节点,以各词在语料库中出现的次数当权值构造而成。在这颗 树中,叶子结点共N(=|D|)  个分别对应词典 D 中的词,非叶结点 N-1 个(上图中黄色的结点)。

 

2.2  梯度的计算

 

为了后续方便描述问题,首先对 模型中用到的符号做一个统一的说明:

 

:从根节点到出发到达 对应叶子结点的路径;

 

:从根节点到出发到达 对应叶子结点的路径;

 

:路径 中的 个结点,其中 表示根结点, 表示词 对应的结点;

 

,其中 :词 对应的 编码,它由 位编码构成, 表示路径 中第 个结点对应的编码(根结点不对应编码);

 

,其中 :路径 中非叶子结点对应的向量, 表示路径 中第 个非叶子结点对应的向量。

 

所以 的思想,即对于词典 中的任意词 , 树中必然存在唯一一条从根结点到词 对应叶子结点的路径 。路径 上存在 个分支,将每个分支看作一次二分类,那幺每一次分类就对应一个概率,最后将这些概率连乘得到

 

 

其中 ,通过对数极大似然化处理可得 模型的目标函数为:

 

 

极大化化目标函数使用的算法是是 随机梯度上升法 ,首先考虑 关于 的梯度计算:

 

 

于是, 的更新公式为: 然后再考虑 关于 的梯度计算:

 

如果观察到 具有对称性,那幺计算相应梯度会更方便。由于 表示的是 中所有词向量的叠加,那幺如何根据 来更新每一个分量 呢? 中的做法非常的朴素,直接取

 

2.3 CBOW模型更新相关参数伪代码

 

 

3. Skip-gram模型

 

3.1 基于Hierarchichal Softmax模型的网络结构

 

模型一样, 模型的网络结构也包括三层结构分别是输入层、投影层和输出层:

 

 

输入层:只含有当前样本的中心词 的词向量

 

投影层:该层为恒等投影,其实这层可有可无,在这里只是为了方便和 模型的网络结构做对比:

 

 

 

3.输出层:和 模型一样,输出层也是一颗 树。

 

3.2  梯度的计算

 

对于 模型已知的是当前词 ,需要对其上下文 中的词进行预测,所以关键是条件概率函数 的构造, 模型中将其定义为:

 

上式中的 可以类比上节介绍的 的思想,因此可得:  

 

通过对数极大似然化处理可得 模型的目标函数为:

首先考虑
关于
的梯度计算:
于是,

的更新公式为:

 

然后再考虑
对关于

的梯度计算(亦可根据对称性直接得出):

 

 

于是, 的更新公式为:

 

3.3 skip-gram模型更新相关参数伪代码

 

 

4. 总结

 

Word2Vec 的基本功能就是把自然语言中的每一个词,表示成一个统一意义统一维度的词向量,因为只有把自然语言转化为向量的形式,才能在此之上构建相关的算法,至于向量中的每个维度具体是什幺含义,无人知晓,也无需知晓,有道是,玄之又玄,众妙之门矣!

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注