本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.
1.Wor d 2Vec 模型总述
Word2Vec 简单讲其实就是通过学习文本然后用词向量的方式表征词的语义信息,即通过 Embedding 把原先词所在空间映射到一个新的空间中去,使得语义上相似的单词在该空间内距离相近。
以传统神经网络为基础的神经概率语言模型,缺点主要是计算量太大,集中体现在: 隐层和输出层之间的矩阵运算和输出层上的 Softmax 归一化运算上。
因此
2.CBOW 模型
2.1 基于Hierarchichal Softmax模型的网络结构
CBOW 模型的全称是 Continous bag-of-words ,它包括三层结构分别是:输入层、投影层和输出层。
1.输入层:包含 Context(w) 中 2c 个词的词向量
2.投影层:将输入层的 2c 个向量做求和累加处理,即
3.输出层:输出层对应一颗
2.2 梯度的计算
为了后续方便描述问题,首先对
所以
其中
于是,
2.3 CBOW模型更新相关参数伪代码
3. Skip-gram模型
3.1 基于Hierarchichal Softmax模型的网络结构
同
输入层:只含有当前样本的中心词
投影层:该层为恒等投影,其实这层可有可无,在这里只是为了方便和
3.输出层:和
3.2 梯度的计算
对于
上式中的
通过对数极大似然化处理可得
首先考虑
的更新公式为:
然后再考虑
的梯度计算(亦可根据对称性直接得出):
于是,
3.3 skip-gram模型更新相关参数伪代码
4. 总结
Word2Vec 的基本功能就是把自然语言中的每一个词,表示成一个统一意义统一维度的词向量,因为只有把自然语言转化为向量的形式,才能在此之上构建相关的算法,至于向量中的每个维度具体是什幺含义,无人知晓,也无需知晓,有道是,玄之又玄,众妙之门矣!
Be First to Comment