word2vec原理概述

word2vec原理概述最近阅读了Mikolov两篇关于word2vec的论文,结合Goldberg对这两篇论文的解读,作如下概述。概述在较早的论文“EfficientEstimationofWordRepresentationsinVectorSpace”中,Mikolov讨论了FeedforwardNeuralNetLanguageModel(NNLM)、RecurrentNeural

大家好,又见面了,我是你们的朋友全栈君。

  • 最近阅读了Mikolov两篇关于word2vec的论文,结合Goldberg对这两篇论文的解读,作如下概述。
  • 概述

在较早的论文“Efficient Estimation of Word Representations in Vector Space”中,Mikolov讨论了Feedforward Neural Net Language Model (NNLM)、Recurrent Neural Net Language Model (RNNLM)以及论文中描述的两个新模型Continuous Bag-of-Words Model (CBOW)和Continuous Skip-gram Model (Skip-gram). 

 
NNLM是最早提出的前馈神经网络模型,模型由输入层(input)、映射层(projection)、隐藏层(hidden)和输出层(output)构成,其中主要的计算瓶颈是映射曾到隐藏层的转换;RNNLM克服了NNLM的部分局限性,比如无需指定语境的长度。RNN没有映射层,只有输入、隐藏、输出三层。至此,神经网络语言模型的性能瓶颈集中在了非线性的隐藏层中。
 
 为了提升计算效率,作者提出了CBOW和Skip-gram。其中CBWM去除了隐藏层,并让输入层的所有单词共享映射层。从图一左可以看到,CBOW使用围绕目标单词的其他单词(语境)作为输入,在映射层做加权处理后输出目标单词。
word2vec原理概述
区别于CBOW根据语境预测目标单词,Skip-gram根据当前单词预测语境,如图一右所示。在“

Distributed Representations of Words and Phrases and their Compositionality
”中,作者对Skip-gram做了进一步的论述和扩展。本文详细描述Skip-gram的原理及扩展。

  • 定义及符号

 
  
  
  
文本集合(Text):
T

单词(word):
w,使用长度为d的列向量表示
语境(context):以单词
w
为中心,向前k个单词,向后k个单词所形成的短语中包含的单词
模型参数:
θ
条件概率p(
c
|
w
):当
w
出现时,某一语境
c
出现的概率
C(
w
):在文本集合
T
中,单词
w
出现过的语境包含的单词的集合
语境中的单词
c,使用长度为d的列向量表示 
c

C(
w
)
c
w
均表示单词,但作者认为,即使对于同一个单词,比如apple,它作为普通单词和作为语境中的单词是的向量表示是不同的,因此使用不同的符号来表示语境中的单词和普通单词。
V:文本集合对应的词汇表
D:所有单词
w
和它的语境
C(
w
)
构成的组合的集合
  • Skip-gram

Skip-gram的目标是寻找参数集合
θ来最大化如下条件概率的乘积:

word2vec原理概述
等同于下式:
word2vec原理概述
作者使用了逻辑回归的扩展Softmax [4] 对
θ
进行形式化处理,使得条件概率转化为下式:
word2vec原理概述
其中vc和vw分别是
c

w
的列向量,维度为d
C
是所有语境中的单词构成的集合,等同于词汇表V。参数
θ
就是vc和vw中每一维度的具体取值,参数的总数为|C|
×|V|×
d
。将式3代入式2,并于等式两边取对数可得:
word2vec原理概述
作者认为,通过训练得到的单词的向量表示vw能够使得条件概率p(c|w)最大化,则vw是w的好的表示。这里潜在的基本假设是:相似的单词拥有相似的语境。换言之,特定的语境只有确定的语义才能够与之匹配。通过最大化条件概率,使得单词和语境之间的对应关系最大化,进而满足了基本假设:相似的单词拥有相似的语境。而满足条件概率最大化的单词矢量,也就成为了单词语义的合理表示。
从式3可以发现,由于条件概率
p(
c
|
w
)的分母计算需要很大代价,作者使用hierarchical softmax来近似softmax,并用霍夫曼树来构建hierachical softmax.
  • Negative Sampling

另一种降低计算代价的方法是改变目标函数。对于一个单词、语境组合(
w,
c
),使用p(D=1|
w,
c
)来表示这个组合存在于
T
中的概率,对应的
p(D=0|
w,
c
) = 1-
p(D=1|
w,
c
)
,表示

w,
c
)不在
T
中的概率。与前文类似,假设集合
θ是控制
p(D=1|
w,
c
)分布的参数,那么此时的目标是寻找参数集合θ来最大化

w,
c
)存在于
T
中的概率:

word2vec原理概述
同样,使用softmax来量化p(D=1|
w,
c;
θ
):
word2vec原理概述
因此,最终的目标函数为:
word2vec原理概述
为了使目标函数最大化,有一个很简单的方法,即使得vc=vw,且vc·vw=K。当K足够大时,可以得到
p(D=1|
w,
c
)=1,从而达到目标函数最大化。因此,为了所有的矢量有相同的值,作者生成了一个数据集D’,D’中的所有单词、语境组合都不存在于
T
中,这些样例被称之为反例(negative examples),而获得反例的采样方法被称之为反例采集(negative-sampling)。引进了反例之后的目标函数演变为:
word2vec原理概述
假设σ(x)=1/(1+e-x),则:
word2vec原理概述
和式4进行比较,可以明显的看到累加嵌套的消除。两者最大的区别是式4根据条件概率
p(
c
|
w
)进行建模而此处根据联合概率
p(D=1|
w,
c
)进行建模


  • 参考文献
  1. Efficient Estimation of Word Representations in Vector Space
  2. Distributed Representations of Words and Phrases and their Compositionality
  3. word2Vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method
  4. Softmax Regression, www.cnblogs.com/tornadomeet/archive/2013/03/22/2975978.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145479.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 防止攻击服务器_iis部署网站无法通过ip访问

    防止攻击服务器_iis部署网站无法通过ip访问摘要:介绍了IIS服务器常见的攻击及几种常见防御方式,阐述了IIS服务器的攻击原理,针对IIS服务器的缺陷阐述了IIS的常用防御方式,同时结合实例具体实现方式。关键词:IIS;服务器攻击;服务器防御中图分类号:TP393            文献标识码:A0         引言  随着Internet的不断发展与普及,英特网上出现了越来越多的WEB服务器。人们通过WEB服

    2022年8月30日
    1
  • 圆柱表面积公式计算器_根据体重体表面积计算公式

    圆柱表面积公式计算器_根据体重体表面积计算公式【www.shanpow.com–在线新华字典】体积计算器在线计算篇(一):常用体积计算公式多面体的体积和表面积:有立方体计算公式、长方体∧棱柱∨计算公式、三棱柱计算公式、棱锥计算公式、棱台计算公式、圆柱和空心圆柱∧管∨计算公式、斜线直圆柱计算公式、直圆锥计算公式、圆台计算公式、球计算公式、球扇形∧球楔∨计算公式、球缺计算公式、圆环体∧胎∨计算公式、球带体计算公式、桶形计算公式、椭球体计算公式、…

    2022年9月15日
    1
  • Java爬虫系列三:使用Jsoup解析HTML「建议收藏」

    在上一篇随笔《Java爬虫系列二:使用HttpClient抓取页面HTML》中介绍了怎么使用HttpClient进行爬虫的第一步–抓取页面html,今天接着来看下爬虫的第二步–解析抓取到的html

    2022年2月16日
    35
  • devtools怎么用_webpack devtool

    devtools怎么用_webpack devtooldevtool配置一、devtool配置1.sourcemap源码地图2.webpack中的sourcemap3.对于开发环境一、devtool配置1.sourcemap源码地图本小节的知识与webpack无关前端发展到现阶段,很多时候都不会直接运行源代码,可能需要对源代码进行合并、压缩、转换等操作,真正运行的是转换后的代码与此同时就给调试带来了困难,因为当运行发生错误的时候,我们更加希望能看到源代码中的错误,而不是转换后代码的错误为了解决这一问题,chrome浏览器率先支持

    2022年10月6日
    1
  • qmake:变量手册

    qmake:变量手册qmake的基本行为受定义每个项目构建过程的变量声明的影响。1、ANDROID_ABIS此变量仅适用于Android目标。指定Android目标ABI列表。有效值为:armeabi-v7a、arm64-v8a、x86、x86_64。如:qmakeANDROID_ABIS=”armeabi-v7aarm64-v8a”2、ANDROID_API_VERSION此变量仅适用于Android目标。指定AndroidAPI级别编号。3、ANDROID

    2022年5月19日
    35
  • 单射、满射、双射(一一映射)

    单射、满射、双射(一一映射)设函数f:X->Y,y=f(x)单射:任给x1和x2属于X,若x1≠x2,则f(x1)≠f(x2),称f为单射满射:任给y属于Y,都存在x属于X使得f(x)=y,称f为满射双射:若f既是单射又是满射,称f为双射,也叫一一对应。

    2022年5月1日
    333

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号