Negative Sampling 负采样详解[通俗易懂]

大家好，又见面了，我是你们的朋友全栈君。

在word2vec中，为了简化训练的过程，经常会用到Negative Sampling负采样这个技巧，这个负采样到底是怎么样的呢？之前在我的博文 word2vec算法理解和数学推导中对于word2vec有了很详细的数学推导，这里主要讲解一下负采样是如何降低word2vec的复杂度的。
首先我们直接写出word2vec的目标函数，假设有一句话： $query = {w_1},{w_2},{w_3},..,{w_n}$ ，由n个词组成的一句话，我们需要最大化窗口中上下文词的概率：
$\arg \mathop {\max }\limits_\theta \prod\limits_{w \in query} {\prod\limits_{c \in c(w)} {P(c|w;\theta )} }$
这里的 $c (w)$ 表示中心词的context words，我们在计算的时候，可以把相乘的元素转换成对数函数：
$\arg \mathop {\max }\limits_\theta \sum\limits_{w \in query} {\sum\limits_{c \in c(w)} {\log P(c|w;\theta )} }$
我们把概率函数可以进行展开就可以得到：
$\arg \mathop {\max }\limits_\theta \sum\limits_{w \in query} {\sum\limits_{c \in c(w)} {\log \frac{ { {e^{ {u_c} \cdot {v_w}}}}}{ {\sum\limits_{c’ \in vocab} { {e^{ {u_{c’}} \cdot {v_w}}}} }}} }$
这个式子可以表示成：
$\arg \mathop {\max }\limits_\theta \sum\limits_{w \in query} {\sum\limits_{c \in c(w)} {({e^{ {u_c} \cdot {v_w}}} – \log \sum\limits_{c’ \in vocab} { {e^{ {u_{c’}} \cdot {v_w}}}} )} }$
我们可以看到这个式子第二项，因为 $c^{'}$ 要遍历整个词库，所以复杂度非常高，所以我们要简化这一步的计算，减小运算的复杂度。这里的 $u_c$ 表示 $c$ 的上下文向量， $v_w$ 表示中心词 $w$ 的向量。
为了减小上述表达式的复杂度，我们不妨改变一下上述概率的表达方式，原来的 $p({w_i}|{w_j})$ 表示以 $w_j$ 为中心词的时候 $w_i$ 出现的概率，这里我们用 $1|{w_i},{w_j};\theta )$ 表示 $w_i$ 和 $w_j$ 作为上下文词出现的概率， $0|{w_i},{w_j};\theta )$ 表示 $w_i$ 和 $w_j$ 不作为上下文词出现的概率。
由上述新的表达式可以写出新的目标函数：
$\arg \mathop {\max }\limits_\theta \prod\limits_{(w,c) \in D} {p(D = 1|w,c;\theta )\prod\limits_{(w,c) \in \tilde D} {p(D = 0|w,c;\theta )} }$
这里的 $D$ 表示上下文词的集合， $\tilde D$ 表示非上下文的集合，我们来举一个例子，这里有一句话：“川建国同志是一名优秀的党员”，这句话分词去停之后变成： 川建国同志一名优秀党员。那么 $D$ 表示上下文集合，我们假设 window size为1，那么可以写出：
$D$ = {(川建国，同志)，(同志，川建国)，(同志，一名)，(一名，同志)，(一名，优秀)，(优秀，一名)，(优秀，党员)}
$\tilde D$ = {(川建国，一名)，(川建国，优秀)，(川建国，党员)，(同志，优秀)，(同志，党员)，(一名，川建国)，(一名，党员)，(优秀，川建国)，(优秀，同志)，(党员，川建国)，(党员，同志)，(党员，一名)}。
上述的 $D$ 表示正样本， $\tilde D$ 表示负样本。我们可以继续表示上述的目标函数，我们可以吧正负样本的概率表示成sigmoid的表达形式：
$\arg \mathop {\max }\limits_\theta \prod\limits_{(w,c) \in D} {\frac{1}{ {1 + {e^{ – {u_c} \cdot {v_w}}}}}\prod\limits_{(w,c) \in \tilde D} {(1 – \frac{1}{ {1 + {e^{ – {u_c} \cdot {v_w}}}}})} } = \arg \mathop {\max }\limits_\theta \sum\limits_{(w,c) \in D} {\log \sigma ({u_c} \cdot {v_w})} + \sum\limits_{(w,c) \in \tilde D} {\log \sigma ( – {u_c} \cdot {v_w})}$
在词库数量级为 $10^5$ 的时候，正样本加负样本 $\tilde D$ 的数量级可以达到 $10^{10}$ 左右，里面绝大部分都是负样本，所以我们需要降低负样本计算中的时间复杂度，这就是Negative Sampling 负采样的核心。负采样就是对于一个中心词，我们从中心词对应的负样本中随机抽取几组来做梯度下降。还是川建国的例子，对于正样本（川建国，同志），我们随机抽取负样本（川建国，一名），（川建国，党员）来做训练，不用全部的负样本都拿来训练，这就是负采样，减小了计算的复杂度。所以，上述的目标函数可以写成：
$\approx \arg \mathop {\max }\limits_\theta \sum\limits_{(w,c) \in D} {[\log \sigma ({u_c} \cdot {v_w}) + \sum\limits_{c’ \in N(w)} {\log \sigma ( – {u_{c’}} \cdot {v_w})} ]}$
从上述表达式可以看出，负样本我们不需要取所有的都拿来训练，我们只需要每个中心词抽几个负样本就可以了，这样可以大大降低计算的复杂度。这就是word2vec训练过程中的Negative Sampling 负采样技巧，可以大大减小梯度下降的时间复杂度，这就有点像SGD随机梯度下降，就是随机一个样本进行梯度下降，大体的方向还是朝着最低点下降。
接着我来解答一下上述这个表达式，一起来看看是如何进行梯度下降的，首先我们假设：
$L(\theta ) = \log \sigma ({u_c} \cdot {v_w}) + \sum\limits_{c’ \in N(w)} {\log \sigma ( – {u_{c’}} \cdot {v_w})}$
接下来我们需要对该表达式求偏导：
$\frac{ {\partial L(\theta )}}{ {\partial {u_c}}} = \frac{ {\sigma ({u_c} \cdot {v_w})[1 – \sigma ({u_c} \cdot {v_w})] \cdot {v_w}}}{ {\sigma ({u_c} \cdot {v_w})}} = [1 – \sigma ({u_c} \cdot {v_w})] \cdot {v_w}$
$\frac{ {\partial L(\theta )}}{ {\partial {u_{c’}}}} = \frac{ {\sigma ( – {u_{c’}} \cdot {v_w})[1 – \sigma ( – {u_{c’}} \cdot {v_w})] \cdot ( – {v_w})}}{ {\sigma ( – {u_{c’}} \cdot {v_w})}} = [\sigma ({u_{c’}} \cdot {v_w}) – 1] \cdot {v_w}$
$\frac{ {\partial L(\theta )}}{ {\partial {v_w}}} = \frac{ {\sigma ({u_c} \cdot {v_w})[1 – \sigma ({u_c} \cdot {v_w})] \cdot {u_c}}}{ {\sigma ({u_c} \cdot {v_w})}} + \sum\limits_{c’ \in N(w)} {\frac{ {\partial ( – {u_{c’}} \cdot {v_w})[1 – \sigma ( – {u_{c’}} \cdot {v_w})] \cdot ( – {u_{c’}})}}{ {\partial ( – {u_{c’}} \cdot {v_w})}} = [1 – \sigma ({u_c} \cdot {v_w})] \cdot {u_c} + \sum\limits_{c’ \in N(w)} {[\sigma ( – {u_{c’}} \cdot {v_w}) – 1] \cdot {u_{c’}}} }$
然后整体的梯度下降可以表示成：
${u_c}: = {u_c} + \eta \frac{ {\partial L(\theta )}}{ {\partial {u_c}}}$
${u_{c’}}: = {u_{c’}} + \eta \frac{ {\partial L(\theta )}}{ {\partial {u_{c’}}}}$
${v_w}: = {v_w} + \eta \frac{ {\partial L(\theta )}}{ {\partial {v_w}}}$
这就是word2vec训练过程中的负采样技巧，希望可以通过细致的讲解能够帮助大家深刻地理解负采样，码字不易，如有转载请注明出处，文中如有纰漏，也请各位读者不吝指教，谢谢。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/148749.html原文链接：https://javaforall.net

Negative Sampling 负采样详解[通俗易懂]

关于作者

全栈程序员-站长

发表回复

Negative Sampling 负采样详解[通俗易懂]

关于作者

全栈程序员-站长

相关推荐

Jettison for Mac(外部磁盘实用工具)

2025最新Cursor安装指南：6步配置AI编程环境【完全攻略】

Subversion代码提交中的org.apache.subversion.javahl.ClientException: svn: E200007: Commit failed异常解决

【OpenClaw 安装教程：Windows／macOS／Linux 全平台保姆级指南】

基于halconc++坏点簇检测算法「建议收藏」

十大it博客_中国it名人

发表回复