cbow模型详解_老C模型

cbow模型详解_老C模型引言前面我分析了Word2vec的一种模型叫做skip-gram模型。在这篇文章中,我将讲述另一个word2vec模型——连续词袋模型(CBOW)模型。如果你理解skip-gram模型,那么接下来的CBOW模型就更好理解了,因为两者模型互为镜像。我们先来看看CBOW模型与skip-gram模型对比图:如何,这是不是镜像关系?所以接下来的讲解也会和skip-gram那篇文章极其类似。前向传播接

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

引言

前面我分析了Word2vec的一种模型叫做skip-gram模型。在这篇文章中,我将讲述另一个word2vec模型——连续词袋模型(CBOW)模型。如果你理解skip-gram模型,那么接下来的CBOW模型就更好理解了,因为两者模型互为镜像。我们先来看看CBOW模型与skip-gram模型对比图:
word2vec
如何,这是不是镜像关系?所以接下来的讲解也会和skip-gram那篇文章极其类似。

前向传播

接下来我们来看下CBOW神经网络模型,CBOW的神经网络模型与skip-gram的神经网络模型也是互为镜像的
cbownero
在上图中,该模型的输入输出与skip-gram模型的输入输出是相反的。这里输入层是由one-hot编码的输入上下文{
x 1 x_1 x1,…, x C x_C xC}组成,其中窗口大小为C,词汇表大小为V。隐藏层是N维的向量。最后输出层是也被one-hot编码的输出单词 y y y。被one-hot编码的输入向量通过一个 V × N V\times N V×N维的权重矩阵 W W W连接到隐藏层;隐藏层通过一个 N × V N\times V N×V的权重矩阵 W ′ W^{‘} W连接到输出层。
接下来,我们假设我们知道输入与输出权重矩阵的大小。

  • 第一步就是去计算隐藏层 h h h的输出。如下:
    h = 1 C W ⋅ ( ∑ i = 1 C x i ) ( 1 ) h = \frac{1}{C}W\cdot (\sum_{i=1}^C x_i)\tag{$1$} h=C1W(i=1Cxi)(1)
    该输出就是输入向量的加权平均。这里的隐藏层与skip-gram的隐藏层明显不同。
  • 第二部就是计算在输出层每个结点的输入。如下:
    u j = v w j ′ T ⋅ h ( 2 ) u_{j}=v^{‘T}_{wj}\cdot h\tag{$2$} uj=vwjTh(2)
    其中 v w j ′ T v^{‘T}_{wj} vwjT是输出矩阵 W ′ W^{‘} W的第 j j j列。
  • 最后我们计算输出层的输出,输出 y j y_j yj如下:
    y c , j = p ( w y , j ∣ w 1 , . . . , w c ) = e x p ( u j ) ∑ j ′ = 1 V e x p ( u ′ j ) ( 3 ) y_{c,j} =p(w_{y,j}|w_1,…,w_c) = \frac{exp(u_{j})}{\sum^V_{j^{‘}=1}exp(u^{‘}j)}\tag{$3$} yc,j=p(wy,jw1,...,wc)=j=1Vexp(uj)exp(uj)(3)

通过BP(反向传播)算法及随机梯度下降来学习权重

在学习权重矩阵 W W W W ′ W^{‘} W过程中,我们可以给这些权重赋一个随机值来初始化。然后按序训练样本,逐个观察输出与真实值之间的误差,并计算这些误差的梯度。并在梯度方向纠正权重矩阵。这种方法被称为随机梯度下降。但这个衍生出来的方法叫做反向传播误差算法。
具体推导步骤就不详写了:

  • 首先就是定义损失函数,这个损失函数就是给定输入上下文的输出单词的条件概率,一般都是取对数,如下所示:
    E = − l o g p ( w O ∣ w I ) ( 4 ) E = -logp(w_O|w_I)\tag{$4$} E=logp(wOwI)(4)
    = − v w o T ⋅ h − l o g ∑ j ′ = 1 V e x p ( v w T j ′ ⋅ h ) ( 5 ) = -v_{wo}^T\cdot h-log\sum_{j^{‘}=1}^Vexp(v^T_w{_{j^{‘}}}\cdot h)\tag{$5$} =vwoThlogj=1Vexp(vwTjh)(5)
    接下来就是对上面的概率求导,具体推导过程可以去看BP算法,我们得到输出权重矩阵 W ′ W^{‘} W的更新规则:
    w ′ ( n e w ) = w i j ′ ( o l d ) − η ⋅ ( y j − t j ) ⋅ h i ( 6 ) w^{‘(new)} = w_{ij}^{‘(old)}-\eta\cdot(y_{j}-t_{j})\cdot h_i\tag{$6$} w(new)=wij(old)η(yjtj)hi(6)
    同理权重 W W W的更新规则如下:
    w ( n e w ) = w i j ( o l d ) − η ⋅ 1 C ⋅ E H ( 7 ) w^{(new)} = w_{ij}^{(old)}-\eta\cdot\frac{1}{C}\cdot EH\tag{$7$} w(new)=wij(old)ηC1EH(7)

参考文献

[1] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.(这篇文章就讲了两个模型:CBOW 和 Skip-gram)
[2] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. 2013, 26:3111-3119.(这篇文章针对Skip-gram模型计算复杂度高的问题提出了一些该进)
[3] Presentation on Word2Vec(这是NIPS 2013workshop上Mikolov的PPT报告)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/196242.html原文链接:https://javaforall.net

(0)
上一篇 2025年9月30日 下午8:22
下一篇 2025年9月30日 下午9:01


相关推荐

  • mac 2022 idea 激活码_在线激活

    (mac 2022 idea 激活码)最近有小伙伴私信我,问我这边有没有免费的intellijIdea的激活码,然后我将全栈君台教程分享给他了。激活成功之后他一直表示感谢,哈哈~https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~0VOE…

    2022年3月30日
    152
  • 简单谈谈什么是Hystrix,以及SpringCloud的各种超时时间配置效果,和简单谈谈微服务优化[通俗易懂]

    简单谈谈什么是Hystrix,以及SpringCloud的各种超时时间配置效果,和简单谈谈微服务优化[通俗易懂]1.前言Springcloud框架中,超时时间的设置通常有三个层面:zuul网关#默认1000zuul.host.socket-timeout-millis=2000#默认2000zuul.host.connect-timeout-millis=4000ribbonribbon:OkToRetryOnAllOperations:false#对所有操作请求都进…

    2025年6月8日
    5
  • web后端语言_C/C++作为web后端语言的缺点

    web后端语言_C/C++作为web后端语言的缺点C/C++C语言虽然是非常贴近操作系统的语言,能和操作系统API很好的交互,但是C语言并没有现代化工程开发所需要的面向对象功能,当然也缺乏泛型之类的功能,如果以CGI的形式开发,那么缺点非常明显,这也是第二代后端平台兴起的原因。C++具有现代化工程开发所需要的各种功能,但是它同样有缺点:缺乏字符串处理,Web开发最主要的就是字符串的处理,所有的一切几乎都要和字符串打交道,但是C…

    2022年6月25日
    48
  • OpenClaw本地怎么部署 OpenClaw windos本地部署配置及教程

    OpenClaw本地怎么部署 OpenClaw windos本地部署配置及教程

    2026年3月17日
    2
  • 【java并发编程】底层原理——用户态和内核态的区别

    【java并发编程】底层原理——用户态和内核态的区别一、背景–线程状态切换的代价java的线程是映射到操作系统原生线程之上的,如果要阻塞或唤醒一个线程就需要操作系统介入,需要在户态与核心态之间切换,这种切换会消耗大量的系统资源,因为用户态与内核态都有各自专用的内存空间,专用的寄存器等,用户态切换至内核态需要传递给许多变量、参数给内核,内核也需要保护好用户态在切换时的一些寄存器值、变量等,以便内核态调用结束后切换回用户态继续工作。synch…

    2026年1月18日
    7
  • proxifier注册码

    proxifier注册码proxifier 注册码 5EZ8G C3WL5 B56YG SCXM9 6QZAPG3ZC7 7YGPY FZD3A FMNF9 ENTJBYTZGN FYT53 J253L ZQZS4 YLBN9 用户名 zxhi 注册码 LYZGL F2KX3 JW5W4 A33MC 25QHHECZ83 82S6F AM2WR Z5ASV JC3CG2LZLR WYDXF NEA3A UKVUB

    2026年3月20日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号