word2vec原理简述[通俗易懂]

word2vec原理简述[通俗易懂](原创)word2vec是将单词转为向量,并为后续应用机器学习的算法做准备。经典的模型有两种,skip-gram和cbow,其中,skip-gram是给定输入单词来预测上下文,而cbow相反,是给定上下文来预测输入单词。下面主要介绍skip-gram:1.skip-gram训练词对skip-gram首先设定所谓一个值(skip_window),作为一个单词选取它的上下文的单词…

大家好,又见面了,我是你们的朋友全栈君。

(原创)

word2vec是将单词转为向量,并为后续应用机器学习的算法做准备。

经典的模型有两种,skip-gramcbow

其中,skip-gram是给定输入单词来预测上下文,而cbow相反,是给定上下文来预测输入单词。下面主要介绍skip-gram:

1.skip-gram训练词对

skip-gram首先设定所谓一个值( skip_window),作为一个单词选取它的上下文的单词的数量,

这些词对,作为训练数据,如 “the quick brown fox jumps over lazy dog”,对于quick,有

(quick,the),(quick,brown),(quick,fox)三个词对,作为quick的训练标签。

2.word嵌入到k维空间,k维向量化

接下来是对语料中单词的向量化处理,首先将语料中不重复的单词都拿出来成为词汇表,

然后对其进行one-hot编码,如10000个单词,其中a编码为 [1,0,0,0….],这个时候单词已经转为了向量,但是只是这样并不能看出任意两词之间的相关性,而且词汇表如果大的话,导致维度灾难。

Hinton提出了映射到K维向量的思想,基于这个思想用一个简单的多分类的神经网络来训练得到这些K为向量。

输入层是n个one-hot编码的词,输出也是one-hot编码的词(对skipgram的词对进行训练),

隐含层为 k个神经元节点,含有n*k的权重矩阵,经过这层将词向量转换为k维向量,

再经softmax输出为n维的预测概率向量,优化残差函数,训练权重系数。

最终训练结束后,这个n*k的权重矩阵的每一行就作为该单词的k维向量了。

 

转载于:https://www.cnblogs.com/randomstring/p/10439384.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145615.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月16日 下午11:00
下一篇 2022年5月16日 下午11:20


相关推荐

  • bs和cs开发架构的详细解析区别_BS与CS架构区别

    bs和cs开发架构的详细解析区别_BS与CS架构区别目前开发的基本架构。一、CS结构—-Client/Server1、开发者需要编写两个端点,一个是客户端程序,一个是服务端程序。举例:QQ、360等等。2、需要再客户机安装客户端的部分。3、弊端:客户端的维护比较麻烦,机器只要一重装,就需要重新安装该软件,同时升级也比较麻烦。后期有了一个解决方案:对于升级,可以通过网络升级的形式完成。4、好处:客户端的出现,可以

    2022年10月16日
    4
  • 导航上显示某个地点已关闭什么意思_大众MIB(275)教程之导航使用「建议收藏」

    导航上显示某个地点已关闭什么意思_大众MIB(275)教程之导航使用「建议收藏」大众可以说近几年的发展非常快,仅车载收音机都更换了好几代了。从最初的单纯收音机到后来的6碟CD机RCD510,最初国内上市的导航RNS510,还有后来自带蓝牙的RNS315,再到PQ平台187A,当初抄的也是火的很几乎每天都能看到187A的帖子,直到出现了升级版的187B,这个自带carplay和百度canlife的PQ平台的机器一下将老款车型导航的改装推上了最巅峰,也把一款拆车机…

    2022年5月7日
    85
  • 徐 氏 介 绍_徐氏的起源

    徐 氏 介 绍_徐氏的起源一、姓氏源流徐氏的姓氏来源比较纯正,主要出自嬴姓。是先帝玄孙伯益之子若木的后裔。相传陷帝有一个孙女叫女修,因食燕子蛋而怀有大业。大业娶少典氏女子女华为妻,生下了皋陶,皋陶生三子(另一说是六子)长子伯益,又叫…

    2025年9月22日
    7
  • 解决docker下载镜像速度过慢_docker image是什么

    解决docker下载镜像速度过慢_docker image是什么前言上一篇讲到pull镜像,但是pull镜像的时候下拉的速度实在感人,有什么解决办法吗?我们只需将docker镜像源修改为国内的将docker镜像源修改为国内的:在/etc/docker/d

    2022年7月30日
    8
  • 计算两个日期中间的天数_excel两个日期相减计算天数

    计算两个日期中间的天数_excel两个日期相减计算天数25:计算两个日期之间的天数25:计算两个日期之间的天数查看提交统计提问查看提交统计提问总时间限制: 1000ms 内存限制: 65536kB描述给

    2022年8月4日
    8
  • 银行机构代码_工商银行怎么查12位行号

    银行机构代码_工商银行怎么查12位行号因为做到绑定银行卡的时候,需要定义一下银行卡的代号。  找了一下这方面的资源: 银行机构代码  央行颁发支付系统银行行别、行号业务标准,支付系统银行行别代码采取类别编码方法,实行3位定长数字,由类别代码和顺序编码组成。其中第一位为类别代码,用于区分不同种类的银行机构,便于金融统计数据的提取;第二、三位为顺序编码,用于标识每一家银行机构。  银行行别代码结构:  一、类别代码…

    2025年8月7日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号