word2vec原理简述[通俗易懂]

word2vec原理简述[通俗易懂](原创)word2vec是将单词转为向量,并为后续应用机器学习的算法做准备。经典的模型有两种,skip-gram和cbow,其中,skip-gram是给定输入单词来预测上下文,而cbow相反,是给定上下文来预测输入单词。下面主要介绍skip-gram:1.skip-gram训练词对skip-gram首先设定所谓一个值(skip_window),作为一个单词选取它的上下文的单词…

大家好,又见面了,我是你们的朋友全栈君。

(原创)

word2vec是将单词转为向量,并为后续应用机器学习的算法做准备。

经典的模型有两种,skip-gramcbow

其中,skip-gram是给定输入单词来预测上下文,而cbow相反,是给定上下文来预测输入单词。下面主要介绍skip-gram:

1.skip-gram训练词对

skip-gram首先设定所谓一个值( skip_window),作为一个单词选取它的上下文的单词的数量,

这些词对,作为训练数据,如 “the quick brown fox jumps over lazy dog”,对于quick,有

(quick,the),(quick,brown),(quick,fox)三个词对,作为quick的训练标签。

2.word嵌入到k维空间,k维向量化

接下来是对语料中单词的向量化处理,首先将语料中不重复的单词都拿出来成为词汇表,

然后对其进行one-hot编码,如10000个单词,其中a编码为 [1,0,0,0….],这个时候单词已经转为了向量,但是只是这样并不能看出任意两词之间的相关性,而且词汇表如果大的话,导致维度灾难。

Hinton提出了映射到K维向量的思想,基于这个思想用一个简单的多分类的神经网络来训练得到这些K为向量。

输入层是n个one-hot编码的词,输出也是one-hot编码的词(对skipgram的词对进行训练),

隐含层为 k个神经元节点,含有n*k的权重矩阵,经过这层将词向量转换为k维向量,

再经softmax输出为n维的预测概率向量,优化残差函数,训练权重系数。

最终训练结束后,这个n*k的权重矩阵的每一行就作为该单词的k维向量了。

 

转载于:https://www.cnblogs.com/randomstring/p/10439384.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145615.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • vs2010旗舰版可用密钥

    vs2010旗舰版可用密钥YCFHQ9DWCYDKV88T2TMHG7BHP

    2022年5月3日
    68
  • scrapy中ROBOTSTXT_OBEY = True的相关说明「建议收藏」

    scrapy中ROBOTSTXT_OBEY = True的相关说明「建议收藏」转载自  https://blog.csdn.net/you_are_my_dream/article/details/60479699在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:#Obeyrobots.txtrulesROBOTSTXT_OBEY=True观察代码可以发现,默认为True,就是要遵守robots.txt的规则,那么ro…

    2022年6月14日
    28
  • 压缩文件的加密与破解

    压缩文件的加密与破解压缩文件的加密与破解0x00前言0x01过程1.压缩文件的加密注意点:2.压缩文件的解密0x00前言这是我对压缩文件的加密与破解的学习记录。0x01过程1.压缩文件的加密安装Winzip、Winrar软件进行加密在建好的文档右键—->添加到压缩文件—->选择rar/zip—->高级—->设置密码注意点:1.尽量不要使用Winra…

    2022年4月29日
    52
  • hash碰撞解决方法

    hash碰撞解决方法Hash碰撞冲突我们知道,对象Hash的前提是实现equals()和hashCode()两个方法,那么HashCode()的作用就是保证对象返回唯一hash值,但当两个对象计算值一样时,这就发生了碰撞冲突。如下将介绍如何处理冲突,当然其前提是一致性hash。1.开放地址法开放地执法有一个公式:Hi=(H(key)+di)MODmi=1,2,…,k(k<=m-1)其中,m为哈希表的表长。…

    2022年6月17日
    44
  • uniapp父子组件传值

    uniapp父子组件传值在父组件中引入子组件父传子(props)在子类props里定义接收参数在子类标签写上引用然后在父类写上准备传递的参数此时,父组件传到子组件的值,就会覆盖默认背景色子传父($emit)需要首先在子类组件定义事件在子类写上触发事件在父类引用标签上写上在子类$emit里面定义的方法名,以及接收方法然后点击子类触发,就可以传值给父类注意:1.父传子用props;…

    2022年5月17日
    299
  • 最简单的vue上传图片

    最简单的vue上传图片