word2vec原理简述[通俗易懂]

word2vec原理简述[通俗易懂](原创)word2vec是将单词转为向量,并为后续应用机器学习的算法做准备。经典的模型有两种,skip-gram和cbow,其中,skip-gram是给定输入单词来预测上下文,而cbow相反,是给定上下文来预测输入单词。下面主要介绍skip-gram:1.skip-gram训练词对skip-gram首先设定所谓一个值(skip_window),作为一个单词选取它的上下文的单词…

大家好,又见面了,我是你们的朋友全栈君。

(原创)

word2vec是将单词转为向量,并为后续应用机器学习的算法做准备。

经典的模型有两种,skip-gramcbow

其中,skip-gram是给定输入单词来预测上下文,而cbow相反,是给定上下文来预测输入单词。下面主要介绍skip-gram:

1.skip-gram训练词对

skip-gram首先设定所谓一个值( skip_window),作为一个单词选取它的上下文的单词的数量,

这些词对,作为训练数据,如 “the quick brown fox jumps over lazy dog”,对于quick,有

(quick,the),(quick,brown),(quick,fox)三个词对,作为quick的训练标签。

2.word嵌入到k维空间,k维向量化

接下来是对语料中单词的向量化处理,首先将语料中不重复的单词都拿出来成为词汇表,

然后对其进行one-hot编码,如10000个单词,其中a编码为 [1,0,0,0….],这个时候单词已经转为了向量,但是只是这样并不能看出任意两词之间的相关性,而且词汇表如果大的话,导致维度灾难。

Hinton提出了映射到K维向量的思想,基于这个思想用一个简单的多分类的神经网络来训练得到这些K为向量。

输入层是n个one-hot编码的词,输出也是one-hot编码的词(对skipgram的词对进行训练),

隐含层为 k个神经元节点,含有n*k的权重矩阵,经过这层将词向量转换为k维向量,

再经softmax输出为n维的预测概率向量,优化残差函数,训练权重系数。

最终训练结束后,这个n*k的权重矩阵的每一行就作为该单词的k维向量了。

 

转载于:https://www.cnblogs.com/randomstring/p/10439384.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145615.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • realsense深度图像保存方法

    realsense深度图像保存方法一般使用realsense时会保存视频序列,当保存深度图像时,需要注意保存的图像矩阵的格式,不然可能造成深度值的丢失。在众多图像库中,一般会使用opencv中的imwrite()函数进行深度图像的保存。一般深度图像中深度值的单位是mm,因此一般使用np.uint16作为最终数据格式保存。例子:importnumpyasnpimportcv2deffun1(…

    2022年4月25日
    190
  • EnterCriticalSection TryEnterCriticalSection

    EnterCriticalSection TryEnterCriticalSection如果EnterCriticalSection将一个线程置于等待状态,那么该线程在很长时间内就不能再次被调度。实际上,在编写得不好的应用程序中,该线程永远不会再次被赋予CPU时间。TryEnterCriticalSection函数决不允许调用线程进入等待状态。它的返回值能够指明调用线程是否能够获得对资源的访问权。TryEnterCriticalSection发现该资源已经被另一个线程访问,它就返回F

    2022年9月20日
    4
  • for while循环语句举例python_for循环高级用法

    for while循环语句举例python_for循环高级用法程序在一般情况下是按顺序执行的。编程语言提供了各种控制结构,允许更复杂的执行路径。循环语句允许我们执行一个语句或语句组多次,下面是在大多数编程语言中的循环语句的一般形式1.循环控制语句在了解循环语句的使用方法之前,我们先来了解几个循环控制语句:1)…

    2022年4月19日
    79
  • pycharm调试python_以下属于程序调试的内容有

    pycharm调试python_以下属于程序调试的内容有1.准备代码:#coding=utf-8classTestDebug:def__init__(self):self.a=1…

    2022年8月28日
    5
  • MFC学习——如何在MFC对话框中添加一个显示网页的窗口(用vs2017以下版本,vs2017不支持)

    MFC学习——如何在MFC对话框中添加一个显示网页的窗口(用vs2017以下版本,vs2017不支持)(用vs2017以下版本,vs2017不支持)标题这个要用到 ActiveX 控件了,向对话框里面插入一个 WebBrowser控件,之后使用就可以了!=============================利用Web Browser控件创建自己的浏览器①新建一个基于对话框的工程,命名为test,然后在对话框上单击右键,选择Insert ActiveX Control…在弹出的对话…

    2022年8月18日
    6
  • Http中GET和POST请求的区别

    Http中GET和POST请求的区别

    2021年10月30日
    39

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号