词向量:如何评价词向量的好坏

词向量:如何评价词向量的好坏一、前言词向量、词嵌入或者称为词的分布式表示,区别于以往的独热表示,已经成为自然语言任务中的一个重要工具,对于词向量并没有直接的方法可以评价其质量,下面介绍几种间接的方法。二、评价方法对于词向量的评价更多还是应该考虑对实际任务的收益,脱离的实际任务很难确定A模型就一定比B好,毕竟词向量方法更多是一种工具。1、语义相关性任务这个任务用来评价词向量模型在两个词之间的语义相关性,如:…

大家好,又见面了,我是你们的朋友全栈君。

一、前言

词向量、词嵌入或者称为词的分布式表示,区别于以往的独热表示,已经成为自然语言任务中的一个重要工具,对于词向量并没有直接的方法可以评价其质量,下面介绍几种间接的方法。

二、评价方法

对于词向量的评价更多还是应该考虑对实际任务的收益,脱离的实际任务很难确定A模型就一定比B好,毕竟词向量方法更多是一种工具。

1、语义相关性任务

这个任务用来评价词向量模型在两个词之间的语义相关性,如:学生与作业,中国与北京等。
具体方法由监督模式实现,首先需要一份如下的标记文件,一般可以由人工标注:

学生 上课 0.78
教师 备课 0.8
...

上述文件代表了词语之间的语义相关性,我们利用标注文件与训练出来的词向量相似度进行比较,如:词向量之间的cos距离等,确定损失函数,便可以得到一个评价指标。
但这种方法首先需要人力标注,且标注的准确性对评价指标影响非常大。

2、语义类比任务

这个任务词向量来考察不同单词间的语义关系能力,一般给定三个词,如a、b、c,要求寻找a+b = c + ?任务中最相似的词,一般使用向量间距离来进行寻找,如:

queen-king+man=women

同样需要准备标记文件,根据寻找出来的词的正确率判断词向量的质量。

3、文本分类任务

这个任务利用词向量构成文本向量,一般采用求和平均的方式,之后利用构成的文本向量进行文本分类,根据分类的准备率等指标衡量词向量的质量。

三、模型优化

1、模型

对于自然语言处理任务,在模型效果相差不大的情况下,选用简单的模型。
同样,复杂的模型对于大规模的语料效果更为明显,小语料尽量用简单模型。

2、语料

选用与自然语言任务同领域的语料,提升效果会非常明显,在一定语料规模范围内,语料越大,效果越好;如果使用不同领域的语料,甚至会有反面效果。
在语料的选择上,同领域的语料比大规模的其他领域语料重要。

3、向量维度

向量维度太小难以表现出语义的复杂度,一般更大的维度的向量表现能力更强,综合之下,50维的向量可以胜任很多任务。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/136392.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 关闭Windows硬盘默认共享「建议收藏」

    在桌面建一个txt文档考入两种方式其中的一种,并将txt文件另存为reg后缀文件。第一种Windows Registry Editor Version 5.00[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\lanmanserver\parameters] “AutoShareServer”=dword:00000000

    2022年4月16日
    124
  • T10接口_服务端接口和前端接口

    T10接口_服务端接口和前端接口本文适用鼎捷软件T100系列1.azzi700注册接口程序号,接口服务名2.设计器code进行签出,下载(空框架)3.设计数据接收的结构,以及开发函数进行数据处理4.程序上传,无提示则表示成功5.打开http://erp_ip/wstopprd/ws/r/awsp920,如果接口地址返回isok则接口是通过的,还可以使用工具postman或者soapui进行调用测试6.检查日志,T100的接口日志存放于$TEMPDIR或者$TEMPLOG,日志的命名规则是按天的,每天调用的所

    2022年10月20日
    2
  • 【CSS中背景图片定位方法】

    CSS中背景图片的定位,困扰我很久了。今天总算搞懂了,一定要记下来。…

    2022年1月18日
    41
  • volatile关键字作用与内存可见性、指令重排序概述[JAVA]「建议收藏」

    volatile关键字作用与内存可见性、指令重排序概述[JAVA]「建议收藏」在理解volotile关键字的作用之前,先粗略解释下内存可见性与指令重排序。1.内存可见性Java内存模型规定,对于多个线程共享的变量,存储在主内存当中,每个线程都有自己独立的工作内存,并且线程只能访问自己的工作内存,不可以访问其它线程的工作内存。工作内存中保存了主内存中共享变量的副本,线程要操作这些共享变量,只能通过操作工作内存中的副本来实现,操作完毕之后再同步回到主内存当中,其JVM内存模型大

    2022年5月31日
    34
  • wordpress php.ini路径,尝试通过将php.ini放在wordpress root中来启用allow_url_fopen不起作用…

    wordpress php.ini路径,尝试通过将php.ini放在wordpress root中来启用allow_url_fopen不起作用…好吧,我正在构建一个花哨的裤子wordpress主题和部分主题有PHP获取图像宽度和使用这些数字来调整页面元素.它在我的本地机器上工作正常,但是当我使用cpanel将主题放在我的托管服务器上时,它不起作用.我收到这个错误Warning:getimagesize()[function.getimagesize]:http://wrapperisdisabledintheserver…

    2022年7月21日
    10
  • 计算机的数学思想源头(回复“计算机数学”可下载PDF典藏版)「建议收藏」

    计算机的数学思想源头(回复“计算机数学”可下载PDF典藏版)「建议收藏」计算机的数学思想源头(回复“计算机数学”可下载PDF典藏版)…

    2022年8月11日
    15

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号