如何评估词向量?「建议收藏」

如何评估词向量?「建议收藏」如何评估词向量?目前词向量的评估一般分为两大类:extrinsic和intrinsicevaluation即内部评估和外部评估。内部评估内部评估直接衡量单词之间的句法和语义关系。这些任务通常涉及一组预先选择的查询术语和语义相关的目标词汇,我们将其称为queryinventory。similarity相关性度量当前绝大部分工作(比如以各种方式改进wordembedding)都…

大家好,又见面了,我是你们的朋友全栈君。

如何评估词向量?

目前词向量的评估一般分为两大类:extrinsic 和 intrinsic evaluation

即内部评估和外部评估。

内部评估

内部评估直接衡量单词之间的句法和语义关系。这些任务通常涉及一组预先选择的查询术语和语义相关的目标词汇,我们将其称为query inventory

similarity 相关性度量

当前绝大部分工作(比如以各种方式改进word embedding)都是依赖wordsim353等词汇相似性数据集进行相关性度量,并以之作为评价word embedding质量的标准。然而,这种基于similarity的评价方式对训练数据大小、领域、来源以及词表的选择非常敏感。而且数据集太小,往往并不能充分说明问题。

评价数据集往往是成对的单词,两个单词的embedding余弦相似度计算出来应该具有较高的相关性(Spearman或Pearson)和人的主观评价分数。

word analogy 类比推理

假设给了一对单词 (a , b) 和一个单独的单词c,task会找到一个单词d,使得c与d之间的关系相似于a与b之间的关系,举个简单的例子:(中国,北京)和 日本,应该找到的单词应该是东京,因为北京是中国的首都,而东京也是日本的首都。 在给定word embedding的前提下,task一般是通过在词向量空间寻找离(b-a+c)最近的词向量来找到d。

此方法来源于Mikolov et al. (2013a),并流行开来。

外部评估

应用到下游任务

比如词性标注、命名实体识别、句法分析、句子分类等,将词向量作为输入,衡量下游任务指标性能的变化。

但这种评估只能方法只是提供了一种证明embedding优点的方法,而不清楚它是如何与其他衡量指标联系其他的。也就是说,基于具体应用的评价是一种间接方式,中间还隔了一层。

虽说如此,根据论文Evaluation methods for unsupervised word embeddings,还是这种方法最好,并且此论文提出了新的评估方法。

可视化

也可以做可视化来展示,使用t-sne等

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/139736.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Linux系统管理—linux计划任务和日志的管理

    Linux系统管理—linux计划任务和日志的管理一、计划任务-at-cron-计划任务使用方法计划任务的作用:是做一些周期性的任务,在生产中的主要用来定期备份数据CROND:这个守护进程是为了周期性执行任务或处理等待事件而存在计划任务的安排方式分两种:一种是定时性的,也就是例行。就是每隔一定的周期就要重复来做这个事情一种是突发性的,就是这次做完了这个事,就没有下一次了,临时决定,只执行一次的任务at和crontab这两个命令:at:它是一个可以处理仅执行一次就结束的指令crontab:它是会把你指定的工

    2022年7月13日
    36
  • vue+axios上传文件的几种方式及步骤(以上传图片为例)

    vue+axios上传文件的几种方式及步骤(以上传图片为例)1、用js的formData对象上传(服务器返回url地址)<inputclass=”file”name=”file”type=”file”accept=”image/png,image/gif,image/jpeg”@change=”update”/>methods:{update(e){letfile=e.targe…

    2022年6月22日
    50
  • 毕业5年,我问遍了身边的大佬,总结了他们的学习方法

    毕业5年,我问遍了身边的大佬,总结了他们的学习方法我问了身边10个大佬,总结了他们的学习方法,原来成功都是有迹可循的。

    2022年6月10日
    25
  • 中兴新支点Linux国产操作系统安装windows字体的方法「建议收藏」

    中兴新支点操作系统是一款非常好用易上手的国产操作系统,重易用体验和美观设计,因此对于大多数用户来说,它易用安装和使用,还能够很好的代替Windows系统进行工作与娱乐。用Windows的用户都知道,在使用过程中经常要用到各种字体,那中兴新支点国产操作系统如何安装这些字体呢,小编给大家整理了下面的教程。第一步:将Windows下喜欢的字体文件copy到一个文件夹中,例如将Windows…

    2022年4月9日
    63
  • linux struts2漏洞,Struts2漏洞分析,漏洞波及全系版本

    linux struts2漏洞,Struts2漏洞分析,漏洞波及全系版本Struts漏洞分析ApacheStruts团队已经发布了Struts2.3.15.1安全更新版本。在Struts2.3.15.1版本之前,存在着严重的安全漏洞,如果现在一些比较大的网站是用JAVA做的,没有把版本升级,还用的是Strtus2.3.15.1版本之前的话,那么你们就要小心,服务器被黑了哦。下面就来说一下之前版本,Struts2的漏洞是如何产生的,我们自己去做,该如何的去解决这个…

    2022年7月19日
    13
  • SEO优化怎么做_个人做SEO在哪里可以找到

    SEO优化怎么做_个人做SEO在哪里可以找到很多新人刚接触SEO,不知道从哪里开始着手优化,现在就给大家讲讲SEO优化到底要怎么做。按照下面的步骤来,就基本完成一个网站优化的思路。如果你想了解关于SEO的最新的优化操作,以及这方面的系统化的知识和思维的话,你可以来这个群:开头是四三七三,中间是四零,结尾是二二六。在这里你可以每天都能学习到关于SEO优化的知识,会有专门的人讲解,你只需要付出你的时间和用心的听就行!    SE

    2022年9月2日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号