simhash是什么_批复的适用情况

simhash是什么_批复的适用情况需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。

首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。

由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些哈希值比较文档的相似度。这几万篇文档的效果还不错,然而换了一批文档之后,发现Simhash的效果还是比较糟糕的。

一开始的几万篇文档是从各个网站爬取的新闻语料,由于各网站新闻存在重复现象(比如只有标题有些区别,内容基本是一样的。。),所以文档集合中也存在基本雷同的新闻,在这种情况下,Simhash的效果很好,能识别出这些文档,算出来的相似度也很高。

然而后来有一个新的文档集合,只有几百篇文档,并且是人工构造的,语料比较干净,所以基本不会出现大段内容重复的情况,在这种情况下Simhash的效果就比较差了。

Simhash本身就是Google用于对海量网页去重的算法,在去重这方面,Simhash的效果还是很赞的,适合查找大段文本相似的文章,但是对仅仅是同样涉及某一个或几个概念,而非大段内容相似的文章来说,效果并不好。在关键词少、文章内容短的情况下,Simhash也不能达到很好的效果。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/187254.html原文链接:https://javaforall.net

(0)
上一篇 2022年10月1日 上午7:16
下一篇 2022年10月1日 上午7:16


相关推荐

  • 电容器图片及型号图片_电容电阻图片大全

    电容器图片及型号图片_电容电阻图片大全图1是胆电容;图2是灯具电容器;图3是MKPH电容;图4是MET电容;图5、图10是PEI电容;图6是胆贴片电容;图7是MPE电容;图8是贴片电容;图11是轴向电解电容器;图12是MPP电容。图1是PPN电容;图2是PET电容;图3是MEA电容;图4MPB是电容;图5是PPT电容;图6是MPT电容;图7是电解电容器;图8是MET电容;图9是MKPH电容;图10、11是电机用电容;图12是MKS电…

    2022年8月22日
    13
  • linux安装pycharm教程_linux下pycharm使用

    linux安装pycharm教程_linux下pycharm使用在linux中安装pycharm很简单,解压后直接启动.1.先去官网下载安装包2.解压压缩包到自己指定的目录.第三方软件一般安装到/opt目录3.启动,可以直接运行的.进入到pycharm解压后的目录的bin目录下.pycharm.sh就是启动脚本,直接可以启动,但这样每次都要指定路径启动.shpycharm.sh启动pycharm将会阻塞一个终端,关闭终端pycharm也将随之关闭.4.创建一下快捷启动命令,指定一个别名.1.进入当前用户主目录.bashrc

    2022年8月27日
    9
  • hidden ,visibilityChange兼容

    hidden ,visibilityChange兼容//不同环境兼容lethidden=”letvisibilityChange=”if(typeofdocument.hidden!==’undefined’){//Opera12.10andFirefox18andlatersupporthidden=’hidden’visibilityChange=’visibilitychange’}elseif(ty.

    2022年6月24日
    28
  • SCCM系列之六部署操作系统(下)

    SCCM系列之六部署操作系统(下)

    2021年7月28日
    50
  • noip宝藏_24日拼图寻宝

    noip宝藏_24日拼图寻宝题目描述:点击打开链接/*思路:可以看成是一个多层的约瑟夫环问题*/#include#defineN10005#defineM105intstairs[N][M];//是否有楼梯口(0/1)intsign[N][M];//房间指示牌(走的步数)intf[N];//每层楼梯口总数(记录每层楼梯口数

    2022年8月22日
    7
  • trunc函数 mysql_TRUNC函数的用法详解

    trunc函数 mysql_TRUNC函数的用法详解TRUNC 函数用于对值进行截断 用法有两种 TRUNC NUMBER 表示截断数字 TRUNC date 表示截断日期 1 截断数字 格式 TRUNC n1 n2 n1 表示被截断的数字 n2 表示要截断到那一位 n2 可以是负数 表示截断小数点前 注意 TRUNC 截断不是四舍五入 SQL gt selectTRUNC 15 79 fromdual TRUNC 15 79

    2026年3月17日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号