simhash是什么_批复的适用情况

simhash是什么_批复的适用情况需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。

首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。

由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些哈希值比较文档的相似度。这几万篇文档的效果还不错,然而换了一批文档之后,发现Simhash的效果还是比较糟糕的。

一开始的几万篇文档是从各个网站爬取的新闻语料,由于各网站新闻存在重复现象(比如只有标题有些区别,内容基本是一样的。。),所以文档集合中也存在基本雷同的新闻,在这种情况下,Simhash的效果很好,能识别出这些文档,算出来的相似度也很高。

然而后来有一个新的文档集合,只有几百篇文档,并且是人工构造的,语料比较干净,所以基本不会出现大段内容重复的情况,在这种情况下Simhash的效果就比较差了。

Simhash本身就是Google用于对海量网页去重的算法,在去重这方面,Simhash的效果还是很赞的,适合查找大段文本相似的文章,但是对仅仅是同样涉及某一个或几个概念,而非大段内容相似的文章来说,效果并不好。在关键词少、文章内容短的情况下,Simhash也不能达到很好的效果。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/187254.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • ubuntu 强制删除文件夹[通俗易懂]

    ubuntu 强制删除文件夹[通俗易懂]sudorm文件夹的名称-rf输入Ubuntu的密码

    2022年6月12日
    30
  • 虚拟机与宿主机网络配置——可互通可上网「建议收藏」

    虚拟机与宿主机网络配置——可互通可上网「建议收藏」     为了学习和使用Linux,多数人选择了使用虚拟机的方式来安装Linux系统。这样我们就可以在windows系统中安装Linux系统了,其中windows机器系统本身我们称作宿主机,安装的虚拟机系统我们简称虚拟机。     由于虚拟机提供的几种网络方式,要么是虚拟机可以ping通宿主机反之不行,要么是虚拟机之间可以互通但宿主机不能访问虚拟机,所以在实际应用中多数被两者间的网络互通和是否…

    2022年8月20日
    15
  • 多进程多线程的区别_多进程和多线程效率

    多进程多线程的区别_多进程和多线程效率前一篇文章介绍了单任务的HTTP服务器,那么如何实现多任务的呢,本篇文章将实现HTTP服务的并发处理,分别从多进程,多线程,协程的方法来实现,代码有点多,引入了3个文件,重复度有点高,读者只看关键部分,就好了,主要是服务端的数据收发阶段。测试方法:将html文件方法和代码同路径下,运行代码,在浏览器中输入IP:端口/XX.html即可看到成功解析html文件(这里不讨论html中的内容,只需明白实现思路即可)如图:****1. 多进程实现HTTP服务器的并发import socketimport

    2022年8月8日
    7
  • 初识 GTK

    初识 GTKGTK+是一种函数库是用来帮助制作图形交互界面的。整个函数库都是由C语言来编写的。GTK+函数库通常也叫做GIMP工具包。

    2025年5月24日
    1
  • php 中instanceof的使用

    php 中instanceof的使用

    2021年11月8日
    43
  • VLAN技术_vlan的基本概念、作用和实现原理

    VLAN技术_vlan的基本概念、作用和实现原理本文首次发布于MlinBlog、简书、CSDN,作者@木林(Mlin),转载请保留原文链接。前言正文一、VLAN基本概念1VLAN概述2VLAN帧格式3VLAN链路类型4PVID5VLAN端口类型5.1Access端口5.2Trunk端口5.3Hybrid端口6VLAN划分6.1VLAN划分方法6.2VLAN划分匹配优先级…

    2022年8月10日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号