simhash是什么_批复的适用情况

simhash是什么_批复的适用情况需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。

首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。

由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些哈希值比较文档的相似度。这几万篇文档的效果还不错,然而换了一批文档之后,发现Simhash的效果还是比较糟糕的。

一开始的几万篇文档是从各个网站爬取的新闻语料,由于各网站新闻存在重复现象(比如只有标题有些区别,内容基本是一样的。。),所以文档集合中也存在基本雷同的新闻,在这种情况下,Simhash的效果很好,能识别出这些文档,算出来的相似度也很高。

然而后来有一个新的文档集合,只有几百篇文档,并且是人工构造的,语料比较干净,所以基本不会出现大段内容重复的情况,在这种情况下Simhash的效果就比较差了。

Simhash本身就是Google用于对海量网页去重的算法,在去重这方面,Simhash的效果还是很赞的,适合查找大段文本相似的文章,但是对仅仅是同样涉及某一个或几个概念,而非大段内容相似的文章来说,效果并不好。在关键词少、文章内容短的情况下,Simhash也不能达到很好的效果。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/187254.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • “数加”斩获2017软博会金奖

    “数加”斩获2017软博会金奖

    2022年3月4日
    49
  • linux下开放oracle1521端口以便于远程连接

    linux下开放oracle1521端口以便于远程连接   1,利用root账号登录linux,输入命令:serviceiptablesstop(先把oracle防火墙给关闭)。   2.输入命令:vi /etc/sysconfig/iptables,在里面添加如下一行:      -A RH-Firewall-1-INPUT -p tcp -m state –state NEW -m tcp –dport …

    2022年6月3日
    38
  • 用C语言进行Windows编程入门

    用C语言进行Windows编程入门用C语言进行Windows编程入门本文对一般教程或网上有的(如C语言语法等基础)不深入介绍,对初学者易造成疑惑误解或难以找到的内容进行较详尽的介绍。学习C语言很久了,一直面对控制台应用程序(Win32ConsoleApplication),没有漂亮的界面,是不是不爽呀。用C开发图形界面程序,有多种技术方案,本文希望用简单的例子,深入浅出的介绍一种方案——用C和SDK进行图形界面编程。…

    2022年6月18日
    24
  • VM无法与SecureCRTPortable.exe 相连接不上时

    VM无法与SecureCRTPortable.exe 相连接不上时1.IP地址已经配置成功2.打开后打开后连接不上3.点击更改设置还原默认设置4.在重新将子网ip改为192.168.100.05.这样就OK了

    2022年6月5日
    34
  • gtest_gtest测试静态函数

    gtest_gtest测试静态函数GoogleTest在Ubuntu下的安装及编译:安装:sudoapt-getinstalllibgtest-devcd/usr/src/gtestsudocmake.sudomakesudomvlibg*/usr/lib/编译:假设源代码为sample.h和sample.cpp,测试代码为test.cppg++-csample.cppg++-ctest.c

    2022年9月29日
    3
  • android attrs获取_关于Android attrs 自定义属性的说明

    android attrs获取_关于Android attrs 自定义属性的说明写个自定义控件时经常要自定义一些自己的属性,平时用的都是那几个,今天就顺便一起总结一下这个东东吧~一、定义:属性的定义都在attrs.xml文件里面;二、读取:通过都是通过TypedArray去读取的,要获取TypedArray都是通过context.obtainStyledAttributes去获取的,它有几个重载方法,一般形如:TypedArraytypedArray=context….

    2022年10月17日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号