simhash是什么_批复的适用情况

simhash是什么_批复的适用情况需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。

首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。

由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些哈希值比较文档的相似度。这几万篇文档的效果还不错,然而换了一批文档之后,发现Simhash的效果还是比较糟糕的。

一开始的几万篇文档是从各个网站爬取的新闻语料,由于各网站新闻存在重复现象(比如只有标题有些区别,内容基本是一样的。。),所以文档集合中也存在基本雷同的新闻,在这种情况下,Simhash的效果很好,能识别出这些文档,算出来的相似度也很高。

然而后来有一个新的文档集合,只有几百篇文档,并且是人工构造的,语料比较干净,所以基本不会出现大段内容重复的情况,在这种情况下Simhash的效果就比较差了。

Simhash本身就是Google用于对海量网页去重的算法,在去重这方面,Simhash的效果还是很赞的,适合查找大段文本相似的文章,但是对仅仅是同样涉及某一个或几个概念,而非大段内容相似的文章来说,效果并不好。在关键词少、文章内容短的情况下,Simhash也不能达到很好的效果。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/187254.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 配置Trunk接口

    配置Trunk接口1、Trunk接口1.1什么是TrunkTrunk接口属于干道,主干链路,通常用于交换机和交换机之间,通过一个接口传输多个vlan的数据包。当Trunk端口收到数据帧时,如果该帧不包含802.1

    2022年7月1日
    19
  • Python报错:OSError: cannot open resource

    Python报错:OSError: cannot open resourcePython报错:OSError:cannotopenresource今天借助Python第三方库写了一个简单的生成词云的编程,但在使用wordcloud生成词云过程中,出现了OSError:cannotopenresource错误,通过断点调试并查看了一些网上的解决方法找到了原因:字体属性font_path的设置与系统提供的字体不一致。在本地电脑没有所写的字体,或是字体名称后缀…

    2022年9月4日
    5
  • Sublime Text3 编译运行java程序

    Sublime Text3 编译运行java程序SublimeText3编译运行java程序一、必须的准备工作1.计算机上成功安装好javaJDK,并且设置好环境变量。2.计算机上安装的有SublimeTtext3。二、配置SublimeTtext31.找到SublimeTtext3的安装目录下的“Packages”文件夹2.在“Packages”文件夹中找到Java.sublime-packag…

    2022年7月27日
    13
  • 并发框架disruptor_ringbuffer的常规用法

    并发框架disruptor_ringbuffer的常规用法Disruptor概述子主题1生产者消费组框架子主题2使用子主题11.建Event类(数据对象)2.建立一个生产数据的工厂类,EventFactory,用于生产数据;3.监听事件类(处理Event数据)4.实例化Disruptor,配置参数,绑定事件;5.建存放数据的核心RingBuffer,生产的数据放入RungBuffer。ringbuffer它…

    2022年9月11日
    0
  • Postman报错Unsupported Media Type

    Postman报错Unsupported Media Type报错信息如下:{“timestamp”:”2018-12-06T01:37:11.184+0000″,”status”:415,”error”:”UnsupportedMediaType”,”message”:”Contenttype’text/plain;charset=UTF-8’notsupported”,”path”:”/testgu/ycyzha…

    2022年5月9日
    225
  • linux下批量替换文件内容

    linux下批量替换文件内容1、网络上现成的资料  格式:sed-i"s/查找字段/替换字段/g"`grep查找字段-rl路径`  linuxsed批量替换多个文件中的字符串  sed-

    2022年7月26日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号