simhash是什么_批复的适用情况

simhash是什么_批复的适用情况需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。

首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。

由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些哈希值比较文档的相似度。这几万篇文档的效果还不错,然而换了一批文档之后,发现Simhash的效果还是比较糟糕的。

一开始的几万篇文档是从各个网站爬取的新闻语料,由于各网站新闻存在重复现象(比如只有标题有些区别,内容基本是一样的。。),所以文档集合中也存在基本雷同的新闻,在这种情况下,Simhash的效果很好,能识别出这些文档,算出来的相似度也很高。

然而后来有一个新的文档集合,只有几百篇文档,并且是人工构造的,语料比较干净,所以基本不会出现大段内容重复的情况,在这种情况下Simhash的效果就比较差了。

Simhash本身就是Google用于对海量网页去重的算法,在去重这方面,Simhash的效果还是很赞的,适合查找大段文本相似的文章,但是对仅仅是同样涉及某一个或几个概念,而非大段内容相似的文章来说,效果并不好。在关键词少、文章内容短的情况下,Simhash也不能达到很好的效果。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/187254.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 转 【TTS】AIX平台数据库迁移到Linux–基于RMAN(真实环境)

    转 【TTS】AIX平台数据库迁移到Linux–基于RMAN(真实环境)

    2022年3月2日
    42
  • 关于AssetBundle

    关于AssetBundle前阵子研究了一下Untiy的AssetBundle,把相关的一些知识点整理跟大家分享一下。1、什么是AssetBundleAssetBundle是Unitypro提供的一种用来存储资源的文件格式,它可以存储任意一种Unity引擎能够识别的资源,如Scene、Mesh、Material、Texture、Audio、noxss等等,同时,AssetBundle也可以包含开

    2022年6月29日
    40
  • vue 如何关闭 eslint 检查

    vue 如何关闭 eslint 检查在实际开发过程中,eslint的作用不可估量,诸如:1.审查代码是否符合编码规范和统一的代码风格;2.审查代码是否存在语法错误;But,对于初学者来说,这个功能极其不友好,各种问题层出不穷,让很多初学者头疼不已,我们有没有办法关掉它,等适当时机在启用它呢,答案是肯定的。不同vuecli版本创建工程的时候,稍微有些差别,要仔细甄别,我的vuecliv4.5.9方案一:vue脚手架创建工程的时候,不要选择Linter/Formatter选项,(那如何选择启用,请参照方案二)

    2022年5月20日
    56
  • 深入理解Batchnorm

    深入理解Batchnorm这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下BatchNormalization的原理,以下为参考网上几篇文章总结得出。  BatchNormalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Train开…

    2022年6月9日
    29
  • Redis集群详解

    Redis集群详解Redis集群详解Redis有三种集群模式,分别是:*主从模式*Sentinel模式*Cluster模式三种集群模式各有特点,关于Redis介绍可以参考这里:NoSQL(二)——RedisRedis官网:https://redis.io/,最新版本5.0.4主从模式主从模式介绍主从模式是三种模式中最简单的,在主从复制中,数据库分为两类:主数据库(master)和从…

    2022年6月13日
    25
  • a53a55处理器性能区别(a55和a53cpu参数)

    为了完善自家的5G产品线,近期OPPO推出了多款千元机,其中就有不少A系列的5G千元产品。而OPPOA55就是oppo新推出的一款千元5G新品。那么这款OPPOA55和A53的区别有哪些呢?下面,我们就通过OPPOA55和A53参数对比,来告诉大家哪款更值得入手。OPPOA55和A53的区别有哪些?先来看看外观方面,OPPOA55采用了一块6.5英寸LCD屏幕,水滴屏设计,分辨率为1600×7…

    2022年4月13日
    1.2K

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号