布隆过滤器 原理及优缺点分析_布隆过滤器误判怎么办

布隆过滤器 原理及优缺点分析_布隆过滤器误判怎么办用于检索一个元素是否在集合中,其空间和时间上及其优秀!

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

布隆过滤器

今天我们来聊一聊布隆过滤器,了解他之前,我们先看一看是干什么用的

img

百度百科解释他可以判断一个元素是否在集合中,后面还说了他的效率呀什么的都很好,那既然如此,我们再想象一下为什么需要它!

img

针对上述问题,如果我们直接任由请求访问数据库,问题1、2 还行,如果是问题3,那数据库大抵要说栓Q了。既然如此,我们结合刚刚看到的 布隆过滤器 正好是用来判断一个元素是否存在集合中。而且它的优点就是 空间效率、查询时间都比别人要好的多。那不得看看他到底是咋好的撒。

别急!先骗一波关注!骗不到也没事,咱也不小心眼,接着往下说;

img

如何实现高效率的判断一个元素在不在集合中呢!有的小伙伴立刻就联想到了 List.contains() 方法。如果光靠这个方法,在数据量较大的情况,还是会存在效率问题

img

根据源码我们可以看到他是挨个遍历的,意味每次都要遍历全量的集合。那既然每次都要遍历整个集合,那有什么办法呢?

把集合长度变短!对!布隆过滤器就是这样干的,那元素怎么放呢?

我们可以把任意一个需要比较的元素,通过函数,生成2个或3个甚至更多个整数。道理大致和 hash 差不多,只不过这里是生成多个整数

我们假如二进制向量的长度为9,散列函数的个数为3的布隆过滤器,针对元素X,三个不同的散列函数分别生成的哈希值为1,4,8。则上图转变为:

img

同理,我们再存一个元素Y,如果散列函数返回 4,6,9 的话,图变为:

img

假设,我们要判断元素Z,此时通过计算哈希返回 1,4,5 的话,发现其中 5 为 0,就可以判断 元素 Z 不存在此容器中。

由此我们可以客观的判断出其优缺点:

优点:

  1. 空间占用极小,因为本身不存储数据而是用比特位表示数据是否存在,某种程度有保密的效果。
  2. 插入与查询时间复杂度均为 O(k),常数级别,k 表示散列函数执行次数
  3. 散列函数之间可以相互独立,可以在硬件指令层加速计算。

缺点:

  1. 误差(假存在性)
  2. 无法删除

布隆过滤器可以 100% 的判断元素不在集合中,但是当集合元素非常多都为1时,此时散列函数凑巧又生成了存在的值,就可以判断为 假性存在(假阳性)

如何解决误差问题

在创建布隆过滤器时我们为了找到合适的 m 和 k ,可以根据预期元素数量 n 与 ε 来推导出最合适的 m 与 k

  • 位数组长度 m
  • 散列函数个数 k
  • 预期元素数量 n
  • 期望误差 ε

img

img

算法实现:

// 计算哈希次数
@VisibleForTesting
static int optimalNumOfHashFunctions(long n, long m) {
    // (m / n) * log(2), but avoid truncation due to division!
    return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
}
 
// 计算位数组长度
@VisibleForTesting
static long optimalNumOfBits(long n, double p) {
    if (p == 0) {
        p = Double.MIN_VALUE;
    }
    return (long) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
}

这样我们就可以科学的确定数组长度、散列个数。

我们来看下一个问题

无法删除!

布隆过滤器判断一个元素存在就是判断对应位置是否为1来确定的,但是如果要删除掉一个元素是不能直接把1改成0的,因为这个位置可能存在其它元素,所以如果要支持删除,那我们应该怎么做呢?

最简单的做法就是加一个计数器,就是说位数组的每个位如果不存在就是0,存在几个元素就存具体的数字,而不仅仅只是存1。那么这就有一个问题,本来存1就是一位就可以满足了,但是如果要存具体的数字比如说2,那就需要2位了,所以带有计数器的布隆过滤器会占用更大的空间

参考资料:

布隆过滤器如何删除

布隆过滤器原理实现

百度百科

最后给点个关注吧 img

关注 『Xiang想』公众号

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/185062.html原文链接:https://javaforall.net

(0)
上一篇 2022年10月7日 上午8:36
下一篇 2022年10月7日 上午8:36


相关推荐

  • Android程序员接私活完整攻略「建议收藏」

    Android程序员接私活完整攻略「建议收藏」接私活对程序员这个圈子来说是一个既公开又隐私的话题,不说全部,应该大多数程序员都有过想要接私活的想法,当然,也有部分得道成仙的不主张接私活。但是很少有人在公开场合讨论私活的问题,似乎都在避嫌。就跟有人下班后跑滴滴一样,程序员私有时间接点活挣点钱不也很正常么,不过不要在上班时间就行,就跟你上班期间出去跑滴滴一样。当你竭尽全力想要去接私活的时候一定做过这样的事,百度搜索“程序员如何接私活”或者…

    2022年6月14日
    160
  • RPM安装篇

    RPM安装篇从一般意义上说,软件包的安装其实是文件的拷贝,RPM安装软件包,也无外乎此。但RPM要更进一步、更聪明一些就需要多做些工作了。聪明的安装从一般意义上说,软件包的安装其实是文件的拷贝,即把软件所用的各个文件拷贝到特定目录。RPM安装软件包,无外乎此。但RPM要更进一步,更聪明一些。在安装前,它通常要执行以下操作:1.检查软件包的依赖(Dependency)RPM格式的软件包中可

    2022年5月6日
    45
  • mysql中exists的用法详解[通俗易懂]

    mysql中exists的用法详解[通俗易懂]前言在日常开发中,用mysql进行查询的时候,有一个比较少见的关键词exists,我们今天来学习了解一下这个exists这个sql关键词的用法,这样在工作中遇到一些特定的业务场景就可以有更加多样化的解决方案语法解释语法SELECTcolumn1FROMt1WHERE[conditions]andEXISTS(SELECT*FROMt2);说明括号中的子查询并不会返回具体的查询到的数据,只是会返回true或者false,如果外层sql的字段在子查询中存在则返回true,

    2025年8月12日
    4
  • 阿里云域名绑定IP手把手教学

    阿里云域名绑定IP手把手教学文章目录前提步骤 1 进入云解析 DNS2 解析 3 验证高级使用二级域名前提登录的阿里云账户下 需要拥有一个阿里云域和一台 ECS 服务器 什么是云解析 DNS 云解析 DNS AlibabaCloud 是一种安全 快速 稳定 可扩展的权威 DNS 服务 云解析 DNS 为企业和开发者将易于管理识别的域名转换为计算机用于互连通信的数字 IP 地址 从而将用户的访问路由到相应的网站或应用服务器 com net cn xin top xyz vip club shop wang ren 等域名

    2026年3月18日
    2
  • 制作QQ微信支付宝三合一收款码

    制作QQ微信支付宝三合一收款码

    2021年11月5日
    62

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号