布隆过滤器原理简介视频_布隆过滤器误判怎么办

布隆过滤器原理简介视频_布隆过滤器误判怎么办目录1.布隆过滤器简介2.布隆过滤器的实现思路3.布隆过滤器的公式4.实际应用场景1.布隆过滤器简介布隆过滤器(BloomFilter)是由一个很长的bit数组和一系列哈希函数组成的。本质上是一种数据结构,比较巧妙的概率型数据结构。它的特点是高效地插入和查询,并且根据查询结果可以知道某样东西一定不存在或者可能存在。相比于传统的List、Set、Map等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的,同时布隆过滤器还有一个缺陷就是数据只..

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

目录

 

1.布隆过滤器简介

2. 布隆过滤器的实现思路

3.布隆过滤器的公式

4.实际应用场景 


1.布隆过滤器简介

布隆过滤器(Bloom Filter)是由一个很长的bit数组和一系列哈希函数组成的。本质上是一种数据结构,比较巧妙的概率型数据结构。它的特点是高效地插入和查询,并且根据查询结果可以知道某样东西一定不存在或者可能存在相比于传统的 List、Set、Map 等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的,同时布隆过滤器还有一个缺陷就是数据只能插入不能删除

2. 布隆过滤器的实现思路

①设数据集合A={a1,a2,a3,…,an},含有n个元素作为待操作的集合;

②Bloom Filter用一个长度为m的位向量V表示集合中的元素,位向量初始值全为0;

③k个具有均匀分布特性的散列函数h1,h2,…,hk;

④对于要加入的元素,首先经过k个散列函数%m,产生k个随机数h1,h2,…,hk,使向量V的相应位置h1,h2,…,hk均

置位为1。集合中其他元素也通过类似的操作,将向量V的若干位置为1;

⑤对于新要加入的元素的检查,首先将该元素经过上步中类似的操作,获取k个随机数h1,h2,…,hk,然后查看向量V

的相应位置h1,h2,…,hk上的值,若全为1,则该元素已经在之前的集合中;若至少有一个0存在,表明此元素不在之前

的集合中,为新元素。

特点:

对于已经在集合中的元素,通过⑤中的查找方法,一定可以判定该元素在集合中;对于不在集合中的元素,可能会被误判

在集合中。

3.布隆过滤器的公式

布隆过滤器的大小m公式,其中n为样本个数,p为误判率:

布隆过滤器原理简介视频_布隆过滤器误判怎么办

哈希函数的个数k公式:

布隆过滤器原理简介视频_布隆过滤器误判怎么办

 布隆过滤器真实失误率p公式:

布隆过滤器原理简介视频_布隆过滤器误判怎么办

4.实际应用场景 

背景现在有个100亿个黑名单网页数据,每个网页的URL占用64字节。现在想要实现一种网页过滤系统,可以根据网页的URL判断该网站是否在黑名单上,请设计该系统。

需求可以允许有0.01%以下的判断失误率,并且使用的总空间不要超过200G。

提取关键信息100亿条黑名单数据每条数据占64个字节,万分之一的失误率总空间不要超过200G

分析:如果不考虑不布隆过滤器,那么这里存储100亿条数据就需要 100亿 * 64字节 = 596G 显然超过300G

解题在满足有 100亿条数据 并且允许 万分之一的失误率 的布隆过滤器需要多大的bit数组呢?

  • 设bit数组大小为m,样本数量为n,失误率为p。
  • 由题可知 n = 100亿,p = 0.01%
  • 根据布隆过滤器的大小m公式,求得 m = 19.19n,向上取整为 20n。所以2000亿bit,约为186G。
  • 根据哈希函数的个数k公式,求得 k = 14,即需要14个哈希函数。
  • 通过 上述计算得到的 m = 20n, k = 14 ,根据布隆过滤器真实失误率p公式,求得 p = 0.006%。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/185000.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Mysql创建新用户方法

    1.CREATE USER语法:CREATE USER 'username'@'host' IDENTIFIED&#160

    2021年12月27日
    40
  • 计算机维修技术在线阅读,西南大学19秋[0240] 计算机维修技术在线作业

    计算机维修技术在线阅读,西南大学19秋[0240] 计算机维修技术在线作业0240计算机维修技术9A’Op*F2E1.[单选题]评定主板的性能首先要看()。:O$|(q$E’u奥鹏作业答案可以联系QQ761296021+e:|*z)D8i7OA.C.CPU”W”l.}0Z)U$z,J(hB.内存8x&U$e”[0i.zC.主板结构9I/\(k)s:J’G7l/UD.主芯片组!…

    2022年5月30日
    168
  • wpf一定比winform好吗_winform转wpf好转吗

    wpf一定比winform好吗_winform转wpf好转吗1、结果来说,属于两套界面渲染方式。一个是对传统windows界面元素的封装,通过gdi绘制。另一个是全新的dx渲染绘制的界面,也脱离了对传统windows控件的依赖,没有历史包袱,理论上可以展现更炫酷的界面。对初级开发人员来说,没太大区别,类似的基本设计器是他们设计界面的主要手段,一样给事件编写代码。对初级以上开发人员来说,wpf需要学习xaml,有全新的ui描述语言,特别是可以通过模板的嵌套…

    2025年7月27日
    3
  • SQL 报错注入详解[通俗易懂]

    SQL 报错注入详解[通俗易懂]一、报错注入详解近期学习SQL报错注入,本篇文章为关于报错注入的一些个人理解,如有错误,希望指出本文使用sqli-labs数据库作为示例1、十种MySQL报错注入:报错注入方式有很多,其中比较常见的有floor()、extractvalue()、updatexml()三种,本篇文章主要对这三种进行分析,其他的请参考文章:十种MySQL报错注入2、floor()2.1、payload分析先贴上一个常见的payload再进行分析(sqli-labsLess-5)’

    2022年9月30日
    7
  • Java多线程:线程死锁

    Java多线程:线程死锁

    2021年11月16日
    42
  • java怎么测试_java中如何使用Junit测试[通俗易懂]

    java怎么测试_java中如何使用Junit测试[通俗易懂]java中如何使用Junit测试一、总结一句话总结:a、单元测试的测试代码在test文件夹下,和源码不在同一个文件夹下b、测试的类方法都以test开头,后面接要测试的类或者方法的名字1、JUnit中什么时候使用assertTrue,assertFalse语句?true通过false通过assertTrue(booleancondition);condition:如果condition结果为t…

    2022年7月8日
    20

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号