Redis布隆过滤器原理及应用场景「建议收藏」

Redis布隆过滤器原理及应用场景「建议收藏」1、布隆过滤器是什么?(判断某个key一定不存在)本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构特点是高效地插入和查询,可以用来告诉你“某样东西一定不存在或者可能存在”。相比于传统的List、Set、Map等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的。使用:1.布隆过滤器在NoSQL数据库领域中应用的非常广泛2….

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

1、布隆过滤器是什么?(判断某个key一定不存在)

  1. 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构

  2. 特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”。

  3. 相比于传统的 List、Set、Map 等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的。

使用:

1. 布隆过滤器在NoSQL数据库领域中应用的非常广泛

2. 当用户来查询某一个row时,可以先通过内存中的布隆过滤器过滤掉大量不存在的row请求,然后去再磁盘进行查询

3. 布隆过滤器说某个值不存在时,那肯定就是不存在,可以显著降低数据库IO请求数量

2、应用场景

1)场景1(给用户推荐新闻)

  1. 当用户看过的新闻,肯定会被过滤掉,对于没有看多的新闻,可能会过滤极少的一部分(误判)。

  2. 这样可以完全保证推送给用户的新闻都是无重复的。

2)场景2(爬虫url去重)

  1. 在爬虫系统中,我们需要对url去重,已经爬取的页面不再爬取

  2. 当url高达几千万时,如果一个集合去装下这些URL地址非常浪费空间

  3. 使用布隆过滤器可以大幅降低去重存储消耗,只不过也会使爬虫系统错过少量页面

3、布隆过滤器原理

  1. 每个布隆过滤器对应到Redis的数据结构是一个大型的数组和几个不一样的无偏hash函数

  2. 如下图:f、g、h就是这样的hash函数(无偏差指让hash映射到数组的位置比较随机)

添加:值到布隆过滤器

  • 1)向布隆过滤器添加key,会使用 f、g、h hash函数对key算出一个整数索引,然后对长度取余

  • 2)每个hash函数都会算出一个不同的位置,把算出的位置都设置成1就完成了布隆过滤器添加过程

查询:布隆过滤器值

  • 1)当查询某个key时,先用hash函数算出一个整数索引,然后对长度取余

  • 2)当你有一个不为1时肯定不存在这个key,当全部都为1时可能有这个key

  • 3)这样内存中的布隆过滤器过滤掉大量不存在的row请求,然后去再磁盘进行查询,减少IO操作

删除:不支持

  • 1)目前我们知道布隆过滤器可以支持 add 和 isExist 操作

  • 2)如何解决这个问题,答案是计数删除,但是计数删除需要存储一个数值,而不是原先的 bit 位,会增大占用的内存大小。

  • 3)增加一个值就是将对应索引槽上存储的值加一,删除则是减一,判断是否存在则是看值是否大于0。

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/188256.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • divmod的使用[通俗易懂]

    divmod的使用[通俗易懂]今天在学习pandas的官方文档时,遇到了divmod这个函数,调用了help(divmod)。pandas返回了一行话如下:divmod(x,y,/)Returnthetuple(x//y,x%y).#即x//y返回的是x除以y以后的整数部分,#x%y返回的是x除以y后的余数部分下面看一下,其在pandas中是如何使用的:>>>s=pd.Series(np.arange(10))>>>s001

    2025年7月22日
    4
  • ora-01006:绑定变量不存在_ora-00001: 违反唯一约束条件

    ora-01006:绑定变量不存在_ora-00001: 违反唯一约束条件java.sql.SQLException:ORA-01008:并非所有变量都已绑定此异常为sql异常,我遇到的时候看java代码如下publicvoidsavegdzcysxx(Gdzcxxgdzcxx){  Stringsql=”insertintogdzcxx(id,zcmc,ggxh)values(SEQ_GDZC_ID.nextVAL,?,?)”;  Mys

    2025年9月27日
    4
  • COLA 4.0:应用架构的最佳实践

    COLA 4.0:应用架构的最佳实践前几天和几个饿了么的同学聊天,一听说他们还在使用COLA1.0,我二话没说,90度鞠躬,赔礼道歉,虚心聆听他们的吐槽。COLA的初衷旨在控制复杂度,救码农于水火,惭愧的是,早期的思想不成熟,设计也多有缺陷,不仅没帮到他们,反而坑了他们,实在抱歉。实际上,我在COLA3.0迭代的时候,已经举起奥卡姆剃刀,砍掉了很多东西。然而还不够,主要体现在对架构的思考还不够透彻。因此,经过仔细反思,有了这一版最新的COLA4.0,期望回归初心,让COLA真正成为应用架构的最佳实践,帮助广大的业务技术同学,脱离酱缸

    2022年5月24日
    52
  • 【源码分析】Kafka分区重分配/迁移(kafka-reassign-partitions.sh)

    【源码分析】Kafka分区重分配/迁移(kafka-reassign-partitions.sh)/***Thiscallbackisinvokedbythereassignedpartitionslistener.Whenanadmincommandinitiatesapartition*reassignment,itcreatesthe/admin/reassign_partitionspaththattriggersthezookeeperlistener.*Reassigningreplicasforapar

    2022年6月26日
    27
  • 怎么设置pycharm环境_怎么设置环境光影响物体

    怎么设置pycharm环境_怎么设置环境光影响物体恍惚大半年过去了,我也大半年没接触Pycharm找个软件了,今天由于项目需要,重新打开恍如一个陌生软件。折腾几分钟也渐渐回忆起那些熟悉的操作,但这几分钟以及在这几分钟前的对于陌生畏惧,以后像尽力避免罢了。我曾在不舍昼夜在Pycharm前敲打代码,似乎也成为了许久的过往,实际只是半年多而已…牢骚结束,言归正传。虚拟环境搭建搭建一个虚拟环境是件十分麻烦的事情,再娴熟的人也要花费个把小时,因为有一大堆包需要下载。点击File—>CreateProject,选择新环境,按照如下目录搭建虚拟环境,不过

    2022年8月27日
    4
  • 请介绍你在互联网上搜索工具软件的方法或经验_大型互联网公司有哪些

    请介绍你在互联网上搜索工具软件的方法或经验_大型互联网公司有哪些播妞的一位朋友,用了将近10年电脑。但他的信息检索能力令人诧异。每次需要找点图片、网站甚至小电影,都需要用很久时间,在各大网站论坛里里疲于奔波。因为他只会用百度和360啊!然而,百度或者google虽然可以提供海量信息,但甄选信息可是一件非常麻烦的事情。如果你想用更垂直更方便的搜索工具,请看下面6个。在一定程度上,它们能帮你摆脱仗势欺人的百度,还能比别人搜到更多资源。基于大家日常上

    2025年10月18日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号