go 布隆过滤器_布隆过滤器 redis

go 布隆过滤器_布隆过滤器 redis最近面临这样的场景:2亿+数据需要调用后端服务A,业务需要1min处理完成,那么A服务承载的tps达到惊人的300w……必须想办法降低tps。那么方案来了:1、把时间窗口拉长2、降低待处理数据量。拉长时间业务肯定是接受不了的,但是按照以往的经验,这部分数据并不全部需要处理,可能仅有一半真正需要调用A服务,所以我们可以把1亿数据给过滤掉。这里我们维护一个布隆过滤器来进行数据的过滤。—————-以上都是导语—————-1.布隆过滤器的概

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

最近面临这样的场景:

2亿+数据需要调用后端服务A,业务需要1min处理完成,那么A服务承载的tps达到惊人的300w……必须想办法降低tps。

那么方案来了:1、把时间窗口拉长 2、降低待处理数据量。

拉长时间业务肯定是接受不了的,但是按照以往的经验,这部分数据并不全部需要处理,可能仅有一半真正需要调用A服务,所以我们可以把1亿数据给过滤掉。

这里我们维护一个布隆过滤器来进行数据的过滤。

1. 布隆过滤器的概念(百科)

布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。

2. 布隆过滤器应用场景

deny list

数据判重

预过滤

3. 原理

核心是一个长度为m的bit array和k个hash方法。

如下图,我们将一个newsid通过3个hash方法映射到长为8的数组上。

判断newsid是否存在,则看数组中3个位置是否都取到1:全为1,newsid可能存在于集合中;不全为1,newsid一定不存在于集合中。

 

go 布隆过滤器_布隆过滤器 redis

4. 特性

容易发现,布隆过滤器存在假阳性的情况,即将不在集合中的元素误判为在集合中。过滤器中的元素个数越多,假阳性的可能性越大。

同时,元素可以被加入过滤器,但很难从过滤器中删除(有可能删除的当前元素与其他元素共享了某一个bit,造成假阴性)。

根据假阳性率计算公式:

go 布隆过滤器_布隆过滤器 redis

 

可知在哈希函数的个数k一定的情况下:

  • 位数组长度m越大,假阳性率越低;
  • 已插入元素的个数n越大,假阳性率越高。

5. 上代码

// CalBloomSize 计算布隆过滤器位图大小
// elemNum 元素个数
// errorRate 误判率
func CalBloomSize(elemNum uint64, errRate float64) uint64 {
   var bloomBitsSize = float64(elemNum) * math.Log(errRate) / (math.Log(2) * math.Log(2)) * (-1)
   return uint64(math.Ceil(bloomBitsSize))
}

// CalHashFuncNum 计算需要的哈希函数数量
// elemNum 元素个数
// bloomSize 布隆过滤器位图大小
func CalHashFuncNum(elemNum, bloomSize uint64) uint64 {
   var k = math.Log(2) * float64(bloomSize) / float64(elemNum)
   return uint64(math.Ceil(k))
}

// Filter
type Filter struct {
   ElemNum     uint64
   BloomSize   uint64 
   HashFuncNum uint64
   ErrRate     float64

   bitMap *bitset.BitSet
   keys   map[uint32]bool
}

// NewFilter NewFilter
func NewFilter(elemNum, bloomSize, hashFuncNum uint64, errRate float64) *Filter {
   return &Filter{ElemNum: elemNum, BloomSize: bloomSize, HashFuncNum: hashFuncNum, ErrRate: errRate}
}

// Init 初始化布隆过滤器
func (f *Filter) Init() {
   // 分配布隆过滤器位图
   f.bitMap = bitset.New(uint(f.BloomSize))
   // 初始化哈希函数
   // 是否是类似HMAC-SHA256那种通过改变passphase值形成不同的哈希函数
   f.keys = make(map[uint32]bool)
   for uint64(len(f.keys)) < f.HashFuncNum {
      randNum, err := rand.Int(rand.Reader, new(big.Int).SetUint64(math.MaxUint32))
      if err != nil {
         panic(err)
      }
      f.keys[uint32(randNum.Uint64())] = true
   }
}

// Add  Add
func (f *Filter) Add(elem []byte) {
   var buf [4]byte
   for k := range f.keys {
      binary.LittleEndian.PutUint32(buf[:], k)
      hashResult := new(big.Int).SetBytes(HMACWithSHA128(elem, buf[:]))
      result := hashResult.Mod(hashResult, big.NewInt(int64(f.BloomSize)))
      // 把result对应的bit置1
      f.bitMap.Set(uint(result.Uint64()))
   }
}

// IsContain 判断元素是否在集合里面
func (f *Filter) IsContain(elem []byte) bool {
   var buf [4]byte
   for k := range f.keys {
      binary.LittleEndian.PutUint32(buf[:], k)
      hashResult := new(big.Int).SetBytes(HMACWithSHA128(elem, buf[:]))
      result := hashResult.Mod(hashResult, big.NewInt(int64(f.BloomSize)))
      // 查询result对应的bit是否被置1
      if !f.bitMap.Test(uint(result.Uint64())) {
         return false
      }
   }
   return true
}

// HMACWithSHA128 通过加盐生成不同的hash值
func HMACWithSHA128(seed []byte, key []byte) []byte {
   hmac512 := hmac.New(sha1.New, key)
   hmac512.Write(seed)
   return hmac512.Sum(nil)
}

测试:2亿长16B的元素,失误率0.0001,分配到过滤器需要0.4G,如果放hash表,则需要3.2G

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/185284.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • teleport怎么用_telelist怎么用

    teleport怎么用_telelist怎么用teleport使用说明浏览器下载网页:只能浏览主页和少数网页,其它不能浏览,容量几百kbteleport下载项目一能完全离线看网页,7328多文件9个JPG文件,大小134Mteleport下载项目二部分网页采集内容和项目一基本一致,但大几兆部分网页需要项目二(复制站点)才能浏览,项目一看不到图片项目二比项目一耗时多,但要全面视频教程https…

    2022年9月8日
    4
  • mysql一主多从 读写分离_MySQL主从复制原理

    mysql一主多从 读写分离_MySQL主从复制原理文章目录前言一、基本概念1.读写分离(1)什么是读写分离(2)为什么要读写分离(3)什么时候要读写分离(4)主从复制与读写分离2.MySQL主从复制(1)mysql支持的复制类型(2)主从复制的工作过程(3)mysql主从复制高延迟的原因(4)mysql主从复制高延迟的解决办法3.常见的MySQL读写分离方式(1)基于程序代码内部实现(2)基于中间代理层实现二、MySQL主从复制架构搭建1.服务器配置2.实验前准备3.mysql主从服务器时间同步4.主服务器

    2022年8月13日
    5
  • 论SLAM技术发展趋势[通俗易懂]

    论SLAM技术发展趋势[通俗易懂]2018年7月底,深蓝学院发起并承办了“第一届全国SLAM技术论坛”。浙江大学章国锋老师、香港科技大学沈劭劼老师、上海交通大学邹丹平老师、中科院自动化所申抒含老师在“圆桌论坛:SLAM技术发展趋势”上分享了SLAM技术的趋势,现将内容整理公布,希望更多SLAMer受益。章国锋:由于我的研究方向更偏向于视觉SLAM,所以我会从我的角度来讲一讲SLAM技术的发展趋势。首先,我认为无论是视觉…

    2022年10月1日
    4
  • sql嵌套查询和连接查询_sql子查询嵌套规则

    sql嵌套查询和连接查询_sql子查询嵌套规则嵌套查询单值嵌套查询值返回结果是一个值的嵌套查询称为单值嵌套查询对Sales数据库,列出市场部的所有员工的编号USESaleGOSELECTemployee_idFROMemployeeWHEREdepartment_id=(SELECTdepartment_idFROMdepartmentWHEREdepartment_name=’市场部’)语句的执行过程分两个过程,首先在部门…

    2022年10月9日
    3
  • Spring加载resource时classpath*:与classpath:的区别

    Spring加载resource时classpath*:与classpath:的区别Spring 可以通过指定 classpath 与 classpath 前缀加路径的方式从 classpath 加载文件 如 bean 的定义文件 classpath 的出现是为了从多个 jar 文件中加载相同的文件 classpath 只能加载找到的第一个文件 比如 resource1 jar 中的 package com test rs 有一个 jarAppcontex xml 文件 内容如下

    2025年5月21日
    7
  • golang IDEA激活码【最新永久激活】2022.02.09

    (golang IDEA激活码)最近有小伙伴私信我,问我这边有没有免费的intellijIdea的激活码,然后我将全栈君台教程分享给他了。激活成功之后他一直表示感谢,哈哈~https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~4KDD…

    2022年4月1日
    1.1K

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号