murmurhash算法_自我介绍的方式

murmurhash算法_自我介绍的方式加密哈希和非加密哈希-MM是非加密哈希首先了解下加密哈希和非加密哈希,加密哈希函数旨在保证安全性,很难找到碰撞。即:给定的散列h很难找到的消息m;很难找到产生相同的哈希值的消息m1和m2。非加密哈希函数只是试图避免非恶意输入的冲突。作为较弱担保的交换,它们通常更快。如果数据量小,或者不太在意哈希碰撞的频率,甚至可以选择生成哈希值小的哈希算法,占用更小的空间。Smhasher-评价哈希算法的…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

加密哈希和非加密哈希-MM是非加密哈希

首先了解下加密哈希和非加密哈希,

加密哈希函数旨在保证安全性,很难找到碰撞。即:给定的散列h很难找到的消息m;很难找到产生相同的哈希值的消息m1和m2。

非加密哈希函数只是试图避免非恶意输入的冲突。作为较弱担保的交换,它们通常更快。如果数据量小,或者不太在意哈希碰撞的频率,甚至可以选择生成哈希值小的哈希算法,占用更小的空间。

Smhasher-评价哈希算法的函数

评价一个哈希算法的好坏,人们通常会引用 SMHasher 测试集的运行结果。
Smhasher 测试Hash函数的功能,测试包括以下几个方面:

  1. Sanity 是不是可以使用的
  2. Performance 完成一个散列需要多长时间
  3. Differentials 产生相同哈希的概率,可能导致相同的的最小差异
  4. Keysets 分布均匀程度
    一系列的测试方式具体可参考:https://github.com/aappleby/smhasher/wiki/SMHasher

MurmurHash

MurmurHash是一种经过广泛测试且速度很快的非加密哈希函数。它有Austin Appleby于2008年创建,并存在多种变体,名字来自两个基本运算,即multiply和rotate(尽管该算法实际上使用shift和xor而不是rotate)。

MurmurHash3可以产生32位或128位哈希,旧版本MurmurHash2产生32位或64位值,MurmurHash2A变体添加了Merkel-Damgard构造,以便可以逐步调用它。MurmurHash64A针对64位处理器进行了优化,针对32位处理器进行MurmurHash64B优化

MurmurHash2-160生成160位哈希,而MurmurHash1已过时,实现规范的实现是用C++实现的,但是有多种流行语言的有效移植,已被很多开源项目采用。

具有良好的分布性,适用于机器学习用例,例如特征哈希和随机投影,布隆过滤器中也有应用。
MurMurHash3 128 位版本的速度是 MD5 的十倍。MurMurHash3 生成 32 位哈希的用时比生成 128 位哈希的用时要长。原因在于生成 128 位哈希的实现受益于现代处理器的特性。32 位哈希值发生碰撞的可能性就比 128 位的要高得多,当数据量达到十万时,就很有可能发生碰撞。

MM通过了卡方检验和雪崩测试

Avalanche Test(雪崩测试)
这意味着输入的微小变化会导致输出发生显著变化,使其统计上看起来与随机变化没有差别。例如:MurmurHash3(“abd”,123)=454173339;MurmurHash3(“abe”,123)=4085872068

Chi-Squared Test(卡方检验)
均匀性:一般期望设计的哈希函数的哈希值均匀落入哈希空间。将哈希空间 n 等分, 得到 p个 哈希值, 那么平均落入每个哈希子空间的哈希值是 ?_0= p /n, 落入第 i个子空间的哈希值个数是?_? 。统计量 x^2表示?_?到均匀分布的偏离度。哈希函数均匀性可用卡方拟合优度检验来判断。

Murmur Hash3——实现

MurmurHash:名字由两个运算得来 “multiply” “rotate”。
算法的流程如下:
使用模拟退火算法求出了最合适的参数,“c1=0xcc9e2d51” “c2=0x1b873593” “m=0x5” “n=0xe6546b64” “Hash=seed”
在这里插入图片描述
假设MurmurHash3(“abcde”,123)
1.
abcd变成16进制并分别左移(留下e)
0x61→0x61000000 (左移24位)
0x62→0x00620000 (左移16位)
0x63→0x00006300 (左移8位)
0x64→0x00000064
2.
相加,赋值给k
K = 0x61626364
在这里插入图片描述
3.
对k,Hash进行操作。(初始哈希值是一个随机数)。
k=kc1
k=“rotate” k by 15
k=k
c2
Hash=Hash xor k

Hash=“rotate” k by 13
Hash=Hash*m+n
在这里插入图片描述
4.
处理tail(remaining bytes)
先左移后运算···
得到:Hash=Hash xor k
在这里插入图片描述
5.
Hash=Hash xor “block’s length”

Hash=Avalanche(Hash)

Output(Hash)
在这里插入图片描述

Murmur Hash3 or CityHash

CityHash是Google发布的字符串散列算法,和murmurhash一样,属于非加密型hash算法。CityHash算法的开发是受到MurmurHash的启发。优点是大部分步骤包含了至少两步独立的数学运算。缺点是代码较同类流行算法复杂。 Google 希望为速度而不是为了简单而优化,因此没有照顾较短输入的特例 。

使用

https://github.com/hajimes/mmh3
pip install murmurhash3

import mmh3
mmh3.hash(‘foo’) # 32-bit signed int
-156908512

mmh3.hash64(‘foo’) # two 64-bit signed ints (the 128-bit hash sliced in half)
(-2129773440516405919, 9128664383759220103)

mmh3.hash128(‘foo’) # 128-bit signed int
168394135621993849475852668931176482145

mmh3.hash_bytes(‘foo’) # 128-bit value as bytes
‘aE\xf5\x01W\x86q\xe2\x87}\xba+\xe4\x87\xaf~’

mmh3.hash(‘foo’, 42) # uses 42 for its seed
-1322301282

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/183965.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Ubuntu下安装lrzsz「建议收藏」

    Ubuntu下安装lrzsz「建议收藏」Ubuntu安装lrzsz使用阿里云时想要上传文件到服务器,使用Xshell远程上传文件,提示安装lrzsz,所以了解一下lrzsz的安装过程在此记录一下。1、下载lrzsz压缩包#wgethttps://ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz2、解压#tarzxvflrzsz-0.12.20.tar.gz   …

    2022年6月23日
    161
  • 关于性能测试的这点事,干货来袭「建议收藏」

    关于性能测试的这点事,干货来袭

    2022年4月3日
    40
  • C语言面试题汇总(持续更)「建议收藏」

    C语言面试题汇总(持续更)「建议收藏」笔者最近在找工作,因此对应聘C/C++嵌入式开发工程师容易被问到,或者经常搞不清楚的问题做一个汇总,也希望能对找工作的小伙伴起到帮助参考的作用。本篇集中于C语言方面的面试题目。因为是自己总结的,可能会存在错误,还烦请各位读者批评指正。一、变量内存分配1.一个由C/C++编译的程序占用的内存分为以下几个部分:①栈区——局部变量——向低地址生长——自动释放——其操作方式类似于数据结构中的栈。②堆区——向高地址生长——手动分配、释放的存储区——malloc,fr..

    2022年8月28日
    0
  • jbpm工作流 php,jBPM工作流组件

    jbpm工作流 php,jBPM工作流组件jBPM工作流组件如下图所示-1.开始事件它是该过程的起始节点。每个进程只有一个启动节点。此节点仅包含一个没有任何传入连接的传出连接。它具有以下属性:Id:节点的ID,它也应该是独一无二的。Name:节点的名称。2.结束事件它是流程的结束节点。进程可以包含多个End事件。此节点仅包含一个传入连接,不包含传出连接。它具有以下属性:Id:节点的ID,它也应该是独一无二的。Name:节点…

    2022年9月10日
    0
  • 神经网络学习 之 BP神经网络

    神经网络学习 之 BP神经网络上一次我们讲了M-P模型,它实际上就是对单个神经元的一种建模,还不足以模拟人脑神经系统的功能。由这些人工神经元构建出来的网络,才能够具有学习、联想、记忆和模式识别的能力。BP网络就是一种简单的人工神经网络。本文具体来介绍一下一种非常常见的神经网络模型——反向传播(BackPropagation)神经网络。概述BP(BackPropagation)神经网络是1986年由Rumelhart和Mc

    2022年5月24日
    29
  • 简述控制反转ioc_什么是IoC控制反转

    简述控制反转ioc_什么是IoC控制反转静态类的使用是一个有争议的话题,有人甚至提倡不要在类的名称上使用作用域限定符。关于静态特性争论的焦点在于一个被称为IoC控制反转的设计原则。IoC这个设计原则试图在面向对象编程中去掉所有相互依赖的现象。这个原则对于复杂的系统来说是很重要的。它使得对象具有更好的多态性和封装性。相互依赖的现象越少,就越容易单独测试某个组件。静态类与IoC之间的问题在于静态访问特性,这个特性从本质上来说,定义了两个类之…

    2022年6月28日
    18

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号