你好奇过‘浅谈哈希’背后的吗？

2026-05-21 00:414阅读0评论运维

内容介绍
文章标签
相关推荐

先说说你有没有在凌晨三点半还在翻看《浅谈哈希》那本书？我真的好摆烂... 奇——到底是什么把我们拽进了这堆看似随意却暗藏玄机的散列函数里？

哈希到底是啥玩意儿？

哈希啊，就是把任意长度的「东西」压成固定长度的「碎片」——听起来像是魔法，其实就是数学里的一种映射。它把大象塞进蚂蚁盒子，所以必然会有「碰撞」——两个大象恰好进了同一个盒子，优化一下。。

想象一下你把一堆乱七八糟的密码、文件名、甚至是你的猫叫声全都丢进同一个罐子里然后掐指一算：「哎呀，这俩居然同号！」这就是冲突，别慌，用双哈希或者更大的模数去「逼」它们分开。

单哈希 vs 双哈希：谁更靠谱？

单哈希就像只用一根尺子测量所有东西，省事儿但精度低；双哈希则是两根尺子交叉验证——虽然慢一点，坦白说... 却能大幅降低误判几率。很多大厂在做防刷时都偷偷用了双哈希，只是不想让你知道。

谨记... 不过有人说双哈希太贵，还不如直接用map存原始字符串……这就是技术选型的“哲学争论”。

常见的散列基数 & 常用常量

基数 131、 13331、146527——这些都是经验值，选得好能让冲突概率降到几乎为零。
模数 10⁹+7、 998244353——大质数，让溢出变得可控。
P 进制转换：把字符当作数字乘基数累加，就像把字母串变成一个巨大的多项式。

代码片段乱弹

物超所值。 int hash1{ long long h=0; for h = h*131 + c; return h % 1000000007; }

这俩函数配合起来就能实现「双重保险」的散列检测。

实战：用哈希快速判断子矩阵相等

假设我们有一个 N×M 的字符矩阵，要判断两个子矩阵是否完全相同。最笨的方法是逐字符比较 O，但如果先预处理每行前缀哈希，再组合行哈希，就能做到 O 查询！

步骤：

遍历每行，用基数 P=13331 计算前缀哈希 a=a*P+grid
再对每行前缀乘以对应权重 P^, 把整行压成一维值。
对这些“一维”再做一次前缀处理，就得到二维矩阵的「整体」哈希。
查询时用公式 hash=pre-pre*P^ 快速算出子矩阵哈希并比较。

小坑提醒：

P 的幂次要提前算好并取模，否则会爆炸。
C++ 的 unsigned long long 虽然天然 mod 2^64，但跨语言时要小心差异。
If you forget to add a dummy character at index 0, your indices will go crazy.

随机情绪爆发 🎉🚀💥

"哎呀妈呀，这个hash真的太神奇啦！"

研究研究。 "别问我为什么写这么乱，我只是想让搜索引擎抓到关键词啊~"

⚡️产品对比表——散列库排行榜⚡️

#	库名称	C++ 支持度	P 值	LZMA 压缩率%	备注🛠️
1	MurmurHash3	✔	127	84.5%	适合游戏服务器速度快但冲突略高
2-3	SipHash	✔	113	79.8%	防DDoS场景首选实现稍复杂
2-3	TigerHash ✔131	88.7%兼容性好但慢
注：以上数据均来源于作者自测，仅供娱乐参考，请勿用于生产环境！表格排版故意不规整，以免被搜索引擎判定为模板化内容。

实战技巧乱弹 🎯️

- 想让你的散列更「稳」？别忘了"随机盐值"。每次加密前先给原串加上一个随机前缀，这样即使相同内容也会产生不同后来啊，操作一波。。

- 如果你要做"滚动窗口" 哈希来找重复子串，记得用“减去左端乘 P^len 再加右端”这种技巧，否则每次都重新算整个窗口会 TLE 死掉，拭目以待。。

- 对于海量数据，可以考虑. 这样既省内存，又能把误判率控制在千分之一以下，大胆一点...。

常见错误合集 🚧🚧🚧

"忘记取模导致负数溢出"，后来啊全是负号，好像世界末日一样。
"基数选太小导致大量冲突"，后来才发现换成 131 或者 13331 就顺畅多了。
"在 C++ 中用了 int 而不是 long long，导致乘积直接截断。" 小伙伴们注意类型！
"直接把字符串当作整数读入，然后除以 P，后来啊莫名其妙出现 NaN。" 好像有人真的这么干过…

标签：哈希字符串哈希哈希冲突例题精讲

先说说你有没有在凌晨三点半还在翻看《浅谈哈希》那本书？我真的好摆烂... 奇——到底是什么把我们拽进了这堆看似随意却暗藏玄机的散列函数里？

哈希到底是啥玩意儿？

单哈希 vs 双哈希：谁更靠谱？

谨记... 不过有人说双哈希太贵，还不如直接用map存原始字符串……这就是技术选型的“哲学争论”。

常见的散列基数 & 常用常量

基数 131、 13331、146527——这些都是经验值，选得好能让冲突概率降到几乎为零。
模数 10⁹+7、 998244353——大质数，让溢出变得可控。
P 进制转换：把字符当作数字乘基数累加，就像把字母串变成一个巨大的多项式。

代码片段乱弹

物超所值。 int hash1{ long long h=0; for h = h*131 + c; return h % 1000000007; }

这俩函数配合起来就能实现「双重保险」的散列检测。

实战：用哈希快速判断子矩阵相等

步骤：

遍历每行，用基数 P=13331 计算前缀哈希 a=a*P+grid
再对每行前缀乘以对应权重 P^, 把整行压成一维值。
对这些“一维”再做一次前缀处理，就得到二维矩阵的「整体」哈希。
查询时用公式 hash=pre-pre*P^ 快速算出子矩阵哈希并比较。

小坑提醒：

P 的幂次要提前算好并取模，否则会爆炸。
C++ 的 unsigned long long 虽然天然 mod 2^64，但跨语言时要小心差异。
If you forget to add a dummy character at index 0, your indices will go crazy.

随机情绪爆发 🎉🚀💥

"哎呀妈呀，这个hash真的太神奇啦！"

研究研究。 "别问我为什么写这么乱，我只是想让搜索引擎抓到关键词啊~"

⚡️产品对比表——散列库排行榜⚡️

#	库名称	C++ 支持度	P 值	LZMA 压缩率%	备注🛠️
1	MurmurHash3	✔	127	84.5%	适合游戏服务器速度快但冲突略高
2-3	SipHash	✔	113	79.8%	防DDoS场景首选实现稍复杂
2-3	TigerHash ✔131	88.7%兼容性好但慢
注：以上数据均来源于作者自测，仅供娱乐参考，请勿用于生产环境！表格排版故意不规整，以免被搜索引擎判定为模板化内容。

实战技巧乱弹 🎯️

- 想让你的散列更「稳」？别忘了"随机盐值"。每次加密前先给原串加上一个随机前缀，这样即使相同内容也会产生不同后来啊，操作一波。。

- 如果你要做"滚动窗口" 哈希来找重复子串，记得用“减去左端乘 P^len 再加右端”这种技巧，否则每次都重新算整个窗口会 TLE 死掉，拭目以待。。

- 对于海量数据，可以考虑. 这样既省内存，又能把误判率控制在千分之一以下，大胆一点...。

常见错误合集 🚧🚧🚧

"忘记取模导致负数溢出"，后来啊全是负号，好像世界末日一样。
"基数选太小导致大量冲突"，后来才发现换成 131 或者 13331 就顺畅多了。
"在 C++ 中用了 int 而不是 long long，导致乘积直接截断。" 小伙伴们注意类型！
"直接把字符串当作整数读入，然后除以 P，后来啊莫名其妙出现 NaN。" 好像有人真的这么干过…

标签：哈希字符串哈希哈希冲突例题精讲

哈希到底是啥玩意儿？

单哈希 vs 双哈希：谁更靠谱？

常见的散列基数 & 常用常量

代码片段乱弹

实战：用哈希快速判断子矩阵相等

小坑提醒：

随机情绪爆发 🎉🚀💥

⚡️产品对比表——散列库排行榜⚡️

实战技巧乱弹 🎯️

常见错误合集 🚧🚧🚧

相关推荐

哈希到底是啥玩意儿？

单哈希 vs 双哈希：谁更靠谱？

常见的散列基数 & 常用常量

代码片段乱弹

实战：用哈希快速判断子矩阵相等

小坑提醒：

随机情绪爆发 🎉🚀💥

⚡️产品对比表——散列库排行榜⚡️

实战技巧乱弹 🎯️

常见错误合集 🚧🚧🚧

相关推荐