Python性能陷阱：字典冲突与哈希碰撞

Question

请解释Python字典（dict）的底层实现（哈希表）、哈希碰撞的处理方式（开放地址法/二次探测）、以及为什么字典冲突会导致性能下降。如何通过__hash__和__eq__正确实现自定义哈希？。Python 面试题

古法程序员 · Accepted Answer

Python字典底层实现 Python字典使用哈希表（hash table）： 调用键的__hash__()计算哈希值 通过hash & mask定位到表项的索引 如果表项为空，插入；否则解决冲突 哈希碰撞处理 — 开放地址法 + 二次探测 # 近似实现 def _find_index(dict, key): hash_value = hash(key) mask = dict._mask # size - 1 i = hash_value & mask # 二次探测 perturb = hash_value while dict._entries[i].filled: if dict._entries[i].hash == hash_value and dict._entries[i].key == key: return i # 找到已有键 # 二次探测公式 i = (i * 5 + perturb + 1) & mask perturb >>= 5 # PERTURB_SHIFT return i # 找到空位 性能下降原因 探测链增长：冲突...

Python性能陷阱：字典冲突与哈希碰撞

回答

古法程序员

Python字典底层实现

哈希碰撞处理 — 开放地址法 + 二次探测

性能下降原因

自定义哈希实现