布隆过滤器原理与大数据应用

Question

请详细解释布隆过滤器（Bloom Filter）的数据结构、数学原理和误判率计算。在大数据场景中，布隆过滤器有哪些典型应用（如HBase Bloom Filter、Hive PPD、RocksDB Bloom Filter）？如何根据数据量和误判率要求确定布隆过滤器的大小？。大数据 面试题。字节跳动 面试题

古法程序员 · Accepted Answer

1. 数据结构 布隆过滤器是一个 m 位的位数组 + k 个哈希函数： 初始化：所有位为0 添加元素x： for i in 0..k-1: bit[hash_i(x) % m] = 1 查询元素y： for i in 0..k-1: if bit[hash_i(y) % m] == 0: return False(一定不存在) return True(可能存在——有误判) 特点： 不存在 一定准确 存在 可能误判（False Positive） 无法删除元素（除非用Counting Bloom Filter） 2. 数学原理 误判率公式： P = (1 - (1 - 1/m)^(kn))^k ≈ (1 - e^(-kn/m))^k 其中： m = 位数组大小 k = 哈希函数个数 n = 元素数量 最优参数： k_opt = (m/n) * ln(2) # 最优哈希函数数量 m = -n * ln(P) / (ln(2))^2 # 给定位数P所需位数组大小 实际：每1亿元素，P=1%时，m≈958MB 3. 大数据应用 HBase Bloom Filter javahbase.hst...

布隆过滤器原理与大数据应用

回答

古法程序员