HBase布隆过滤器原理与应用

Question

请解释HBase中布隆过滤器（Bloom Filter）的工作原理、类型（ROW/ROWCOL）以及如何配置和优化。。大数据 面试题。腾讯 面试题

我还是少年 · Accepted Answer

布隆过滤器原理： 一种概率性数据结构，用于快速判断一个元素是否不在集合中： 一个bit数组 + k个哈希函数 插入：将元素通过k个哈希函数映射到bit数组的k个位置，置为1 查询：检查k个位置是否都为1——如果任一为0，则一定不存在；如果全为1，则可能存在（有误判率） HBase中的作用： 加速读取：避免读取实际不包含目标RowKey的HFile 减少IO：过滤掉大量不必要的磁盘扫描 HBase支持的2种模式： 1. ROW（行级）： 每个HFile存储该文件中所有RowKey的布隆过滤器 检查一个RowKey是否在该HFile中 适用：Get查询（点查） 空间开销：约1~2字节/行 2. ROWCOL（行+列级）： 存储<RowKey:Qualifier>组合的布隆过滤器 检查某行某列是否在一个HFile中 适用：Get指定列族和列的场景 空间开销更大（约10~20字节/行） 配置方式： # 建表 create 'mytable', {NAME=>'cf', BLOOMFILTER=>'ROWCOL'} # 或修改 alter 'mytable', {NAM...

HBase布隆过滤器原理与应用

回答

我还是少年