HBase行键设计原则与模式

Question

请说明HBase行键（RowKey）设计的最佳实践和常见设计模式，包括时间序列、倒序、散列等场景下如何避免热点。。大数据 面试题。阿里巴巴 面试题

我是大山 · Accepted Answer

RowKey设计原则： 长度原则：RowKey越短越好（理想8~16字节），HBase存储和索引都基于RowKey 散列原则：避免单调递增导致Region热点 唯一原则：RowKey全局唯一 关系型：相关数据放在相邻RowKey 常见设计模式： 1. 时间序列/日志场景（热点问题）： 问题： 使用时间戳作为前缀（如20250525_uid），所有新数据写入同一个Region 解决： // 加盐（Salting）：(hash(uid) % N) + timestamp + uid // 倒序时间戳：Long.MAX_VALUE - timestamp + uid // 组合键：uid + timestamp（用户维度前缀，均匀分布） 2. 倒序时间戳（最新数据优先）： // 普通：ts（20250525）→最新不在末尾 // 倒序：Long.MAX_VALUE - ts →最新数据在RowKey开头 RowKey = userId + ":" + (Long.MAX_VALUE - timestamp) 3. 散列/加盐（Salting）： // 为RowKey加随机前缀 salt =...

HBase行键设计原则与模式

回答

我是大山