Kafka日志存储与索引文件结构

Question

请介绍Kafka中Topic日志文件的存储结构。.log文件、.index（偏移量索引）和.timeindex（时间戳索引）是如何配合实现高效的消息查找的？Kafka为什么使用顺序写磁盘来保证高性能？。Java 面试题。腾讯 面试题

编译有声 · Accepted Answer

Kafka日志存储结构： 每个Partition对应一个目录（如topic-0/），目录中包含： .log：消息数据文件（顺序追加写入） .index：偏移量索引文件（稀疏索引） .timeindex：时间戳索引文件 日志分段（LogSegment）： 一个Partition的日志由多个LogSegment组成 每个Segment包含：.log + .index + .timeindex 触发切分条件： 文件大小达到segment.bytes（默认1GB） 时间达到segment.ms（默认7天） 索引文件size达到阈值 索引文件结构： 偏移量索引（.index）： 稀疏索引：不是每条消息都有索引项 每写入约4096字节（log.index.interval.bytes）添加一条索引 索引项：(相对偏移量, 物理位置) 各4字节，每条8字节 查找过程：二分查找.index找到<=目标偏移量的位置，再顺序扫描.log 时间戳索引（.timeindex）： 根据时间戳查找消息偏移量 索引项：(时间戳, 相对偏移量) 各8+4字节 用于按时间戳消费（offsetsForTimes）...

Kafka日志存储与索引文件结构

回答

编译有声