Delta Lake Vacuum与Deletion Vector的存储回收机制

Question

Delta Lake的VACUUM命令和Deletion Vector（删除向量）如何配合实现高效的存储回收？请解释Deletion Vector的『软删除』机制：标记删除而非立即物理删除，配合VACUUM的物理清理策略（retention duration阈值），以及如何避免误删正在使用的文件。给出一个Delta ...

屠龙少年 · Accepted Answer

Delta Lake Vacuum与Deletion Vector存储回收： 1. Deletion Vector（删除向量）： Delta 2.3+引入的『软删除』机制 当执行DELETE/UPDATE/MERGE时，不在数据文件中真正删除 而是在_delta_log/中记录Deletion Vector：标记哪些行被删除 读取时自动过滤Deletion Vector标记的行 Parquet File [0,1,2,3,4,5,6,7,8,9] → 原始文件 Deletion Vector: [2, 5, 7] → 标记删除行2,5,7 读取结果: [0,1,3,4,6,8,9] → 自动跳过 2. VACUUM物理清理： -- 物理删除7天前未被引用的文件 VACUUM delta.`/path/table` RETAIN 168 HOURS; 删除未被任何Delta Log引用且超过保留期的文件 默认保留期：7天（168小时） VACUUM前确保所有Reader已切换到新的Snapshot 3. 配置示例： -- 设置默认保留期（SparkSession级别） SET spar...

Delta Lake Vacuum与Deletion Vector的存储回收机制

回答

屠龙少年