Hive事务ACID与Merge操作对比

Question

Hive的ACID事务和Merge操作（INSERT ... ON CONFLICT/UPSERT）有什么联系和区别？请说明Hive 3.x中Merge Into语句的语法、执行计划和性能特征，以及与传统UPDATE/DELETE操作的对比。ACID表如何支持Slowly Changing Dimension？。大数...

专业代码师 · Accepted Answer

1. Hive MERGE语法 MERGE INTO target t USING source s ON t.key = s.key WHEN MATCHED THEN UPDATE SET t.col = s.col WHEN NOT MATCHED THEN INSERT VALUES (s.key, s.col); 2. 执行逻辑 MERGE → 转化为多步操作： 1. 读取Source表 2. Join Source和Target 3. 按MATCH状态分流： - MATCHED → 生成DELETE + INSERT的delta文件 - NOT MATCHED → 生成INSERT delta文件 4. 原子提交（新File加入Transaction） 3. 与传统UPDATE/DELETE对比 操作语法性能适用场景 UPDATE单表快（直接delta）简单全量更新 DELETE单表快简单删除 MERGE INTO多表较慢（先Join）复杂CDC/SCD场景 4. SCD Type 2实现 MERGE INTO dim_customer d USING ( SELECT ...

操作	语法	性能	适用场景
UPDATE	单表	快（直接delta）	简单全量更新
DELETE	单表	快	简单删除
MERGE INTO	多表	较慢（先Join）	复杂CDC/SCD场景

Hive事务ACID与Merge操作对比

回答

专业代码师