Hive ACID事务实现原理

Question

请详细说明Hive ACID事务的实现原理，包括底层存储格式要求、事务ID分配机制、以及读写冲突如何解决。Hive如何支持INSERT/UPDATE/DELETE操作的原子性和隔离性？。大数据 面试题。字节跳动 面试题

Yahuda · Accepted Answer

Hive ACID事务基于以下核心机制实现： 1. 存储格式要求 必须使用ORC格式，利用其列式存储和索引能力 表需设置为 transactional=true 分桶表（bucketed），桶数建议合理配置 2. 事务ID机制 每个事务分配全局唯一的事务ID（txn_id） 每次写入创建增量文件（delta file），文件名包含： write_id：写入操作ID bucket_id：所属桶 statement_id：语句内编号 增量文件分为INSERT（直接写入base）和UPDATE/DELETE（写入delta） 3. 读写冲突解决 读操作通过 快照隔离（Snapshot Isolation） 实现： 读取时获取当前已提交的事务列表（Snapshot） 只读取txn_id <= 当前快照的delta文件 忽略未提交或大于快照的事务 写操作通过 乐观锁 控制： UPDATE/DELETE先读取目标行，获取其row_id 写入delta文件标记删除/修改 若事务冲突则回滚 4. 合并（Compaction） Major Compaction：将base + delta合并为新...

Hive ACID事务实现原理

回答

Yahuda