Doris Routine Load故障恢复与Exactly-Once语义保证

Question

Doris Routine Load如何保证从Kafka消费数据的Exactly-Once语义？请解释Routine Load的Offset管理机制（FE持久化Offset→BE消费→Checkpoint提交）、故障恢复流程（BE宕机/网络超时/Kafka重平衡时的处理策略）、以及如何通过Label机制保证数据不重不...

编译有声 · Accepted Answer

Doris Routine Load Exactly-Once机制： 1. Offset管理流程： FE：持久化Routine Load任务的元数据（Kafka Broker/Partition/Offset） ↓ 分配Task BE：从指定Offset消费Kafka数据 ↓ 批量写入Doris BE：写入成功后，向FE汇报最新Offset（类似Checkpoint） ↓ FE：持久化Offset到元数据（MySQL/EditLog） ↓ FE：向Kafka Broker提交Offset（可选） 2. Label机制去重： 每个导入批次（Batch）生成唯一Label Label格式：{routine_load_name}_{task_id}_{batch_index} Doris记录已成功导入的Label 重复Label自动忽略（幂等写入） 3. 故障恢复场景： 故障类型恢复策略 BE宕机FE将Task分配到其他BE，从上次Checkpoint的Offset重新消费 FE宕机选举新的FE Leader，从元数据恢复所有Routine Load任务 Kafka重平衡Routine L...

故障类型	恢复策略
BE宕机	FE将Task分配到其他BE，从上次Checkpoint的Offset重新消费
FE宕机	选举新的FE Leader，从元数据恢复所有Routine Load任务
Kafka重平衡	Routine Load自动检测Partition变更，重新分配消费
网络超时	自动重试（`max_batch_interval`超限后暂停，可手动恢复）
数据写入失败	该批次标记为ERROR，不影响后续批次，通过`max_error_number`控制

Doris Routine Load故障恢复与Exactly-Once语义保证

回答

编译有声