Doris Routine Load持续消费Kafka的实现与参数调优

Question

Doris Routine Load是如何实现从Kafka持续消费数据导入的？请解释Routine Load的工作流程（FE调度/BE执行/Offset管理）、关键参数（desired_concurrent_number/max_batch_interval/max_error_number）的调优方法，以及如何监控...

孤独的心 · Accepted Answer

Doris Routine Load原理与配置： 1. 工作流程： FE创建Routine Load任务，记录任务元数据 FE将任务分配给BE，每个BE负责消费Kafka的部分Partition BE持续拉取Kafka消息，解析后写入Doris FE定期收集BE的消费进度，持久化Offset 2. 创建Routine Load示例： CREATE ROUTINE LOAD db.orders_load ON orders COLUMNS(order_id, user_id, amount, event_time) PROPERTIES ( 'desired_concurrent_number' = '3', 'max_batch_interval' = '10', 'max_batch_rows' = '200000', 'max_error_number' = '100', 'strict_mode' = 'false', 'format' = 'json', 'jsonpaths' = '["$.order_id","$.user_id","$.amount","$.ts"]' ...

Doris Routine Load持续消费Kafka的实现与参数调优

回答

孤独的心