ClickHouse ON CLUSTER分布式DDL执行失败的排查与处理

Question

ClickHouse中ON CLUSTER分布式DDL执行失败时，如何排查和处理？请解释system.ddl_queue和system.ddl_log的定位方法、分布式DDL任务的ZooKeeper路径查看、以及如何清理卡住的DDL任务（如某节点宕机导致的无限等待）。给出一个手动清理ZK中阻塞DDL任务的操作步骤。。...

编译有声 · Accepted Answer

ClickHouse分布式DDL故障排查： 1. 查看DDL执行状态： -- 当前DDL队列（未完成的任务） SELECT * FROM system.ddl_queue; -- DDL执行历史 SELECT * FROM system.ddl_log ORDER BY event_time DESC; -- 关键字段： -- query: 执行的DDL语句 -- host: 执行节点 -- status: COMPLETED/FAILED/UNKNOWN -- exception: 错误信息 2. ZooKeeper路径查看： # 查看DDL任务队列 clickhouse-keeper-client get /clickhouse/task_queue/ddl/ # 或 echo 'get /clickhouse/task_queue/ddl/' | clickhouse-zookeeper-cli # 查看具体DDL任务内容 clickhouse-zookeeper-cli get /clickhouse/task_queue/ddl/query-0000000001 # 返回：...

错误	原因	解决
`Connection refused`	某节点宕机	恢复节点或手动清理
`Timeout exceeded`	DDL超时（默认180s）	`distributed_ddl_task_timeout`加大
`Table already exists`	部分节点已执行	检查一致性
`Code: 60`	表不存在或其他节点不一致	逐个节点检查

ClickHouse ON CLUSTER分布式DDL执行失败的排查与处理

回答

编译有声