Canal与Flume在ETL中的角色

Question

请说明Canal和Flume在数据采集（ETL）中的不同角色，以及各自的典型使用场景。。大数据 面试题。字节跳动 面试题

我还是少年 · Accepted Answer

Canal（阿里巴巴开源）： 定位： MySQL Binlog增量抓取工具 工作原理： 伪装为MySQL Slave： Canal模拟MySQL Slave的交互协议 拉取Binlog： 从MySQL Master拉取Binlog日志 解析： 将Binlog解析为结构化数据（Insert/Update/Delete + 行数据） 投递： 投递到Kafka/RocketMQ/ES/HBase等 典型场景： 业务数据库CDC（Change Data Capture）： 将MySQL变更实时同步到HBase/ES/Redis 实时数仓： 采集MySQL Binlog到Kafka → Flink实时计算 缓存更新： MySQL数据变更后自动更新Redis/ES缓存 异地多活： 数据库双向同步 配置示例： # canal.properties canal.destinations=example # instance.properties canal.instance.master.address=127.0.0.1:3306 canal.instance.dbUsername=canal c...

Canal与Flume在ETL中的角色

回答

我还是少年