实时数仓架构设计与选型

Question

请介绍实时数仓的典型架构设计，以及在不同延迟和规模要求下的技术选型建议。。大数据 面试题。阿里巴巴 面试题

编译有声 · Accepted Answer

实时数仓分层架构： [业务数据] [日志数据] [埋点数据] ↓ ↓ ↓ [Canal] [Flume] [SDK] ↓ ↓ ↓ [Kafka] ← 统一数据总线（核心） ↓ [Flink] ← 实时ETL（清洗/扩维/聚合） ↓ [OLAP引擎] → [应用层] 各层技术选型： 1. 数据接入层： | 场景 | 技术选型 | |------|----------| | MySQL Binlog同步 | Canal + Kafka | | 应用日志 | Flume / Filebeat + Kafka | | 前端埋点 | SDK + Kafka | | 第三方API | HTTP Polling + Kafka | 2. 消息队列层： Kafka： 标准选择，高吞吐、持久化 Pulsar： 更低的延迟、更好的多租户隔离 RocketMQ： 事务消息支持好（阿里系） 3. 实时计算层： | 需求 | 技术选型 | |------|----------| | 简单ETL/过滤 | Kafka Streams | | 复杂计算/窗口聚合 | Flink | | SQL友好 | Flink...

实时数仓架构设计与选型

回答

编译有声