Flink流批一体架构

Question

请解释Flink的流批一体（Batch-Stream Unified）架构，它是如何做到用同一套API处理有界数据和无界数据的？。大数据 面试题。字节跳动 面试题

小字辈 · Accepted Answer

Flink流批一体核心思想： 有界数据（Batch）= 特殊的有界流（Bounded Stream） 流处理是Flink的一等公民，批处理是流处理的特殊情况 同一套Runtime、同一套API处理批和流 架构设计： 1. 统一的Runtime（Flink Runtime）： 所有数据都视为无限流（Unbounded Stream） 批处理时，数据源标记为有界（Bounded） Task之间通过Pipeline传输数据（流模式） 批模式下可开启Blocking Shuffle（类似MapReduce的中间落盘） 2. 统一的API层： DataStream API： 同时处理批和流 Table API / SQL： 同一SQL语句在批和流模式下效果一致 DataSet API（已废弃）： 在Flink 1.12+中被DataStream替代 3. 核心差异（批与流自动切换）： | 特性 | 流模式 | 批模式 | |------|--------|--------| | 输入 | 无界流（Unbounded）| 有界流（Bounded）| | 任务调度 | 持续运行 | 有限执行后结束...

Flink流批一体架构

回答

小字辈