Spark Streaming微批处理原理

Question

请解释Spark Streaming的微批处理（Micro-Batch）原理，说明DStream（Discretized Stream）的工作机制。。大数据 面试题。美团 面试题

小字辈 · Accepted Answer

核心思想： 将连续的实时数据流切分为固定时间间隔（Batch Interval）的小批次，每个批次作为RDD进行处理。 DStream定义： 离散化数据流，本质上是一系列连续的RDD（每个RDD对应一个时间窗口的数据）。 工作机制： 输入： 实时数据流（Kafka/Socket/Flume等） 切分： 按Batch Interval（如1秒/5秒）对数据进行切片 封装： 每个切片封装为一个RDD 处理： 使用Spark Engine对每个RDD执行同样的Transformation/Action 输出： 将处理结果写入外部系统（HDFS/DB/Dashboard） 示例代码： val ssc = new StreamingContext(sparkConf, Seconds(5)) val lines = ssc.socketTextStream("localhost", 9999) val words = lines.flatMap(_.split(" ")) val wordCounts = words.map((_, 1)).reduceByKey(_+_) wordCount...

Spark Streaming微批处理原理

回答

小字辈