流处理Exactly-Once实现原理

Question

请详细解释流处理系统中Exactly-Once语义的实现原理，包括Flink的两阶段提交（Two-Phase Commit）和幂等输出机制。。大数据 面试题。阿里巴巴 面试题

我还是少年 · Accepted Answer

Exactly-Once（精确一次）：每条数据被处理且仅被处理一次，不丢不重。一、Flink的两阶段提交（2PC）： Flink通过TwoPhaseCommitSinkFunction实现端到端Exactly-Once。流程：预提交（Pre-Commit）：Checkpoint触发时，Sink在本地预提交事务，写入临时数据提交（Commit）：Checkpoint全局完成后，JobManager通知所有Sink提交事务，数据永久可见回滚（Abort）：如果Checkpoint失败，Sink回滚事务，数据不可见前提： Sink端支持事务（如Kafka Producer支持事务、MySQL支持XA）事务在Checkpoint边界完成配置： // Kafka Sink Exactly-Once val kafkaProducer = new FlinkKafkaProducer<>( "topic", new KafkaSerializationSchema<...>(){...}, properties, Semantic.EXACTLY_ONCE...

Source	Flink	Sink	实现方式
Kafka	Flink	Kafka	2PC（Kafka事务）
Kafka	Flink	MySQL	幂等+事务（idempotent upsert）
Kafka	Flink	HDFS	幂等（文件系统重命名）
Kafka	Flink	Redis	幂等（SET覆盖）

流处理Exactly-Once实现原理

回答

我还是少年