Flink反压机制与排查方法

Question

请详细说明Flink的反压（Backpressure）机制及其影响。Flink如何通过Credit-based流量控制检测反压？在生产环境中如何定位反压根因（Source/算子/Sink）？有哪些缓解和解决反压的策略？。大数据 面试题。字节跳动 面试题

孤独的心 · Accepted Answer

1. 反压含义 反压是指下游处理速度 < 上游发送速度时形成的压力反传： Source快 → 算子1快 → 算子2慢 → 算子3快 → Sink快 ↓ 算子1被反压 → 阻塞Source 影响： 处理延迟增加 Checkpoint超时（超过Barrier传播时间） 数据堆积导致OOM 吞吐量下降 2. Credit-based流量控制 Flink通过Credit机制实现反压传播： 下游算子 → 向上游发送Credit（可用缓冲区数量） 上游算子 → 只有收到Credit才能发送数据 否 则 → 上游Netty缓冲区满 → 阻塞发送 → 持续阻塞 → 反压链条传播到Source 检测： Flink Web UI → Task Managers → Back Pressure High：80-100%（严重反压） OK：0-10%（正常） 3. 定位根因 方法1：Web UI Watermark Source端Watermark停滞不前 → 下游算子慢 所有算子Watermark都停滞 → Source慢 方法2：运行时指标 # 查看各算子的 - numRecordsInPerSe...

根因	方案
数据倾斜	调整KeyBy分区策略，加Salting
单算子瓶颈	增加并行度（Parallelism）
外部系统慢	批量写入、异步IO、缓冲
Join状态大	RocksDB调优、状态TTL
序列化开销	使用Pojo/Tuple代替自定义类型

Flink反压机制与排查方法

回答

孤独的心