Flink RocksDB大状态问题排查

Question

Flink作业运行长时间后出现RocksDB大状态问题，表现为Checkpoint超时、TaskManager OOM、恢复缓慢等。请从RocksDB参数调优、Flink配置优化、Key设计优化、以及状态结构优化四个层面给出系统性解决方案。。大数据 面试题。美团 面试题

我还是少年 · Accepted Answer

1. RocksDB参数调优 # 控制L0文件数量，防止写暂停 state.backend.rocksdb.level0-slowdown-writes-trigger: 50 state.backend.rocksdb.level0-stop-writes-trigger: 100 # 增大Memtable，减少刷写频率 state.backend.rocksdb.writebuffer.size: 128mb state.backend.rocksdb.writebuffer.count: 4 # 调整Block Cache state.backend.rocksdb.block.cache-size: 256mb 2. Flink配置优化 # 托管内存：推荐40%-60% taskmanager.memory.managed.size: 2g # 启用增量Checkpoint state.backend.incremental: true # 延长Checkpoint超时 execution.checkpointing.timeout: 30min # 调整并发Checkpoi...

Flink RocksDB大状态问题排查

回答

我还是少年