Prometheus+Grafana大数据集群监控方案设计与告警规则

Question

请设计一个基于Prometheus+Grafana的大数据集群监控方案。包括：如何通过JMX Exporter/Node Exporter采集Hadoop/Spark/Flink/Kafka的指标、Prometheus的指标类型（Counter/Gauge/Histogram/Summary）及在监控中的应用场景、以...

屠龙少年 · Accepted Answer

Prometheus+Grafana监控方案： 1. 指标采集架构： 集群节点 ├─ Node Exporter (9100)：CPU/内存/磁盘/网络 ├─ JMX Exporter (9101)：HDFS/Spark/Flink JVM指标 ├─ Kafka Exporter (9308)：Kafka消费延迟/分区状态 ├─ HDFS NameNode HTTP API：DataNode存活 └─ Flink Metrics Reporter (9249)：Job/Checkpoint/反压 ↓ Prometheus Server (PULL模式) ↓ Grafana Dashboard (可视化) + AlertManager (告警) 2. Prometheus指标类型： | 类型 | 说明 | 监控示例 | |------|------|---------| | Counter | 只增不减的累计值 | flink_job_numRestarts_total（重启次数）| | Gauge | 可增可减的瞬时值 | node_memory_MemAvailable_bytes...

Prometheus+Grafana大数据集群监控方案设计与告警规则

回答

屠龙少年