第五章:高并发系统监控与故障排查
第五章:高并发系统监控与故障排查
5.1 关键监控指标
5.1.1 QPS/TPS 实时计算(Prometheus+Grafana 搭建)
1. Prometheus 配置示例
scrape_configs:
- job_name: 'java_app'
scrape_interval: 5s
static_configs:
- targets: ['localhost:8080']
2. PromQL 计算 QPS
rate(http_requests_total{job="java_app"}[1m])
3. Grafana 可视化
- 使用
Graph
面板展示 QPS 趋势 - 添加阈值线(如设置 QPS 上限为 10000)
- 配置告警规则(通过 Alertmanager)
5.1.2 长尾延迟问题诊断(百分位计算实现)
1. 百分位计算原理
P99 = \text{第} \lceil (n \times 0.99) \rceil \text{小的响应时间}
2. Prometheus histogram 指标
// Micrometer 埋点示例
Timer.builder("http.server.requests")
.tag("method", "GET")
.register(meterRegistry);
3. Grafana 查询 P99
histogram_quantile(0.99, sum(rate(http_server_requests_seconds_bucket[5m])) by (le))
5.1.3 系统容量规划(基于历史数据的预测模型)
1. 时间序列预测
真诚点赞 诚不我欺
回复