部署 grafana
1
|
docker run -d -p 3000:3000 --name=grafana grafana/grafana-enterprise
|
告警规则
测试环境地址:http://10.11.140.85:3000/d/rYdddlPWk/node-exporter-full?orgId=1&refresh=1m
配置钉钉告警
添加联络点
配置联络点名称,类型,消息格式
配置告警规则
增加告警
填写告警内容
配置告警目录和持续时间
配置告警发送源
磁盘
磁盘使用率 > 80 %
1
|
100 * (1 - (node_filesystem_free_bytes{fstype=~"ext4|xfs"} / node_filesystem_size_bytes{fstype=~"ext4|xfs"})) > 80
|
内存
1
|
((1 - (node_memory_MemFree_bytes / node_memory_MemTotal_bytes)) * 100) > 50
|
CPU
1
|
sum(rate(node_cpu_seconds_total{mode!="idle"}[5m])) by (instance) > 80
|
GPU
配置采集的频率和采集的项目
1
2
3
|
kubectl -n kubesphere-monitoring-system edit prometheus k8s
evaluationInterval:5s
|
1
2
3
4
5
6
7
8
|
kubectl edit ds node-exporter -n kubesphere-monitoring-system
- --collector.disable-defaults
- --collector.cpu
- --collector.cpufreq
- --collector.diskstats
- --collector.meminfo
- --collector.filesystem
|