张卿
2023-05-28
985
20
0
当外部域名访问延迟持续升高时,往往意味着站点可用性或链路质量正在恶化。本文基于 probe_http_duration_seconds 指标,演示如何创建域名延迟告警规则,并把告警通过 Alertmanager 路由到邮件通知。
张卿
2023-05-27
988
27
0
在真正做告警之前,首先要把域名探测数据采集上来。本文以 Blackbox Exporter 为例,演示如何通过 additionalScrapeConfigs 把域名探测任务接入 Prometheus,并在 Prometheus 与 Grafana 中验证监控结果。
张卿
2023-05-26
713
25
0
编写 PrometheusRule 的关键不是死记 YAML,而是先把合适的 PromQL 表达式找出来。本文以 MySQL 监控为例,演示如何从 Grafana 面板提取 PromQL,再落到可执行的告警规则中。
张卿
2023-05-25
541
15
0
PrometheusRule 是 Prometheus Operator 体系中定义告警规则与记录规则的核心资源。本文先说明它是什么,再结合默认规则示例拆解 groups、rules、expr、for、labels 和 annotations 等关键字段。
张卿
2023-05-24
719
25
0
当 MySQL 实例不可用时,尽早收到可靠告警是数据库运维的基本要求。本文基于 mysql_up 指标,演示从准备监控、编写 PrometheusRule 到调整 Alertmanager 路由的完整告警接入过程。
张卿
2023-05-23
712
24
0
在计划内维护窗口,如果仍然持续接收告警通知,只会增加噪音并干扰判断。本文介绍如何通过 Alertmanager 的 Silence 功能为指定告警分组临时静默通知。
张卿
2023-05-22
727
21
0
默认告警邮件通常信息拥挤、可读性一般,而 Alertmanager 模板机制可以把告警内容整理成更适合运维阅读的格式。本文演示如何添加自定义邮件模板、挂载到容器并在通知中启用。
张卿
2023-05-21
916
11
0
邮箱仍然是很多团队最容易落地的告警通知方式。本文以 163 邮箱为例,演示从开启 SMTP、配置 Alertmanager Secret,到验证邮件成功送达的完整流程。
张卿
2023-05-20
931
20
0
Route 是 Alertmanager 中最关键的配置之一,它决定一条告警会如何分组、匹配到哪个子路由,以及最终发送给谁。本文围绕 group_by、match、match_re、matchers 和 continue 等字段讲清路由规则的工作方式。
张卿
2023-05-19
767
26
0
想把 Alertmanager 用好,首先要读懂它的配置文件结构。本文结合示例配置,拆解 Global、Templates、Route、Inhibit Rules 和 Receivers 等核心块的职责与常见字段。