一、先用命令行工具做最小监控¶

1.1 NVIDIA GPU：`nvidia-smi`¶

这是最基础也最常用的 NVIDIA GPU 监控工具，前提是已经安装好显卡驱动。

常见用法：

# 实时刷新
nvidia-smi --loop=2

# 查看关键指标
nvidia-smi --query-gpu=timestamp,temperature.gpu,power.draw,memory.used,utilization.gpu --format=csv

# 持续输出到文件
nvidia-smi --query-gpu=index,timestamp,power.draw,clocks,sm,memory.used --format=csv -l 1 > gpu_log.csv

它最适合做：

快速排查显存占用；
看当前 GPU 利用率；
看温度和功耗是否异常。

1.2 AMD GPU：`rocm-smi`¶

如果是 AMD GPU，常用命令通常是：

rocm-smi --showtemp
rocm-smi --showpower
rocm-smi --showmeminfo

1.3 `nvtop`¶

如果你希望在命令行里看到更像 top 的实时界面，nvtop 是个很方便的小工具。

apt install -y nvtop
nvtop

二、用 Prometheus 做主机指标采集¶

如果你本来就有 Prometheus 体系，那么把大模型监控接进去会非常自然。

2.1 安装 Prometheus¶

下载并解压：

wget https://github.com/prometheus/prometheus/releases/download/v3.5.0/prometheus-3.5.0.linux-amd64.tar.gz
tar zxf prometheus-3.5.0.linux-amd64.tar.gz -C /opt
cd /opt
ln -s prometheus-3.5.0.linux-amd64 prometheus

再配一个 systemd 服务：

[Unit]
Description=prometheus service
After=network.target
[Service]
User=prometheus
ExecStart=/opt/prometheus/prometheus --config.file=/opt/prometheus/prometheus.yml \
          --storage.tsdb.path=/var/lib/prometheus
ExecReload=/bin/kill -s HUP $MAINPID
ExecStop=/bin/kill -QUIT $MAINPID
Restart=on-failure
[Install]
WantedBy=multi-user.target

如果某些环境不适合用 systemd，也可以直接命令行启动。

2.2 配置 node_exporter¶

Prometheus 本身负责拉取数据，而 node_exporter 才是暴露主机指标的组件。

安装后，在 Prometheus 的 prometheus.yml 中加入目标：

- job_name: "node"
  static_configs:
    - targets: ["<node-exporter-host>:9100"]

这里的地址建议都写成占位形式，不要在公开文档里保留真实内网 IP。

2.3 查看 Targets¶

配置完成后，可以通过：

http://<your-prometheus-host>:9090/targets

检查采集目标是否在线。

6485abc6-c889-4ae0-9fc6-5f585ce8521f

三、用 Grafana 做可视化大屏¶

Prometheus 很强，但它自带 UI 对运维来说不够直观。Grafana 的作用，就是把这些指标做成更容易读的图表和大盘。

3.1 安装 Grafana¶

wget https://dl.grafana.com/oss/release/grafana-12.1.0.linux-amd64.tar.gz
tar -zxvf grafana-12.1.0.linux-amd64.tar.gz -C /opt/
cd /opt
ln -s grafana-v12.1.0 grafana
/opt/grafana/bin/grafana server --homepath /opt/grafana >/tmp/grafana.log 2>/tmp/grafana.log &

访问方式：

http://<your-grafana-host>:3000

081124b7-8f06-4d45-a3ec-9e78798b234b

默认用户名和密码都是 admin，首次登录后应立即修改。

3.2 添加 Prometheus 数据源¶

在 Grafana 中选择 Prometheus 数据源，然后保存并测试。

3.3 导入现成仪表盘¶

例如可以直接导入常用的节点监控仪表盘：

Dashboard ID：1860

四、为什么这一层监控特别重要¶

大模型平台最容易出问题的，不是“模型有没有部署成功”，而是上线后资源使用到底稳不稳。命令行工具适合排障，Prometheus 适合采集，Grafana 适合长期观察，这三层配合起来才算一个完整的监控起点。

大模型运维监控入门：命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控¶

1.1 NVIDIA GPU：`nvidia-smi`¶

1.2 AMD GPU：`rocm-smi`¶

1.3 `nvtop`¶

二、用 Prometheus 做主机指标采集¶

2.1 安装 Prometheus¶

2.2 配置 node_exporter¶

2.3 查看 Targets¶

三、用 Grafana 做可视化大屏¶

3.1 安装 Grafana¶

3.2 添加 Prometheus 数据源¶

3.3 导入现成仪表盘¶

四、为什么这一层监控特别重要¶

评论区

一、先用命令行工具做最小监控¶

1.1 NVIDIA GPU：nvidia-smi¶

1.2 AMD GPU：rocm-smi¶

1.3 nvtop¶

二、用 Prometheus 做主机指标采集¶

2.1 安装 Prometheus¶

2.2 配置 node_exporter¶

2.3 查看 Targets¶

三、用 Grafana 做可视化大屏¶

3.1 安装 Grafana¶

3.2 添加 Prometheus 数据源¶

3.3 导入现成仪表盘¶

四、为什么这一层监控特别重要¶

评论区

1.1 NVIDIA GPU：`nvidia-smi`¶

1.2 AMD GPU：`rocm-smi`¶

1.3 `nvtop`¶