自动化监控应优先用Shell处理基础指标检查,复杂逻辑用Python;Shell轻量高效,Python结构化强、易扩展;需注重稳定性、可读性、日志记录与自身监控。
用 Python 或 Shell 写自动化监控脚本,核心不是语法多炫酷,而是稳定、可读、易维护、能快速定位问题。实际运维中,90% 的监控需求靠几行 Shell 就能解决;复杂逻辑(如聚合分析、告警分级、对接 Webhook)再交给 Python。
适合每分钟检查一次 CPU、内存、磁盘、端口、进程状态等基础指标。
top -bn1 或 free -m 提取数值,配合 awk 和 if 判断阈值,超限就发邮件或写日志curl -s --head http://127.0.0.1 | grep "200 OK" > /dev/null || systemctl restart nginx
sleep 60,用 crontab -e 替代后台常驻(更安全可控)当需要统一采集多个服务器、做趋势判断、或对接企业微信/钉钉时,Python 更合适。
psutil 库跨平台获取 CPU、内存、磁盘使用率,比解析 df 或 top 输出更可靠requests 调用 Prometheus API 或自建 HTTP 接口上报数据,避免本地文件堆积几十台服务器挨个 scp 和 chmod 是反模式。
ansible 批量分发 Shell 脚本并设置定时任务:ansible all -m cron -a "name='disk-check' job='/opt/mon/check_disk.sh' minute='*/5'"
pip install 可安装包,或用 pyinstaller 编译为单文件,免环境依赖#!/usr/bin/env bash 或 #!/usr/bin/env python3,确保解释器路径兼容不同发行版
试:监控脚本自己也要被监控脚本挂了没人知道,比被监控服务宕机更危险。
/var/log/monitor/ 下按天分割的日志文件set -e(Shell)或 try/except(Python)捕获异常,失败时主动发一条“监控自身异常”通知--dry-run 参数:只打印将要执行的操作,不真实调用重启或发送告警,上线前必测不复杂但容易忽略。脚本写完,先在一台测试机跑 24 小时看日志和行为,再推集群。真正的自动化,是让故障还没发生,你就已经收到提醒。
# linux
# python
# nginx
# 微信
# 企业微信
# 端口
# curl
# 钉钉
# 批量部署