真实压力看mpstat %usr+%sys是否持续>70%及free -h中available是否长期低于总内存15%;I/O瓶颈需结合await、avgqu-sz判断;资源争用与应用低效需用perf/pidstat分析线程级行为;容量规划须关注内核参数、swap策略及cgroup差异。
别只看 top 里那个平均负载(load average)——它反映的是就绪队列长度,不是 CPU 使用率。真实压力要看 mpstat -P ALL 1 的 %usr + %sys 是否持续 >70%,以及 free -h 中 available 列是否长期低于总内存的 15%。
注意:Linux 的 cached 内存可被快速回收,不等于“被占用”;真正危险的是 available 持续逼近 0,或 swpd 在 vmstat 1 中非零且增长。
mpstat 要装 sysstat 包,CentOS/RHEL 默认不带free -h 的 available 字段在内核 3.14+ 才准确,老系统得用 free -m 算 Mem: free + buffers + cached
iost
at %util
%util 接近 100% 只说明设备忙,但不等于慢——NVMe 盘可能 100% util 下延迟仍 iostat -x 1 的 await(单次 I/O 平均耗时)和 r_await/w_await:
avgqu-sz >1 表示请求排队,结合高 await 基本可判定 I/O 压力过大另外,iotop 能定位具体进程,但默认只显示活跃 I/O 进程,加 -a 参数才统计所有线程累计值。
用 perf top -p 或 pidstat -t -p 看线程级行为。如果某个 Java 进程 %CPU 高但 perf 显示大量时间花在 Unsafe_Park 或 ObjectSynchronizer::fast_enter,大概率是锁竞争,不是 CPU 不够;若 Python 进程 %CPU 高但 perf record -g -p 显示集中在 PyEval_EvalFrameEx,更可能是算法或 GC 问题。
jstat -gc 看 GC 频率和停顿时间ps -o pid,ppid,comm,%cpu,%mem -C python 确认是否多进程重复加载大模型
strace -p -c 看系统调用分布一是内核参数限制:比如 fs.file-max 和进程级 ulimit -n 不匹配,导致高并发服务在连接数刚到 65535 就报 Too many open files;二是 swap 使用策略:即使禁用 swap(swapoff -a),也要确认 vm.swappiness=1,否则内存紧张时内核仍可能换出匿名页;三是容器环境下的 cgroup v1/v2 差异:docker stats 显示的内存使用可能不含 page cache,而 cat /sys/fs/cgroup/memory/.../memory.usage_in_bytes 才是真实上限依据。
历史数据必须保留至少 30 天,用 sar(来自 sysstat)比用 Prometheus 自建采集更轻量、更可靠——尤其在资源吃紧的边缘节点上。
# linux
# 大模型
# ios
# ai
# app
# docker
# js
# centos
# java
# python
# linux系统