更新时间:2021-08-16 10:08:31
通过在云服务器(包含云服务器与物理服务器与GPU云服务器)上安装Agent,提供系统监控服务。云服务器监控能够采集操作系统层面的监控信息,可以查询服务器资源使用情况,能够借助监控数据进行故障排查。
支持将不同区域同一业务的服务器加入到相同分组中,从业务角度管理服务器资源。支持报警模板,一次性设置多条报警规则,提高运维管理效率。
进程监控能够实时获取最近时间内活跃进程top10的CPU使用率、内存使用率、文件打开数。
添加进程关键字可实时查看进程数。通过设置报警规则,当进程数小于阈值将发出告警信息。
最小监控粒度:30s采集一次监控数据。
CPU监控项,可参考Linux top命令。
监控项中文名 | 监控项 | 监控项含义 | 单位 | 监控项说明 |
---|---|---|---|---|
空闲CPU百分比 | server.cpu.idle | 当前空闲CPU百分比 | % | 判断CPU是否忙碌 |
内核空间CPU百分比 | server.cpu.system | 当前内核空间占用CPU百分比 | % | 如果该数值较高,表示服务器开启了大量进程或线程 |
用户空间CPU百分比 | server.cpu.user | 当前用户空间占用CPU百分比 | % | 用户进程占用CPU百分比 |
等待IO操作CPU百分比 | server.cpu.iowait | 当前等待IO操作的CPU百分比 | % | 如果该数值较高说明IO操作频繁 |
其他CPU百分比 | server.cpu.other | 其他占用CPU百分比 | % | 除以上四项的CPU使用百分比 |
总CPU消耗百分比 | server.cpu.total | 当前消耗的总CPU百分比 | % | CPU总使用率 |
监控项中文名 | 监控项 | 监控项含义 | 单位 | 监控项说明 |
---|---|---|---|---|
内存总大小 | server.mem.total | 内存总量 | bytes | 内存总容量 |
已用内存大小 | server.mem.used | 已用内存量 | bytes | 实际使用的内存 + buffers + cached |
实际使用内存大小 | server.mem.actualused | 实际使用的内存 | bytes | 不包含buffers和cached使用量 |
剩余内存大小 | server.mem.free | 剩余内存量 | bytes | 内存总量-已用内存量 |
剩余内存百分比 | server.mem.freeutilization | 剩余内存百分比 | % | 剩余内存量/内存总量100% |
内存使用率 | server.mem.usagerate | 内存使用率 | % | 实际使用内存/内存总量100% |
监控项中文名 | 监控项 | 监控项含义 |
---|---|---|
1分钟系统平均负载 | server.load.1min | 最近1分钟的系统平均负载 |
5分钟系统平均负载 | server.load.5min | 最近5分钟的系统平均负载 |
15分钟系统平均负载 | server.load.15min | 最近15分钟的系统平均负载 |
监控项中文名 | 监控项 | 监控项含义 | 单位 |
---|---|---|---|
磁盘已用容量 | server.diskusage.used | 磁盘的已用容量 | bytes |
磁盘使用率 | server.disk.usagerate | 磁盘使用率 | % |
磁盘剩余容量 | server.diskusage.free | 磁盘剩余容量 | bytes |
磁盘总使用容量 | server.diskusage.total | 磁盘总容量 | bytes |
磁盘读吞吐量 | server.disk.readbytes | 磁盘读取吞吐量 | bytes/s |
磁盘写吞吐量 | server.disk.writebytes | 磁盘写入吞吐量 | bytes/s |
磁盘读iops | server.disk.readiops | 磁盘读取IOPS | 次/秒 |
磁盘写iops | server.disk.writeiops | 磁盘写入IOPS | 次/秒 |
|监控项中文名 |监控项 |监控项含义 |单位 |监控项说明 |
|---- |---- |---- |---- | |
|inode使用率 |server.fs.inode |inode使用率,Linux系统inode分配完时,即使磁盘还有剩余容量也会出现无法在磁盘新建文件的情况 |% |Inode使用量代表文件系统文件数量|
网络监控项,可参考Linux iftop。
监控项中文名 | 监控项 | 监控项含义 | 单位 |
---|---|---|---|
网卡流入带宽 | server.netin.bandwidth | 网卡的下行带宽 | bps |
网卡流出带宽 | server.netout.bandwidth | 网卡的上行带宽 | bps |
网卡每秒收包数 | server.netin.packages | 网卡每秒收包数 | 个/秒 |
网卡每秒发包数 | server.netout.packages | 网卡每秒发包数 | 个/秒 |
网卡每秒收包错误数 | server.netin.errorpackages | 网卡每秒收包错误数 | 个/秒 |
网卡每秒发包错误数 | server.netout.errorpackages | 网卡每秒发包错误数 | 个/秒 |
TCP连接数统计 | server.tcpconnection | TCP连接数 | 个 |
监控项中文名 | 监控项 | 监控项含义 | 单位 |
---|---|---|---|
进程CPU使用率 | server.process.cpu | 某个进程CPU使用率 | % |
进程内存使用率 | server.process.memory | 某个进程内存使用率 | % |
进程打开文件数 | server.process.openfile | 某个进程打开文件数量 | 个 |
指定进程数量 | server.process.number | 根据某个关键字查询出的进程数量,可参考Linux ps aux |grep ‘关键字’ 命令。 |
个 |
GPU监控项,可参考nvidia-smi命令。
监控项中文名 | 监控项 | 监控项含义 | 单位 |
---|---|---|---|
GPU显存使用量 | gpu.memory.used | GPU某核心显存使用量 | Byte |
GPU显存空闲量 | gpu.memory.free | GPU某核心显存空闲量 | Byte |
GPU显存总量 | gpu.memory.total | GPU某核心显存总量 | Byte |
GPU使用率 | gpu.utilization.used | GPU某核心使用率 | % |
GPU编码器使用率 | gpu.utilization.encoder | GPU某核心编码器使用率 | % |
GPU解码器使用率 | gpu.utilization.decoder | GPU某核心解码器使用率 | % |
GPU显存空闲率 | gpu.memory.freerate | GPU某核心显存空闲率 | % |
GPU显存使用率 | gpu.memory.usedrate | GPU某核心显存使用率 | % |
GPU温度 | gpu.parameter.temperaturer | GPU温度 | ℃ |
GPU功率 | gpu.power.readings | GPU功率 | W |