nethogs结合zabbix 监控每个进程流量使用情况

因为公司会有人时不时去拉取备份日志或者包等,zabbix和阿里云都会出现流量告警,但具体是哪个用户或者哪个进程使用的流量,不知道,告警出现后,登录服务器查看,流量已经下来了,查看起来比较繁琐,所以直接弄一个进程流量告警,超过阀值,把进程号,用户,进出流量大小都输出出来

NetHogs是一款开源、免费的,终端下的网络流量监控工具,它可监控Linux的进程或应用程序的网络流量。NetHogs只能实时监控进程的网络带宽占用情况。NetHogs支持IPv4和IPv6协议,支持本地网卡以及PPP链接。

1.安装nethogs
我是 centos6,安装epel源使用一下版本
rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-6.noarch.rpm
centos7的话,使用
rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm

2.使用nethogs
NetHogs提供交互式控制指令:
m : Cycle between display modes (kb/s, kb, b, mb) 切换网速显示单位
r : Sort by received. 按接收流量排序
s : Sort by sent. 按发送流量排序
q : Quit and return to the shell prompt. 退出NetHogs命令工具

NetHogs 命令行参数
常用的参数:
-d delay for refresh rate. 数据刷新时间 如nethogs -d 1 就是每秒刷新一次
-h display available commands usage. 显示命名帮助、使用信息
-p sniff in promiscious mode (not recommended).
-t (追踪模式)在控制台定时刷新各进程的收发带宽,使用管道命令>即可实现输出重定向
-V prints Version info.
-c 刷5次结束

#关键命令,使用以下命令进行重定向
nethogs -c 5 -d 2 -t
这里-c刷5次,是因为,前面一次会逐渐把有流量的进程打印出来,但前面几次的时候,会获取不到全部,所有我打印了5次,时间间隔2秒,差不多能把所有进程流量打印出来了,若还觉得少了,可以增大时间

#编写一下两个脚本来实现
#第一个: 这个脚本,实现执行两次,时间间隔是20秒,执行命令有10秒(输出5次,每次2秒),则输出两次刚好1分钟,然后加入计划任务,1分钟执行一次这个脚本,当然,这里的频率,可以自行调整

!/bin/bash
count=0
while [ $count -lt 2 ]
do
    count=$(($count+1))
    /usr/sbin/nethogs -t -d 2 -c 5 > /tmp/flow_nethogs.tmp
    if [[ $count == 2 ]];then
        exit
    else
        sleep 20
    fi
done

#第二个:使用zabbix来读取这个日志文件,每分钟执行两次,或者更多,判断最后一次(也就是第5次,获取最完整的一次) 流量大小来进行输出

#!/usr/bin/python
#coding=utf-8
#读取 nethogs.logs日志,获取流量过大的进程

#日志路径
log_path="/tmp/flow_nethogs.tmp"
file = open(log_path,"r")
message = file.read()
file.close()
#设置流量阀值大小,大于阀值则输出内容
max_flow = 2048
#以Refreshing: 为分隔符,得到数组
mes_sp = message.split("Refreshing:")
#得到数组的最后一个元素,去掉空行
resu_str = mes_sp[len(mes_sp) - 1].strip("\n")
#以换行符分割数据
resu_li = resu_str.split("\n")
for proc in resu_li:
    proc_li = proc.split("\t")
    if len(proc_li) == 3:
        proc_name = proc_li[0]
        proc_send = proc_li[1]
        proc_rec = proc_li[2]
        if float(proc_send) > max_flow or float(proc_rec) > max_flow:
            print "进程:" + proc_name + ", 发送: " + proc_send + " KB/sec, " + "接收: " + proc_rec + " KB/sec"

超过阀值,则输出进程信息,没有超出,则不会输出任何数据,所以在zabbix里面,告警设置成 值不为空,则告警

备注:nethogs针对服务器业务进程较少的一种 不会占用多少资源,若过多,会占用资源,可以先根据自己的环境来测测看,nethogs方法比较简单,可以直接获取进程信息等,还有一个工具是iftop,这个工具就没这么耗费资源了,但进程信息等,需要自己写命令查找,后面继续更新iftop结合zabbix来监控!!!o( ̄︶ ̄)o

转载于:https://blog.51cto.com/zdhyw/2328255