| 表 | 指标名 | 指标 | 含义 | 配置告警 | 设置告警原因 | 图表/数值型 | 是否web展示(默认展示,否给与标注) |
|---|---|---|---|---|---|---|---|
| influxdb_cq | 连续查询失败次数continuous queries (CQs) | queryFail | 数值 | 否 | |||
| 连续查询成功次数 | queryOk | 否 | |||||
| 连续查询成功率(衍生) | queryOk/(queryFail+queryOk) | 告警 | 成功率低考虑influx 停服、或处理请求过多导致请求被拒 | 折线,率及成功失败次数,一同展示 | |||
| influxdb_database | 数值 | 否 | |||||
| Series数量 | numSeries | series数量,越多表示tag value组合越多;inmem模式内存占用越高 | 告警 | 关系到服务器内存占用情况 | 折线 | ||
| influxdb_httpd | authFail | ||||||
| HTTP查询请求次数 | req | (除http还有flux cmd方式请求,agent自动区分采集记录 ) | |||||
| 当前活跃HTTP请求个数 | reqActive | ||||||
| 执行查询所用耗时(Ns) | reqDurationNs | ||||||
| 存储丢弃采点数 | pointsWrittenDropped | ||||||
| 存储失败采点数 | pointsWrittenFail | ||||||
| 存储成功采点数 | pointsWrittenOK | ||||||
| 存储成功率(衍生) | pointsWrittenFail/(ok+fail+dropped) | 告警 | 反应采点数存储情况 | ||||
| 存储丢弃率(衍生) | pointsWrittenDropped/(ok+fail+dropped) | 告警 | 反应采点被丢弃情况,丢弃率高应该告警排查原因,为何丢弃 | ||||
| HTTP写请求次数 | writeReq | ||||||
| 当前活跃HTTP写请求个数 | writeReqActive | ||||||
| 写请求字节大小 | writeReqBytes | 告警 | 体现IO情况 | ||||
| influxdb_memstats | 已分配堆大小(byte) | HeapAlloc | |||||
| 闲置堆大小 | HeapIdle | ||||||
| 使用堆大小 | HeapInuse | ||||||
| 从操作系统获得的堆大小 | HeapSys | ||||||
| 内存占用率 | HeapSys/osMem | 使用/os总内存 | 告警 | 比率过高,表示influx占用太多系统内存,需要排查原因。 (可以提前发现influx 吃内存的情况,以及观察规律,总结具体是什么时间点吃内存,是否周期性。也避免os直接占用太高比如80、90才告警,预先发现内存耗用) | |||
| 操作系统回收堆大小 | HeapReleased | 告警 | 回收也标识influx标记为无用的内存有没有被有效回收。长时间不回收就要考虑回收策略是不是有问题 | ||||
| 上一次GC时间 | LastGC | ||||||
| GC STW时间 | PauseTotalNs | 从程序启动后,gc stop-the-world 的累计时间 Ns | |||||
| influxdb_runtime | runtime 指标同influxdb_memstats基本一致。不过表示当前时,正在情况 (统计runtime更能体现进程当下情况 ) | ||||||
| influxdb_shard | shard大小 (bytes) | diskBytes | |||||
| series 索引类型 | indexType | inmem or tsi1 | |||||
| series个数 | seriesCreate | ||||||
| db的shard个数 | n_shards | 体现shard情况,rp过期策略、磁盘资源回收 | |||||
influxdb_tsm1_engine TSM存储引擎相关指标 | |||||||
官方Chronograf


版权声明:本文为Daybreak1209原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。