k8s集群监控维度

  1. 关于 CPU 的 limit 合理性指标。查出最近5分钟,超过25%的 CPU 执行周期受到限制的容器。表达式:
sum(increase(container_cpu_cfs_throttled_periods_total{container!="", }[5m])) by (container, pod, namespace) / sum(increase(container_cpu_cfs_periods_total{}[5m])) by (container, pod, namespace) > ( 25 / 100 )
# container_cpu_cfs_periods_total:容器生命周期中度过的 cpu 周期总数
# container_cpu_cfs_throttled_periods_total:容器生命周期中度过的受限的 cpu 周期总数
  1. CPU/MEM 水位
kube_pod_container_resource_requests_cpu_cores:pod 分配CPU cores 数量
kube_node_status_allocatable_cpu_cores:节点 CPU cores 数量
kube_pod_container_resource_requests_memory_bytes:pod 分配内存数量
kube_node_status_allocatable_memory_bytes:节点内存量
  1. api 服务异常
sum(rate(apiserver_request_total{job="apiserver",code=~"5.."}[5m])) by (resource,subresource,verb) / sum(rate(apiserver_request_total{job="apiserver"}[5m])) by (resource,subresource,verb) > 0.05
# apiserver_request_total:APIServer 请求数
# aggregator_unavailable_apiservice_count:监测自定义注册的 APIService 不可用次数。
  1. 证书过期时间
apiserver_client_certificate_expiration_seconds_count:证书有效剩余时间
  1. 集群状态
absent(up{job="apiserver"} == 1)
kube_node_status_condition:节点状态监测
kubelet_running_pod_count:节点运行的 Pods 数量

参考:https://www.sohu.com/a/419114353_760387


版权声明:本文为u012881331原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。