几个月以来,我一直在Google GKE的Kubernetes上使用Prometheus和Grafana应用程序。例如,在Grafana上,我曾经监视过container_cpu_usage_seconds_total
但是,因为我将GKE的节点从1.15升级到1.16,所以我失去了container_*信息。
为了测试它,我创建了一个带有1.15版本的新集群。我从Google Marketeplace安装了Prometheus,并逐步升级了GKE,直到出现问题为止。再次,container_*监视从版本1.16停止。
Here you can see container_cpu_usage_seconds_total and it stopped when I upgrade the node. There are 3 nodes
我是唯一遇到此问题的人吗?有没有人找到解决方案?
谢谢你的帮助 :)
瓦伦丁

最佳答案

我发现出了什么问题。
使用docker或kubernetes,node-exporter不会发送pod指标(container_*)。
必须安装Cadvisor(在Google Marketeplace中,Cadvisor安装在节点导出器镜像中)
从Kubernetes 1.16开始,Cadvisor的配置错误。您应该编辑配置以解决问题
所有信息都在此职位中:Prometheus not receiving metrics from cadvisor in GKE

关于kubernetes - 从GKE 1.15更新到1.16时Prometheus(node_exporter)问题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/63741959/

10-11 06:44