Prometheus metrics概念

  • Prometheus监控中metrics是对采集数据的总称。指标数据通常包括名称、标签、值和时间戳等信息。通过Prometheus metrics,用户可以更好地了解应用程序和系统的性能表现,以便进行有效的监控和调优。(trics并不代表某一种具体的数据格式是一种对于度量计算单位的抽象)

数据类型

  1. Counter(计数器):
    • 它是一个累积指标,专门用来表示只增不减的值,适用于记录完成的任务数量或发生的事件次数。例如,你可以用它来记录接收到的请求数或完成的任务数。

  1. Gauge(仪表盘):
    • Gauge(最简单的度量指标,只有一个简单的返回值,或者叫瞬时状态) 是一个可以任意上下变动的数值,用来表示度量的当前值。适合用于度量可以增加或减少的值,如当前内存使用量或正在处理的请求数。

  1. Histogram(直方图):
    • Histogram 用来对观测结果(如请求持续时间或响应大小)进行采样,并将它们划分到配置好的桶中。它提供了观测值的分布信息,这对于理解系统的性能特性特别有用。
    • Histogram 是一种统计图表,用于度量和展示数据的分布情况。在 Prometheus 中,Histogram 的工作方式类似于一个计数器数组,其中每个计数器代表一个“桶”,而每个桶对应一个特定的值范围。当新的数据点(比如请求的持续时间)被观测到时,Prometheus 会增加落在相应值范围桶中的计数器。
    • 例如,如果一个监控HTTP请求持续时间的Histogram,并设置了几个桶,比如0-100毫秒、100-200毫秒、200-300毫秒等,每当一个HTTP请求完成时,Prometheus 就会查看这个请求的持续时间,并将其归入对应的时间范围桶。如果请求耗时150毫秒,那么100-200毫秒这个桶的计数器就会增加。

  1. Summary(摘要):
    • Summary 和 Histogram 类似,也是用来收集和计算观察值(如请求持续时间或响应大小)的分布。不同之处在于 Summary 可以直接提供观察值的分位数。这意味着你可以直接获得特定百分比的用户所经历的请求延迟。

数据形式

  • Prometheus 指标(metrics)的数据形式是一种简单的文本格式(容易通过 HTTP 协议被 Prometheus 服务器拉取)。每一行包含了一个指标的数据,通常包括指标名称、可选的一组标签以及指标的值。Prometheus 指标数据的示例:

    http_requests_total{method="post",code="200"} 1027
    http_requests_total{method="post",code="400"} 3
    
    • http_requests_total 是指标的名称,表示HTTP请求的总数。
    • 花括号 {} 中包含了标签,这些标签提供额外的维度信息,如 method="post" 表明这是 POST 方法的请求,而 code="200" 表示响应状态码为200。
    • 数值 1027 表示满足这些条件的请求总数。
  • Prometheus 的指标数据可以有不同类型,如 Counter、Gauge、Histogram 和 Summary,它们的表示形式会有所不同。如,Histogram 类型的指标会包括多行来表示各个桶的累积计数:

    http_request_duration_seconds_bucket{le="0.05"} 24054
    http_request_duration_seconds_bucket{le="0.1"} 33444
    http_request_duration_seconds_bucket{le="0.2"} 100392
    http_request_duration_seconds_bucket{le="0.5"} 129389
    http_request_duration_seconds_bucket{le="1"} 133988
    http_request_duration_seconds_bucket{le="+Inf"} 144320
    http_request_duration_seconds_sum 53423
    http_request_duration_seconds_count 144320
    
    • http_request_duration_seconds_bucket 表示不同的桶,每个桶对应一个 le(小于等于)某个值的范围。数值是落入该范围内的请求次数。http_request_duration_seconds_sum 表示所有请求持续时间的总和,而 http_request_duration_seconds_count 表示请求的总次数。通过这些数据,可以计算出请求持续时间的平均值、分布等统计信息。

  • 可以将 Prometheus 的指标数据形式视为一种特殊的键值对(K/V)类型,但它比传统的键值对表达形式更为复杂和功能丰富。在这种情况下,“键”是由指标名称和一组标签(每个标签都有键和值)组合而成的,而“值”则是与这个唯一标识符(即“键”)相关联的数值。以HTTP 请求指标为例:
http_requests_total{method="post",code="200"} 1027
  • 键(Key):由指标名称 http_requests_total 和一组标签 {method="post",code="200"} 组成的。指标名称提供度量的目标,而标签提供额外的上下文,这样就可以区分相同指标在不同条件下的值。
  • 值(Value)1027 表示满足 method="post"code="200" 这两个条件的请求总数。
03-25 08:55