kube-state-metrics在kubernetes集群下的分片机制

对于小规模集群，由于数据量不大，kube-state-metrics可以使用deploy部署1个replica，正常提供metrics的采集和拉取。

对于大规模集群，由于pod/deploy等资源对象较多，仅通过一个kube-state-metrics实例来提供metrics还是非常吃力的，可能会导致pod宕机，频繁重启。

这种情况下，kube-state-metrics提供了分片机制，也就是部署多个kube-state-metrics Pod，让每个Pod负责一部分数据的采集。

一. 手动分片

kube-state-metrics的启动参数中，提供了shard参数：

# kube-state-metrics -h
kube-state-metrics is a simple service that listens to the Kubernetes API server and generates metrics about the state of the objects.

Usage:
  kube-state-metrics [flags]
  kube-state-metrics [command]

Available Commands:
  completion  Generate completion script for kube-state-metrics.
  help        Help about any command
  version     Print version information.


Flags:
      --shard int32                  The instances shard nominal (zero indexed) within the total number of shards. (default 0)
      --total-shards int             The total number of shards. Sharding is disabled when total shards is set to 1. (default 1)
      ...

分片是通过对kubernetes资源对象的uid计算md5，然后 % total_shards 得到shard，每个kube-state-metrics仅负责采集自己的shard。

这种分片方式，需要手动指定shard和total-shards，不够灵活，不推荐。

二. 自动分片

自动分片通过statefulset部署多个副本的kube-state-metrics，启用自动分片的方法：

以statefulset部署kube-state-metrics；
kube-state-metrics的启动参数，传入--pod 和 --pod-namespace；

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: kube-state-metrics
  namespace: kube-system
spec:
  replicas: 2
  template:
    spec:
      containers:
      - args:
        - --pod=$(POD_NAME)
       - --pod-namespace=$(POD_NAMESPACE)
        env:
        - name: POD_NAME
          valueFrom:
            fieldRef:
              fieldPath: metadata.name
        - name: POD_NAMESPACE
          valueFrom:
            fieldRef:
              fieldPath: metadata.namespace
        image: registry.k8s.io/kube-state-metrics/kube-state-metrics:v2.7.0
        ......

传入--pod和--namespace参数后，kube-state-metrics进程会自动进行分片采集，它会通过client-go检测statefulset有几个replicas，然后自动给replicas进行分片：

func (m *MetricsHandler) Run(ctx context.Context) error {
    autoSharding := len(m.opts.Pod) > 0 && len(m.opts.Namespace) > 0            // 自动分片
    ss, err := detectStatefulSet(m.kubeClient, m.opts.Pod, m.opts.Namespace)    // pod所属的statefulset
    …
    shard, totalShards, err := shardingSettingsFromStatefulSet(ss, m.opts.Pod)  // 对statefulset的replica分片
    ...
}

当然，使用自动分片也是有缺点的，由于statefulset的滚动升级策略是一个一个的替换pod，导致升级的速度较慢，可能会导致每个分片出现短暂的宕机。

三. 针对pod的按节点分片

针对大规模集群中pod资源较多，kube-state-metrics采集的pod指标量较大的情况，可以单独针对pod的指标进行分片：

分片的方法是按node分配，也就是部署daemonset，每个节点部署一个replica，然后每个replica仅负责采集自己所在node的pod指标；
kube-state-metrics启动参数指定:
- --resources=pod：仅采集pod的指标；
- --node=${NODE_NAME}：仅采集本节点的pod指标；

apiVersion: apps/v1
kind: DaemonSet
spec:
  template:
    spec:
      containers:
      - image: registry.k8s.io/kube-state-metrics/kube-state-metrics:v2.7.0
        name: kube-state-metrics
        args:
        - --resource=pods
        - --node=$(NODE_NAME)
        env:
        - name: NODE_NAME
          valueFrom:
            fieldRef:
              apiVersion: v1
              fieldPath: spec.nodeName

这种方式是针对pod指标做的分片方法，也自然就采集不到其它指标了，比如kube_deploy_*、kube_configmap_*等。

参考

1.官方doc: https://github.com/kubernetes...
2.指标信息：https://github.com/kubernetes...

kube-state-metrics在kubernetes集群下的分片机制

一. 手动分片

二. 自动分片

三. 针对pod的按节点分片

参考

a朋

引用和评论

alertmanager源码：整体架构和流程分析

Jenkins 企业级 CI/CD 实践：安装、配置与 Kubernetes & Docker 集成

k8s集群部署（一主两从）

k8s实战基础

使用kubeadm部署高可用IPV4/IPV6集群---V1.32

centos7使用yum网络安装

基于k3s部署Nginx、MySQL、PHP和Redis的详细教程