背景

默认调度器调度器视某个节点的空闲可调度资源=节点可分配资源 – SUM(节点上已调度Pod们的request),当某个Pod处于pending状态待调度时，默认调度器根据Pod中指定的request值和各个节点的空闲可调度资源比较，如果某个节点空闲可调度资源，则节点不可被调度，反之则可能被调度。

从这里可以看出，默认调度主要是依据各个pod创建时设置的request值，可能导致：

业务实际负载需要的资源远大于创建时指定的request值，导致节点部署过密，影响业务运行稳定性；
业务实际负载需要的资源小于创建时候指定的request值，导致节点部署稀疏，造成资源浪费

基于volcano节点真实负载感知调度方案介绍

默认调度器基于上述调度策略的主要原因是，k8s自己没有真实去获取节点真实资源消耗，导致无法实现更合理的节点的空闲可调度资源=节点可分配资源 – 节点真实资源使用。开源Prometheus可以获取到各个节点的真实负载情况，基于volcano调度插件的能力可以实现基于应用能够基于真实负载调度，在资源满足的情况下，Pod优先被调度至真实负载低的节点，集群各节点负载趋于均衡。

CCE集群开启负载感知调度

限制

已创建v1.21及以上版本的集群

已安装Volcano 1.11.14及以上版本的插件

已安装CCE云原生监控插件（kube-prometheus-stack），并选择server模式

开启负载感知调度

安装Volcano调度器、云原生监控插件（安装server模式，agent模式没有custom-metrics API）

集群通过Custom Metrics API提供资源指标，修改adapter-config的configMap，添加自定义指标采集规则。配置项与密钥->命名空间选择 “monitoring” ->找到user-adapter-config 点击 “更新”

编辑->添加新规则

- seriesQuery: '{__name__=~"node_cpu_seconds_total"}' 
    resources: 
      overrides: 
        instance: 
          resource: node 
    name: 
      matches: node_cpu_seconds_total 
      as: node_cpu_usage_avg 
    metricsQuery: avg_over_time((1 - avg (irate(>{mode="idle"}[5m])) by (instance))[10m:30s]) 
  - seriesQuery: '{__name__=~"node_memory_MemTotal_bytes"}' 
    resources: 
      overrides: 
        instance: 
          resource: node 
    name: 
      matches: node_memory_MemTotal_bytes 
      as: node_memory_usage_avg 
    metricsQuery: avg_over_time(((1-node_memory_MemAvailable_bytes/>))[10m:30s])

CPU平均利用率采集规则

node_cpu_usage_avg： 表示节点的CPU平均利用率，该指标名不可修改。

metricsQuery: avg_over_time((1 – avg (irate(>{mode=“idle”}[5m])) by (instance))[10m:30s])：为节点CPU平均利用率的查询语句。当前metricsQuery表示查询所有节点最近10分钟的CPU平均利用率，如果希望调整平均值的计算周期，可以修改上述标红的10m。(30s是分辨率)

Memory平均利用率采集规则：

node_memory_usage_avg： 表示节点的Memory利用率，该指标名不可修改。

metricsQuery:avg_over_time(((1-node_memory_MemAvailable_bytes/>))[10m:30s]) 为节点Memory平均利用率的查询语句。

当前metricsQuery表示查询所有节点最近10分钟的Memory平均利用率，如果希望调整平均值的计算周期为，可以修改上述标红的10m。(30s是分辨率)

新部署metrics-api-server负载，使其加载user-adapter-config的最新配置