【云驻共创】华为云原生之Kubernetes高级调度器原理详解（华为云 kubernetes）-伙伴云

【云驻共创】华为云原生之Kubernetes高级调度器原理详解（华为云 kubernetes）

网友投稿 845 2022-05-30

前言

《云原生王者之路集训营》是华为云云原生团队精心打磨的云原生学习技术公开课，分为黄金、钻石、王者三个阶段，帮助广大技术爱好者快速掌握云原生相关技能。本课程为黄金课程的第三课，由容器基础设施团队，容器批量计算架构师William Wang主讲，为大家深入讲解Kubernetes调度流程原理以及典型调度算法。

目标学员：计算机、软件工程等专业的大学生，涉及Kubernetes、Istio等技术的应用开发者，其他的云原生技术兴趣爱好。学完本课程后，您将能够：了解Kubernetes调度器的工作原理及典型的调度算法；理解常见的Kubernetes的高级调度特性；理解华为云 Volcano 的典型批量调度算法。

一 kubernetes scheduling

1.1 kubernetes调度模式

调度器是主节点上的组件，该组件监视那些新创建的未指定运行节点的 Pod，并选择节点让 Pod 在特定Node上面运行。

1.2 kubernetes default schedule 特点

kube-scheduler 是 Kubernetes 集群的默认调度器，并且是集群控制面的一部分，kube-scheduler 在设计上是允许用户自己编写调度组件并替换原有的 kube-scheduler。

对每一个新创建的 Pod 或者是未被调度的 Pod，kube-scheduler 会选择一个最优的 Node 去运行这个 Pod。然而，Pod 内的每一个容器对资源都有不同的需求，而且 Pod 本身也有不同的资源需求。因此，Pod 在被调度到 Node 上之前，根据这些特定的资源调度需求，需要对集群中的 Node 进行一次过滤。

在一个集群中，满足一个 Pod 调度请求的所有 Node 称之为可调度节点。如果没有任何一个 Node 能满足 Pod 的资源请求，那么这个 Pod 将一直停留在未调度状态直到调度器能够找到合适的 Node。

调度器先在集群中找到一个 Pod 的所有可调度节点，然后根据一系列函数对这些可调度节点打分，然后选出其中得分最高的 Node 来运行 Pod。之后，调度器将这个调度决定通知给 kube-apiserver，这个过程叫做绑定。

在做调度决定时需要考虑的因素包括：单独和整体的资源请求、硬件/软件/策略限制、亲和以及反亲和要求、数据局域性、负载间的干扰等等。

1.3 调度框架和调度流程

Informer list/watch资源变化，更新queue和cache;NextPod()从待调度队列获取队首的Pod;

从cache中获取Node列表;

针对Pod和NodeList执行Predicate算法,过滤掉不合适的节点;

针对Pod和NodeList执行Priority算法,给节点打分;

根据打分，计算出得分最高的节点;

当高优先级的Pod没有找到合适的节点时,调度器尝试为其抢占优先级低的Pod;

当调度器为Pod选择了一个合适的节点时,通过Bind将Pod和节点进行绑定;

通过cache机制可以对在进行执行Predicate的时候提升效率。

在节点绑定bind操作不是这直接操作apiserver的bind，而是在缓存至执行bind操作node的pod信息。之后启动golang的协程异步向apiserver发请求，这种机制可以大大加快调度器处理pod的速度和效率。

1.3 调度策略与算法

Predicates，筛选不合格的节点。

预选阶段：排除完全不符合运行这个 POD 的节点、例如资源最低要求、资源最高限额、端口是否被占用。

Priorities

优选阶段：基于一系列的算法函数计算出每个节点的优先级，按照优先级排序，取得分最高的 node。

选中阶段：如果优选阶段产生多个结果，那么随机挑选一个节点。

优选：调度器会为 Pod 从所有可调度节点中选取一个最合适的 Node。根据当前启用的打分规则，调度器会给每一个可调度节点进行打分。最后，kube-scheduler 会将 Pod 调度到得分最高的 Node 上。如果存在多个得分最高的 Node，kube-scheduler 会从中随机选取一个。

优先级选项包括：

LeastRequestedPriority ：通过计算 CPU 和 Memory 的使用率来决定权重，使用率越低权重越高。换句话说，这个优先级指标倾向于资源使用比例更低的节点；

BalancedResourceAllocation ：节点上 CPU 和 Memory 使用率越接近，权重越高。这个应该和上面的一起使用，不应该单独使用；

ImageLocalityPriority ：倾向于已经有要使用镜像的节点，镜像总大小值越大，权重越高

通过算法对所有的优先级项目和权重进行计算，得出最终的结果。

二 Kubernetes的高级调度特性

2.1 kubernetes中的Label，selector机制

kubernetes中的Label，selector机制通常用于对Pod进行过滤，分离和筛选。

任意的metadata，所有API对象都有Label，通常用来标记“身份”，可以查询时用selectors过滤

类似SQL 'select .. where... '

Label是kubernetes系统中的一个重要概念。它的作用就是在资源上添加标识，用来对它们进行区分和选择。Label的特点:

一个Label会以key/value键值对的形式附加到各种对象上，如Node、Pod、Service等等。

一个资源对象可以定义任意数量的Label，同一个Label也可以被添加到任意数量的资源对象上去。

Label通常在资源对象定义时确定，当然也可以在对象创建后勃态添加或者删除。

可以通过Label实现资源的多维度分组，以便灵活、方便地进行资源分配、调度、配置、部署等管理工作。

Label用于给某个资源对象定义标识

Label Selector用于查询和筛选拥有某些标签的资源对象

App:标识app的名称

Phase：表示运行环境

Role：表示角色

可以通过App，Role进行组合进行pod的调度。

2.2 Node Affinity

希望pod可以调度到一些特定的节点上，有些node支持gpu或性能比较好。通过selector机制，可以将pod运行在某些选定的节点上。

2.3 Pod Affinity

POD 和 POD 出于高效的通信这种需求，所以需要将 POD 和 POD 组织在同一台机器，同一个机房，例如：LNMT 如果能运行在同一个主机上更好。想把一组 POD 运行在一起，使用节点亲和性就可以实现，为了达成这个目的，我们需要：把节点标签精心编排，希望在一起运行的 POD，就使用同一组标签选择器来选择节点，这种方式需要管理节点标签和 POD 亲和性才能做到。

想把一组 POD 运行在一起，使用 POD 亲和性，我们可以设置 POD 对某个 POD 的亲和性，那么比如：LNMT，那么 MySQL 和 Tomcat 可以设置为更加亲和 Ngninx 所在的主机或机柜，所以必须有个前提就是 POD 和 POD 怎么才是最近的，这个标准是什么，也就是什么是同一位置，怎么才能知道 node 和 node 是在一个机柜。所以可以为同一个机柜的 node 节点打上相同的标签。

MySQL 和 Tomcat 一定不能和 Nginx 运行在一起，这就是反亲和性。

POD 对其他 POD 的亲和性，

详见：kubectl explain pods.spec.affinity.podAffinity

podAffinity

【云驻共创】华为云原生之Kubernetes高级调度器原理详解（华为云 kubernetes）

【云驻共创】年轻人如何入场元宇宙？未来已来！

【云驻共创】20年华为扫地僧，揭开亿万级路灯互联的智能奥秘！

【云驻共创】鹏城论剑，共话数据库前沿技术和趋势

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

什么是在线文档？怎么发在线文档

友情链接

【云驻共创】华为云原生之Kubernetes高级调度器原理详解（华为云 kubernetes）

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接