关于机器学习的三个阶段
709
2022-05-30
4月7日,云原生计算基金会(CNCF)宣布,由华为云捐献的业界首个云原生批量计算项目Volcano正式晋级为CNCF孵化项目。这意味着Volcano的技术生态受到业界广泛认可,CNCF云原生技术版图对于批量计算的支持也已趋于成熟。
华为云CTO张宇昕表示:“华为云一直致力于云原生技术、产业和生态的建设,Volcano融入了华为云在云原生、AI、大数据、HPC等领域中沉积的行业和技术经验,促进云原生技术与企业数据资产高效融合、充分释放数据红利,加速企业数字化、智能化进程。”
CNCF首席技术官Chris Aniszczyk也表示:“对于复杂的Kubernetes工作负载,尤其是AI、大数据等领域,批处理可以大大简化部署。以云原生的方式来精简大批量数据的处理是非常新颖和有价值的实践,Volcano使得Kubernetes能够成为世界级的工具,助力科学研究、高性能计算等行业的发展。”
Volcano项目于2019年6月开源,2020年4月正式成为CNCF沙箱项目。Volcano自2020年进入CNCF以来,在人工智能、大数据、基因测序等海量数据计算和分析场景得到快速应用,并构建起完善的上下游生态,目前腾讯、爱奇艺、小红书、蘑菇街、唯品会、鹏城实验室、锐天投资等企业均已将Volcano应用于生产环境。
自加入CNCF以来,Volcano社区已吸引2.6万全球开发者、并获得2.3k Star和530+ Fork。Google、Facebook、Amazon、Red Hat、华为、百度、腾讯、建信金融科技等科技巨头纷纷加入Volcano社区贡献,海内外生产落地用户广泛分布于互联网、先进制造、金融、生命科学、科研等行业。Volcano也因其创新的技术理念、活跃的社区生态获得第二届“中国优秀开源项目”和 “2021年OSCAR尖峰开源社区及开源项目奖”,其作业管理能力被写入由中国信息通信研究院牵头制定的《高性能计算(HPC)云平台标准》,成为行业标准。
过去两年,Volcano全球生态发展迅速,一批行业标杆用户不仅积极地推动Volcano落地生产环境,也基于自身实践反哺社区,实现双赢。
小红书技术部负责人张雷表示:“云原生批量计算项目Volcano应用于小红书大规模机器学习平台、大数据平台等生产系统,支撑着搜索、推荐、广告、内容审核等多项关键业务,Volcano大大简化和加速了大数据以及AI应用在云原生环境的落地进程,小红书业务系统借助Volcano提供的丰富功能和优越性能,实现了资源成本的降低和作业性能的提升,期待Volcano在云原生领域持续深耕,发挥更大价值。”
中科类脑研发总监常峰提出:“Volcano是最早针对批量计算场景开源的云原生项目之一,其动态可配的高级调度策略和优秀的资源管理能力解决了AI场景下作业调度、生命周期管理、异构硬件支持等多个问题。在落地实践的过程中,我们基于Volcano的能力做扩展,有效提升了系统稳定性和资源利用效率。期待加入CNCF后,在社区的加持下Volcano能持续孕育出更多优秀的解决方案和最佳实践。”
截止目前,Volcano社区共发布21个版本,最新版本为v1.5.1。2022年,社区将会进一步扩大技术版图,聚焦以下能力建设:
跨云跨集群调度:跨集群一直是分布调度系统解决大规模、灾备等问题的主要解决方案。同时,为了降低厂商绑定的风险,并最大限度兼顾不同云厂商的优势,多云环境下的负载高效分发逐渐成为趋势。Volcano将会通过多个项目构建分层调度体系,基于全局资源视图,提供多样化策略如成本优先、效率优先等,为作业发放提供最佳决策。
在离线作业混部:针对业界普遍存在的数据中心集群资源率低下的问题,Volcano将围绕业务感知、在离线统一调度、资源超卖、资源隔离与抢占、动态调度等能力的构建,在保证业务稳定性的前提下实现降本增效。
弹性调度:针对弹性训练、竞价实例的场景,Volcano将会增强基于min,max的调度能力、作业感知、资源抢占能力,实现资源利用最大化。
GPU虚拟化:推理场景以及GPU开发的场景,GPU使用率普遍偏低,Volcano已实现多容器共享使用GPU,未来将进一步增强算力、显存的隔离能力,保障在提升利用率的同时,降低业务间的干扰。
细粒度资源管理:Volcano目前通过Queue提供资源的高效复用,针对更复杂的场景,Volcano将会通过Hierarchy Queue,、Policy per Queue、Plugin per Queue等机制提供更细粒度的管理和共享。
工作流管理:工作量的编排使用越来越广泛,Volcano将基于子项目JobFlow,构建多场景、轻量化、高性能的编排能力。
基于真实负载的动态调度与重调度:针对当前基于资源申请进行的负载调度、资源碎片化引入的节点使用率不均衡的问题,Volcano将结合监控能力构建基于真实负载的动态调度和重调度。
华为云一直是云原生新技术的探路者、产业新格局的开拓者,2015年华为作为唯一亚洲企业参与云原生计算基金会(CNCF)创建,并一直是CNCF核心项目的主要贡献者,代码贡献稳居亚洲第一。除Volcano项目外,华为云还捐献了首个智能边缘计算项目KubeEdge、首个多云容器编排项目Karmada,完善了CNCF的技术生态;同时,华为云还拥有服务网格顶级开源社区Istio在亚洲的首个指导委员会席位。
为进一步推动云原生技术在各行业的落地、构建产业融合新格局,华为云联合中国信通院先后发布了《云原生2.0白皮书》、《数字政府云原生基础设施白皮书》为企业落地云原生提供体系化的理论参考,并与CNCF、中国信通院联合成立了全球云原生交流平台——创原会,为全球企业提供共享、共创、共赢的云原生交流平台,已服务于500+企业的技术管理者。未来,华为云将持续与广大客户一起共建云原生产业生态圈,做深耕数字化的先行者。
AI Kubernetes 云原生
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。