【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度

语言: CN / TW / HK

伏羲(Fuxi)是十年前最初创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute,分布式调度 Fuxi),当时的设计初衷是为了解决大规模分布式资源的调度问题(本质上是多目标的最优匹配问题)。

随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。

MaxCompute作为阿里经济体的大数据计算平台,每天运行着数以千万计的作业,处理EB级别的数据,这些作业和数据分布在全球各个数据中心的不同集群,当作业运行和输入数据不在同一个集群中时,称之为跨集群数据依赖。随着MaxCompute业务的高速发展,跨集群依赖量也急速增长。复杂的业务依赖关系不可避免的会产生大量的跨数据中心的网络传输,而跨数据中心的网络具有带宽小,延迟高,稳定性低的特点,并且价格还贵。如何平衡各集群的计算和存储利用率,降低带宽成本,成为了亟待解决的一个难题。

这次我们不再给你万字长文,而是请到了“愚公”系统的两位主要技术负责人,以脱口秀方式,为大家介绍阿里巴巴MaxCompute团队对于多集群数据和计算调度最优解决方案的探索和阶段性成果。

技术人的脱口秀来啦~~~

image



image



image
image

想了解更多?
欢迎加入 MaxCompute开发者社区钉钉群,与更多阿里巴巴大数据技术专家和大数据开发者共同交流
image

分享到: