开发者社区> 阿里云云原生小助手> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

阿里云云边一体容器架构创新论文被云计算顶会 ACM SoCC 录用

简介: 此次论文入选 ACM SoCC,是阿里云在云原生容器技术领域,拓展服务边界,实现云边协同的又一次创新。
+关注继续查看
福利推荐:阿里云、腾讯云、华为云等大品牌云产品全线2折优惠活动来袭,4核8G云服务器899元/3年,新老用户共享优惠,点击这里立即抢购>>>

近日,由阿里云撰写的关于 KOLE 创新论文被 ACM SoCC 国际会议长文录用。


1.png


ACM Symposium on Cloud Computing(以下简称 SoCC)是由美国计算机协会主办、聚焦云计算技术的一项学术会议,是云计算的首要会议。它汇集了对云计算感兴趣的研究人员、开发人员、用户和实践者,是唯一由 SIGMOD(数据管理特别兴趣组)和 SIGOPS(操作系统特别兴趣组)联合主办的会议, 这个会议在近些年蓬勃发展,旨在聚集数据库和计算机系统两大领域的学者,共同推进云计算技术在工业界的研究与发展。


此次被录用的论文为《KOLE: Breaking the Scalability Barrier for Managing Far Edge Nodes in Cloud》。此论文灵感诞生于阿里云边缘容器产品 ACK@Edge ,ACK@Edge 是阿里云容器服务针对边缘计算场景推出的云边一体化协同托管方案,采用非侵入方式增强,提供边缘自治、边缘单元、边缘流量管理、原生运维 API 支持等能力,以原生方式支持边缘计算场景下的应用统一生命周期管理和统一资源调度,现阶段已经覆盖了 CDN、音视频直播、物联网、物流、工业大脑、城市大脑、地产、票务、新零售、能源、交通等实际业务场景,并服务于阿里云 LinkEdge、盒马、优酷、视频云、大麦、CDN 等多个业务或项目中。


2.png


KOLE ?全称:A framework built on top of Kubernetes to Orchestrate Limitless (far) ?Edge nodes。KOLE 针对 Kubernetes 在云边一体,大规模边缘节点管理方面的挑战,创新性的提出了基于 Kubernetes的新的云边架构,通过利用新的云边通信协议以及缓存快照的方式,使 Kubernetes 能够轻松管理数百万节点。为了突破 Kubernetes 管理大量边缘节点的可扩展性限制,KOLE 的设计遵循三个标准:


  • 避免创建大量对象来持久化边缘节点的状态;
  • 避免在节点与 APIServer 中保持大量的 HTTP 连接;
  • 使用 Kubernetes CRD 支持对边缘节点及其运行的应用程序进行所需的管理操作。?


基于以上原则,KOLE 创新性的使用了 MQTT 协议作为云边通信机制,MQTT 被设计用于轻量级的发布/订阅式消息传输,旨在为低带宽和不稳定的网络环境中的物联网设备提供可靠的网络服务,是专门针对物联网开发的轻量级传输协议,并且适合百万级设备连接, MQTT 协议针对低带宽网络,低计算能力的设 备,做了特殊的优化,MQTT 的传输格式非常精小,最小的数据包只有 2 个比特,相对于 HTTP 协议具有更低的能耗。


经过我们大量的实验测试评估,KOLE 可以支持多达 100 万个节点,而不会给 Kubernetes 的核心组件(如 Apiserver 和 etcd)带来显著的开销。我们能够使用 KOLE 在约 73 秒内将工作负载规范分发到 100 万个节点,在 5 分钟内处理 100 万个节点注册,并在约 20 秒内使用快照中的 100 万个节点重建云状态缓存。具体特点如下:


  • 更强的处理节点心跳的性能


3.png


实验数据表明 KOLE 处理所有心跳的时间几乎随着节点数量的增加呈线性增加。处理一百万个注册心跳需要 ~9.2 秒。


  • 更低的云端控制器组件的消耗


4.png


对于 100 万个节点,KOLE 控制器和 MQTT Broker 的内存消耗分别为 10.6GB 和 57.3GB,CPU 使用率适中,KOLE 控制器消耗~1.4 个核心,MQTT Broker 消耗~2 个核心。


  • 更快的工作负载分发


5.png


KOLE 通过 MQTT Topic 发送到单个节点时提供了线性可扩展性。将工作负载分别分发到一百万个节点需要 73 秒。线性来自 KOLE 控制器按顺序发布所有 MQTT Topic 的事实。


  • 更高效的云状态缓存快照


6.png


由于 Kubernetes 对 CRD 的限制为 1MB 大小,因此 KOLE 将云状态缓存的序列化字节流设置为为 500MB,对于一百万个节点,这意味着需要 ~500 个快照用于保存一张快照的 CR 实例。另外为了对数据进一步压缩,KOLE 对常见的压缩算法进行了测试,最终在 KOLE 中,我们选择 gzip 作为默认压缩算法,因为它提供了高压缩比和快速压缩时间,将快照 CR 的数量从 503 个减少到 33 个(减少 93%)。


7.png


在极端情况下, 我们需要从快照中恢复最原始的数据,上图展示了从快照构建云状态缓存所需要时间,其中包括从 APIServer 加载所有快照 CR 的时间以及运行解压缩算法以恢复数据结构的时间。使用 gzip 算法构建具有 100 万个节点的缓存需要 ~20 秒。为了突出 KOLE 中快速状态恢复的优势,我们通过列出来自 APIServer 的大量单个节点对象来检查 Kubernetes List API 的性能。结果如上图所示。正如预期的那样,从 APIServer 列出大量对象是低效的。列出一百万个节点对象需要 900 秒。很多 Kubernetes 控制器如 kube-scheduler,kube-controller-manager 需要在启动过程中列出所有节点, List API 性能是他们支持大量节点的瓶颈之一。


  • 更迅速的批量节点注册


8.png


实验结果表明,在拥有 100 万个节点情况下,同时批量注册成功需要 260 秒左右。


此次论文入选 ACM SoCC,是阿里云在云原生容器技术领域,拓展服务边界,实现云边协同的又一次创新。


附论文信息


录用论文题目:


KOLE: Breaking the Scalability Barrier for Managing Far Edge Nodes in Cloud


作者:张杰,晋晨,黄玉奇,易立,叔同,郭飞


论文概述:在边缘计算领域,越来越多的趋势是利用容器化和 Kubernetes 等云原生技术和平台来管理边缘应用程序以提高运营效率。不幸的是,Kubernetes 中每个集群支持的节点数量只有几千个,这远远少于在典型边缘计算场景中所能管理的设备节点数量。在本文中,我们提出了 KOLE 方案,这是一个扩展上游 Kubernetes 以支持大量边缘节点的框架。它用 MQTT 消息系统代替了 Kubernetes 中现有的 Apiserver 与节点的通信机制。MQTT 代理完全卸载了为 Apiserver 中的节点保持大量 HTTP 连接的开销。在 KOLE 中,我们通过在云状态缓存中维护它们来避免在 Apiserver 中创建大量单独的对象。缓存会定期生成快照以进行灾难恢复。总体而言,KOLE 通过牺牲拥有单个对象的可管理性实现了出色的可扩展性。实验结果表明,KOLE 具有可扩展性,可支持百万级别的节点。


点击此处,了解边缘容器服务 ACK@Edge 更多详情!

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云云边一体容器架构创新论文被云计算顶会 ACM SoCC 录用
此次论文入选 ACM SoCC,是阿里云在云原生容器技术领域,拓展服务边界,实现云边协同的又一次创新。
0 0
又一创新!阿里云 Serverless 调度论文被云计算顶会 ACM SoCC 收录
阿里云 Serverless 函数计算不断突破:发布基于函数画像的调度算法论文,在提升资源利用率的同时达到性能高稳定性。
0 0
容器技术获取IOSO9001认证云技术技术|睿云智合Wise2C
随着我公司业务的不断扩大,为了适应发展的需要,尽快与国际接轨为客户提供更优质的服务,引入ISO9001国际质量体系标准已成为迫切需要。
1200 0
KubeCon2018西雅图在前线(一):云原生概念已经深入人心
云原生的征程是星辰大海。Kubernetes是云原生中最亮眼的代表。
3418 0
Qcon大会·上海站:探索自动驾驶 AI 训练的统一存储演进之路
Qcon大会·上海站:探索自动驾驶 AI 训练的统一存储演进之路
0 0
容器服务与达摩院合作 AHPA 获 AAAI 2023 IAAI人工智能创新应用奖
近日,阿里云容器服务 ACK 与达摩院数据决策团队合作的论文《AHPA: Adaptive Horizontal Pod Autoscaling Systems on Alibaba Cloud Container Service for Kubernetes》获 AAAI 2023 IAAI 人工智能创新应用奖。
0 0
阿里云ET的成功应用——云博士架构揭秘
简介 近几年来,阿里云作为国内最大的云计算服务提供商,随着用户量的急剧上升,产品规模的迅速扩大,用户的服务需求也随之攀升,如何利用阿里云人工智能技术高效的解决用户的问题? 在2016年年初,阿里云服务团队和ET人工智能团队合作,启动了云博士机器人的项目,旨在用人工智能技术提升用户的服务体验。
3849 0
ACM SIGKDD 主席裴健:AI 要想有突破,「计算-数据-智能」平台和生态建设是关键
我们面临的最大挑战同时也是最大的机会将是如何用最新的人工智能技术把握不确定性、管理不确定性、经营不确定性。
659 0
+关注
文章
问答
来源圈子
更多
阿里云 云原生应用平台 肩负阿里巴巴集团基础设施云化以及核心技术互联网化的重要职责,致力于打造稳定、标准、先进的云原生产品,成为云原生时代的引领者,推动行业全面想云原生的技术升级,成为阿里云新增长引擎。商业化产品包括容器、云原生中间件、函数计算等。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
2021云上架构与运维峰会演讲合集
立即下载
谐云科技联合阿里云深耕容器技术
立即下载
云原生技术与架构实践年货小红书
立即下载


http://www.vxiaotou.com