开发者社区> EdgePlus> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

双11背后通信技术解读:大促场景下云通信高可用、稳定性实战

简介: 为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系统课程还在继续中。12月21日的秒懂云通信,阿里云高级技术专家卢彬彬分享了《安全可靠 稳如泰山+揭秘双11背后阿里云通信黑科技》,带你了解电商大促场景下云通信是如何赋能全链路高效连接,确保系统的高可用、稳定性的最佳实战。
+关注继续查看
福利推荐:阿里云、腾讯云、华为云等大品牌云产品全线2折优惠活动来袭,4核8G云服务器899元/3年,新老用户共享优惠,点击这里立即抢购>>>

为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系统课程还在继续中。12月21日的秒懂云通信,阿里云高级技术专家卢彬彬分享了《安全可靠 稳如泰山+揭秘双11背后阿里云通信黑科技》,带你了解电商大促场景下云通信是如何赋能全链路高效连接,确保系统的高可用、稳定性的最佳实战。

云通信海报.png

本次分享主要包括三个方面,第一是针对和稳定性,云通信业务架构如何保证;第二是从流量和整个流程和机制上,如何保障稳定性;第三是流量控制体系是怎么支持云通信的高可用、稳定性的。

云通信平台技术架构

云通信的整体平台架构构建在阿里云的基础设施之上,技术架构上则分成三层的架构:

第一层架构多网关分组这一层,主要是面向供应链体系,通过多协议适配、多接入方式、多region部署解决供应链资源快速的接入和使用,同时在高可用性上通过物理、逻辑多维度的隔离的隔离措施以及全覆盖的心跳管理体系,解决供应链通道出现故障时的快速隔离和恢复。

第二层是业务处理层,核心包括风控体系以及资源的智能调度、智能决策。主要是针对通信业务比较核心的基础能力平台,技术上基于多队列、削峰填谷、业务客户等维度资源隔离、延迟、限流、降级容灾等一系列的手段保障平台稳定运行。通过这些年的积累,形成了通信业务的安全、调度平台,结合ASR、TTS、NLP等AI技术,解决业务的安全、多模型的调度策略,让通信业务更健康、更高效的触达消费者。

最上层是面向客户的统一接入层,为了能让客户更方便的管理和使用云通信的服务,除了提供官网控制台的基础开通、查询等功能,我也提供了面向开发者的多语言的OpenAPI SDK以及移动、PC端侧SDK,覆盖各种业务场景,通过技术手段帮助客户快速、便捷地集成使用云通信的能力。

屏幕快照 2020-12-22 下午4.56.08.png

多网关分组架构

大促场景下流量是非常大的,云通信在面对洪峰流量的时候,需要按照业务场景进行隔离,针对容灾情况、资源、供应链、热点数据处理进行隔离。这一套非常标准的流程和机制,能保证云通信针对高并发的情况下的系统稳定性,实现客户角度的完全无感知。

流量控制系统架构

通常在大促场景下,客户的入口流量可能会呈现非常大的突发性,从客户入口量进来以后,经过中间这层核心的流量管控机制,最终保证客户的请求非常平稳的分发到不同的地域、分组以及机房。

屏幕快照 2020-12-22 下午4.55.50.png

再举个一个更实际的例子,假设我们把洪峰流量比喻成水流,那么流量控制系统就是三峡这样的水利系统,当遭遇流量洪峰,如果不被很好控制,很有可能会带来业务场景的损失,或者达不到SLA要求,所以流量管控体系非常重要。

基于阿里云通信流量控制系统,即使入口流量非常巨大,也能通过流量控制器将并发流量平缓、稳定的分发到不同网关和地域分组上,保证资源的稳定性。同时,任何一个节点出现了不稳定的情况,系统都会第一时间感知并且做出调整,整个过程客户无感知。对于整个流量控制系统的架构来说,客户从入口流量到出口流量的场景是非常丰富、复杂的,而阿里云通信整体的控制体系可以完成自动化的闭环,利用削峰填谷等平滑调度策略,保证业务的平稳。此外,在决策系统会按照客户与资源的情况进行一个最佳的匹配,确保延迟、成功率、稳定性等均得到保障。

总而言之,阿里云基于数据、算法和平台,打造的一套完整的流量控制体系,可以实现从入口流量的客户场景转换,到资源池、逻辑资源、物理资源、通道、网关连接等全链路的自动化匹配转换,实现全生命周期闭环管理。

从一个具体场景来看,从入口流量开始,假设一个客户批量请求了100万短信,流量控制体系第一道先把客户的请求按照场景先做一层缓冲控制。转换完以后,结合实际的资源情况做了一层供需关系的一个匹配和控制。最终我们分发到单个连接的QPS的时候,从客户的入口流量来说,瞬间请求可能达到10万QPS,而真正分发到单连接的时候就变成非常低了,对于运营商来说,他的系统也是非常稳定的。所以也不会因为客户入口流量冲击导致出口流量不稳定,以此来保证无论客户使用场景多复杂,最终的SLA和请求耗时、延迟都能满足客户需求。

如何保证平台运行稳定?

在企业生产过程中,平台运行的稳定性是重中之重。“在稳定性上, “1、5、10”是我们始终追求的目标,1分钟发现,5分钟定位,10分钟恢复。”在系统的稳定性和高可靠上主要是围绕4个方向展开。

屏幕快照 2020-12-22 下午4.55.58.png

第一是在全链路的容灾体系建设,当前整体链路包括对于第三方的依赖完整支持了双机房、双活高可用体系的建设。在整个链路上通过心跳等实时探测机制,在应用、机器、机房维度出现故障是具备分钟级别隔离的能力。基于阿里本身沉淀的故障演练机制,会通过定期、突袭的演练方式,发现问题逐步迭代完善、演进平台的技术架构。

第二是在统一的接入和网关的接入层面,采用了多region的策略,就近边缘部署,降低接入成本,降低数据在物理网络链路传输过程中的时延,保障通话质量。同时,跨region的容灾体系可以在当某个region出故障的时候,能够切换到另外一个region进行服务,进一步提升服务的稳定性。

第三是主要在网关层面,通过不同的接入方式,以及多维度降级、逃生的容灾策略,基于客户特性、产品特性和资源特性做了不同维度的降级和切换策略来保障极端情况下的业务持续可用。

第四是在整个链路层面进行监测以及分级告警,针对核心业务和核心链路提供7x24小时运维保障,针对系统运行过程中出现的告警定义了p1-p4的分级,对不同级别的告警我们采用了多种的触达方式,如钉钉消息、短信、电话形式进行不同配置的触达,通过告警的升级和触达方式的升级尽可能保证在最短的时间内发现问题、处理问题,恢复线上的生产。

后续更多产品、技术和活动信息,可以进入云通信官方交流群进行了解:

image.png

点击观看直播回放:https://yqh.aliyun.com/live/detail/21594

点击进入秒懂云通信,获取更多视频:
https://yqh.aliyun.com/live/cloudcommunication-videos

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
TF之DD:利用Inception模型+GD算法生成带背景的大尺寸、高质量的Deep Dream图片——五个架构设计思维导图
TF之DD:利用Inception模型+GD算法生成带背景的大尺寸、高质量的Deep Dream图片——五个架构设计思维导图
15 0
草系前端手摸手带你实现正则引擎,点燃夏日最热情的烟火(一)?
草系前端手摸手带你实现正则引擎,点燃夏日最热情的烟火(一)?
15 0
TF之DD:利用Inception模型+GD算法生成更大尺寸的Deep Dream精美图片
TF之DD:利用Inception模型+GD算法生成更大尺寸的Deep Dream精美图片
41 0
OceanBase TechTalk上海站启动报名,深入解读蚂蚁双11背后的关键技术和实战分享!
这个冬天我们来到了上海想与你们聊聊OceanBase支撑蚂蚁双11背后的关键技术和实战分享,三位双11背后的男人将为大家带来大促背后核心技术的全揭秘。点击链接即可免费报名活动!
2217 0
阿里云启动API创新大赛 资源编排技术为场景赛题
云计算如何为企业提供更高效的服务已经成为一个无法绕开的技术领域。企业对云资源的使用,对云资源的管控等等都成为我们必须要优化的部分。如何通过统一的方式,向各行各业的企业提供统一的解决方案和软件快速交付的手段,都面临这个挑战。
3347 0
Android Design Support Library全解:Part 1 Floating Action Button 悬浮按钮
Android Design Support Library系列第一弹,悬浮按钮 悬浮按钮(Floating action button ,FAB) 简单来说是一种圆形按钮,其悬浮于UI之上,四周有阴影环绕,可以用于实现一些高级操作,比如添加新的条目,或是为邮件添加附件等等。
1191 0
【Android 】【Monkey Demons】 针对性的进行稳定性测试
##前言 目前大部分的Monkey测试的方式大都无法对独立的模块进行稳定性测试,而每个业务线的入口在测试阶段很难通过原生的Monkey测试(随机性较强)来发现自己模块内crash的问题,针对这个问题,这个工具设计开发的初衷就是为了能够缩小测试范围,在测试阶段指定业务模块内发现和暴露更多的稳定性相关的问题。 ##工具介绍: Demons(守护程序)是自主研发的一套独立于monkey测
3180 0
12.1、Libgdx的图像之持续性和非持续性渲染
(官网:www.libgdx.cn) Libgdx在默认情况下,渲染现成调用render()方法进行持续性渲染。频率取决于你的硬件设备。 有时候有些游戏中并不需要持续性的渲染,为了省电,可以关掉持续性渲染。
813 0
+关注
EdgePlus
阿里云产品运营,专注边缘计算和视频云产品与技术传播
528
文章
59
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载


http://www.vxiaotou.com