2022云栖精选—数字化安全生产平台DPS重磅发布助力传统运维向SRE转型-阿里云开发者社区

2022云栖精选—数字化安全生产平台DPS重磅发布助力传统运维向SRE转型

2022-11-23 619

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

函数计算FC，每月15万CU 3个月

Serverless 应用引擎免费试用套餐包，4320000 CU，有效期3个月

可观测可视化 Grafana 版，10个用户账号 1个月

简介： 周洋阿里云智能资深技术专家，高可用架构负责人

11 月 5 日，在 2022 杭州·云栖大会上，数字化安全生产平台 DPS 重磅发布，助力传统运维向 SRE 转型。

阿里巴巴资深技术专家周洋

十四五规划下，各行各业全面加速数字化转型与升级。随着企业数字化业务规模变大，迭代速度加快，系统复杂度越来越高，如何保障业务稳定性这一话题也变得愈发重要。下述有几点典型场景和挑战：

场景一：分布式系统面临稳定性保障新挑战

近年来，虽然稳定性关注度日益提高，新技术蓬勃发展，重大故障依然频发且影响巨大。例如，2021年，某证券 IDC 故障 2 小时，导致客户无法交易，产生资损；某视频网站，服务器故障 3 小时无法访问，引发舆论……技术的不恰当使用、人为操作失误、硬件故障、自然灾害、安全攻击依然给生产带来极大风险。

场景二：政策引导IT系统稳定性建设平稳推进

随着数字化转型政策的推进，越来越多国民级应用诞生，大大方便了人们的日常生活，各个企业也相继推出自己的客户端。然而，大多数企业没有经历过多年互联网发展的锤炼，应对线上风险能力不足，亟需以最短时间完成稳定性运维能力的积累，少走弯路。

场景三：传统运维手段已无法满足要求

传统运维存在运维工具割裂、面向基础设施而非业务、被动运维、缺乏规范化的流程机制体系等问题。企业应遵循 SRE（Site Reliability Engineering）和平台运维（Platform Ops）的创新理念，通过软件来实现系统管理、问题发现、问题解决和自动化运维工作。

在现实生活中，无论建造摩天大楼还是家庭工程维护，在保证工程质量的同时，更重要的是避免出现安全事故，造成人员伤害，因此需要一套标准化的工艺流程、技术标准和验收手段等。在软件行业中，同样需要标准化的技术能力和方法论，来保障线上业务稳定性。于是，从 2018 年起，阿里巴巴集团便致力于 IT 软件领域的安全生产建设：一方面加强高可用架构的基础建设，另一方面，提供 SRE 转型的流程机制体系，配合可用性能力、组织能力和灾难恢复能力等目标，形成一套完整的安全生产方法体系。

为此，数字化安全生产平台（DPS）应势而生。DPS 浓缩了阿里巴巴十年运维经验，以 PlatformOps 为理念，以保障业务连续性为目标的一站式管控 SRE 运维平台，具备场景化、数字化和云原生化三大典型特征。

场景化：DPS 以应急场景为中心，弱化组织架构带来的运维限制，同时，DPS 全面的监控和告警规则配置可以支持涵盖业务的各个场景。
数字化：DPS 提供数字化监控大屏、智能化告警、智能故障定位、白屏化故障快恢手段和数字化度量、人员管理等能力，为企业数字化进程添砖加瓦。
云原生化：DPS 以阿里云丰富的云原生产品作为技术支撑，且具备足够的开放性，可以与阿里云一方、二方和开源系统等进行关联。

数字化安全生产平台(DPS)作为阿里巴巴集团数十年互联网探索的沉淀，在平台的架构和演进方面主要关注以下几点：

明确目标和场景：安全生产是全局工程，其能力取决于木桶最短板。因此安全生产需要有明确的目标和场景，且保证主体框架的完整。
打通组织架构：安全生产不仅要解决人和系统、代码的问题，还需要解决人和人、人和制度的问题。因此安全生产需要阿里和行业的优秀技术在一个体系内集成和打通。
面向未来架构： 安全生产同时关注成本和减少损失。因此，安全生产需具有一定的抗技术周期性，架构设计除了要兼容最新的技术栈，也要面向未来架构进行设计。

数字化安全生产 DPS 支持两大典型业务场景：“1-5-10”故障快恢和“变更三板斧”故障预防。

“1-5-10”故障快恢

数字化安全生产平台提供对应急事件和故障的发现、响应和恢复的全生命周期管理。“1-5-10” 对应故障的“1 分钟发现 - 5 分钟响应- 10 分钟恢复”，是定义故障处理的时效性目标。

1 分钟发现：通过建立围绕业务应用的全链路监控能力，能够实时监控业务健康度，如发现稳定性问题将秒级通报至应急保障服务组进行排查，降低故障发生的可能性。
5 分钟响应：通过建立应急响应渠道和全链路故障定位能力，能够快速拉通故障排查人员，基于AIOps智能故障定位和基于ChatOps进行故障状态更新和通知流转，提升故障处理效率。
10 分钟恢复：通过建立完善的故障快恢体系，基于方案内置丰富的快恢能力，能够根据不同的故障类型智能化推荐合适的快恢预案，缩短故障恢复时长。

“变更三板斧”故障预防

数字化安全生产平台 DPS 将极易引发线上故障的变更操作纳入稳定性管控体系，做到对变更操作的“可观测、可灰度、可回滚”。

在“变更可管”方面，我们覆盖完善的变更系统，极大程度减少对变更系统的改造成本；在“变更可控”方面，我们提供基于时间、人员等维度的变更管控规则，预防可能出现的风险；在“变更可用”方面，我们可自动发现变更引发的故障，提供变更回滚等智能化快恢能力。

2022云栖精选—数字化安全生产平台DPS重磅发布助力传统运维向SRE转型

云原生

热门文章

最新文章

相关课程

相关电子书

相关实验场景

2022云栖精选—数字化安全生产平台DPS重磅发布 助力传统运维向SRE转型

云原生

热门文章

最新文章

相关课程

相关电子书

相关实验场景

2022云栖精选—数字化安全生产平台DPS重磅发布助力传统运维向SRE转型