【阅读原文】戳:飞天发布时刻丨阿里云基础设施助力企业全球化业务创新
5 月 22 日 10:30「飞天发布时刻」,阿里云弹性计算产品负责人、存储产品负责人陈起鲲(Alex Chen)重磅分享了阿里云基础设施全面升级。通过丰富灵活的算力服务、稳定高可用的存储产品,覆盖出海企业 AI 创新、 大数据分析、 应用管理和办公协同等不同场景和需求,助力客户业务全球化布局。
图 | 阿里云弹性计算产品负责人、存储产品负责人 陈起鲲
本文整理自 Alex Chen 在「飞天发布时刻」的分享,以下为演讲内容摘要。
大家好,欢迎来到飞天发布时刻,我是 Alex Chen,阿里云弹性计算&存储产品负责人。非常高兴与大家分享阿里云强劲稳定的基础设施产品,支撑企业拓展全球业务。阿里云拥有遍布全球的基础设施:在中国境外,有 13 个 Region、26 个可用区,包括最新推出的墨西哥 Region。今年期待更多的国际 Region 上线, 助力企业全球化部署。
(一)丰富灵活的算力选择
我们在全球 Region,都提供了丰富和灵活的算力选择。在阿里云的国际 Region,我们都会发布和中国 Region 一致的最新弹性计算家族产品,为我们的客户提供丰富和灵活的选择。
第九代 ECS Intel 实例,全场景性能升级
今年 4 月 9 号, 我们宣布了阿里云第九代 ECS Intel 实例的商业化。在国际站的中国香港、新加坡、 印尼地域都已经可以购买到最新的算力;未来 1~2 个月,在日本、韩国、德国、美国、泰国等更多地域也将能购买到第九代 Intel 算力。
第九代 ECS Intel 实例,对比上一代,在算力、平台能力、安全三个方面均有提升。
算力提升:搭配 Intel 最新 Granite Rapids 处理器,全核睿频提升到 3.6 Ghz,L3 缓存提升到 504 MB。
平台能力提升:结合阿里云自研的 CIPU,第九代 ECS Intel 实例提供了 Advanced Matrix Extensions (AMX) 原生硬件加速,新增支持 FP16 指令;标配了 eRDMA,延时低至 8 us;同时支持了弹性临时盘 EED,单盘吞吐最大 4 GB/s。
安全稳定性提升:支持 TDX 机密虚拟机的特性,大大降低了用户在机密计算上的使用门槛。
同时,第九代 ECS Intel 实例对比上一代,在多种类型负载上有显著的性能优势。超大 L3 缓存以及对于全核内存性能一致性的保证,特别适合游戏、数据库和 Web 应用等延时敏感的在线类业务。其中,在游戏对战服场景,性能最大提升 15%,在 MySQL 数据库场景,性能最大提升 17%,Web 应用场景最大提升 20%。
除了更高的性能、更多的产品能力,我们也降低了第九代 ECS Intel 实例的目录价,对比第八代 Intel 实例全系价格降低 5%,成为企业出海最优选的 Intel 算力产品。
第九代 ECS AMD 实例,性价比持续提升
2025 年 5 月,我们宣布了在国际站中国香港 Region 第九代 ECS AMD 实例开启公测。未来 2~3 个月在新加坡、日本、美国、德国等更多地域,客户也将可以购买到第九代 AMD 算力。
第九代 ECS AMD 实例,搭配 AMD 最新 Turin 处理器,睿频最高 4.1 Ghz,在对主频要求比较高的场景,性能提升 30% 以上;整机网络带宽 400 Gb,相比上一代,单 VM 网络和存储带宽提升 50% 以上。同时,支持全位的 AVX512 指令集,矩阵运算,性能进一步加强。
除此之外,稳定性能力也进一步全面增强。第九代 ECS AMD 实例采用了双单路设计,一颗 CPU 故障后,不影响另外一颗 CPU 的正常运行,故障域降低一半。同时我们进一步支持了服务器节点的热插拔能力,可以在线更换发生故障的部件,客户体感宕机率进一步降低。在保障产品安全稳定的前提下,性价比持续提升。
容器计算服务 ACS,更普惠易用的新一代容器算力
这些年, 我们观察到容器的接受度大幅度提升,今天超过 60% 的增量算力都通过容器来部署。容器计算服务 ACS 作为一种新形态的容器原生算力,大幅降低了容器化应用部署、运维的复杂度,同时保持了资源的灵活性。
自去年 8 月发布以来,ACS 的商业化规模已超过日均数百万核时。今年 1 月我们在国际 Region 完成 ACS 产品商业化,CPU 算力覆盖全部 Region,新增 GPU 算力已上线新加坡地域,即将上线德国、日本、美国等地域。
ACS 面向不同业务场景,定义了容器算力类型和算力质量,便于客户按需申请使用。
面向在线业务场景,如微服务应用、Java/web 网站应用等,ACS 提供通用型容器算力;
面向对性能要求更高的业务场景,如高性能网关服务、游戏服务器等业务,ACS 提供性能更强劲的性能型容器算力,帮助客户灵活匹配负载需要的算力;
面向离线业务场景,如大数据计算、批处理任务等,这些业务本身具有容错性,ACS 提供更经济实惠的 BestEffort 算力,帮助客户更充分利用潮汐算力,降低整体成本;
面向 AI 业务场景,ACS 全新推出 GPU 容器算力,支持高性能网络 HPN,满足模型训练和推理场景需求。同时产品内置 PD 分离等 Infra 优化能力,单 GPU Pod 性能提升 20%。
客户使用 ACS,只需支付应用所实际消耗的容器算力,没有集群管理及核心系统组件费用,可以真正实现按需灵活使用,按秒计费。在典型业务场景下, 最高可降低 55% 的综合成本。
轻量应用服务器,帮助中小企业及开发者快速上线业务应用
轻量应用服务器是面向小算力场景推出的云服务器产品,预装宝塔、Dify 等热门应用软件,以预付费的方式售卖计算、存储、网络套餐。它隐藏了 VPC、弹性网卡等高级复杂特性,可以帮助中小企业及个人开发者快速上线业务应用。
今年 1 月份以来,我们在东京、新加坡、法兰克福、弗吉尼亚等 12 个国际 Region,陆续发布 4 款新实例:通用型、国际型、多公网 IP 型和容量型,我们展开介绍其中的 2 款。
通用型,低至每月 28 元,最小规格 2 vCPU、0.5 GiB 内存起步,适合网站、APP 后端服务、开发测试等场景;
国际型,低至每月 25 元,采用海外 BGP 线路,适合对回国网络没有强烈诉求的业务,是高性价比的首选。
无论是最新的企业级实例,还是容器原生算力,或者是小算力场景,阿里云在全球提供了丰富的灵活的算力选择。
(二)业务高可用,数据持久化
客户的业务也需要更高的可用性,和具备抵抗灾难的能力。比如企业核心业务系统,对于数据可靠性与服务连续性,有极致的需求。单机房电力中断、网络故障或自然灾害等都可能导致业务中断。传统跨可用区容灾方案,客户也面临数据复制延迟、架构复杂、成本高昂等多方面的痛点和挑战。
ESSD 同城冗余云盘,保障业务连续性
阿里云 ESSD 同城冗余云盘今年 3 月 19 日正式商业化,国际 Region 已经支持中国香港、新加坡,预计 7 月份支持雅加达,9 月份支持日本东京和法兰克福。
ESSD 同城冗余云盘的数据会自动存放在多个可用区,IDC、机柜、电力等均实现物理隔离。用户无需理解传统线下存储复杂的数据复制逻辑,可以依托 ESSD 同城冗余云盘,当某个可用区发生物理故障时,实现 RPO=0,同时提供持续的读写服务,保障业务的连续性。同时 ESSD 同城冗余云盘继承了绝大多数的 ESSD 特性,用法基本无差异,可简单快速实现数据的同城容灾。
TOP 游戏客户的游戏平台服务已经升级到基于 ESSD 同城冗余云盘来部署,确保核心数据的完整性和安全性,在可用区故障下可以实现故障可用区的快速切换,避免玩家连接中断或游戏状态丢失。某 TOP 跨境支付公司的 GitLab 的存储也已经升级为 ESSD 同城冗余云盘,保护代码库、文档和项目等数据的完整性,并保障 GitLab 服务的持续访问。
OSS 同城冗余具备双可用区冗余能力,覆盖更多国际地域
阿里云对象存储 OSS 通过技术创新,持续提升同城冗余的覆盖能力,近期国际站新增马来西亚(吉隆坡)地域,更好地为客户提供更高可用、更安全可靠的数据存储解决方案。至此,OSS 的同城冗余存储已经覆盖全球 12 个地域,助力用户的业务全球化布局。
所有云盘快照,所有客户的备份库都是基于 OSS 同城冗余构建。这也代表着,只要客户在云盘打了快照,或者做了备份,都可以抵抗单个可用区的故障,从同 Region 的另外一个可用区拉起云盘或者恢复备份,也可以远程跨区域复制来实现跨 Region 的容灾能力。
云备份 Cloud Backup 能力升级,覆盖除墨西哥外的所有国际地域
当企业需要保护多种数据类型,甚至同时保护本地数据中心和云上数据资源,阿里云提供了云备份服务 Cloud Backup,已覆盖墨西哥之外所有的国际地域。无论是本地数据中心的热数据备份或冷数据归档上云,还是针对阿里云环境的数据备份与灾难恢复,我们的服务均能提供强有力的支持。
该服务还具备丰富的企业级特性,如跨地域备份、跨账号备份以及不可变备份等功能,帮助企业满足中国香港金融行业 STDB、新加坡金融管理局 MAS 等多个监管需求。近期还推出了多项新功能,例如 CPFS 文件存储备份、备份点病毒检测等能力。
全面、统一的企业灾备管理服务 – 数据灾备中心 BDRC 商业化
很多企业面临的挑战是,不清楚有哪些数据资产没有保护,以及保护的策略是什么。数据灾备中心 BDRC,可以帮助企业管理数据保护策略和规范。今年 3 月 26 日 BDRC 正式发布,在所有国际地域可用。数据灾备中心支持 ECS、EBS、OSS、NAS 等多个 IaaS 产品的云原生数据保护方案。
通过先进的编排引擎,数据灾备中心能够从多个角度为客户提供可视化展示,可直观呈现客户账号下数据保护状态与风险。此外,还提供策略配置能力,助力企业更高效地管理和优化其数据灾备方案。
(三)AI 创新
在提供稳定安全的基础设施的同时, 我们也考虑到了客户不同业务和 workload 的诉求。
AI 的浪潮正在席卷全球,作为全球领先的云计算厂商,阿里云加速计算业务也在加速境外和全球化布局,助力中国企业的国际化征程,同时更好地服务本地客户。
灵骏集群,为 AI 负载优化的云超级计算机
智能计算灵骏是阿里云专为 AI 模型训练与推理打造的高性能 GPU 集群服务,面向大规模人工智能计算场景而设计。它广泛适用于大模型研发、自动驾驶、生命科学、金融科技等多个前沿领域,提供高性能、高扩展性与高稳定性的软硬一体智算底座。
智能计算灵骏支持十万卡级别的超大规模集群部署,全面支持大模型 TP、DP、EP 等多种并行策略。万卡规模下,性能线性度高达 96%,算力可用率高达 97%,轻松应对万亿乃至十万亿参数级别大模型的训练需求,并通过优化算力性能,降低推理服务成本。目前,智能计算灵骏已服务国内超过一半的大模型企业,成为行业主流选择。
文件存储 CPFS 面向 AI 智算的能力升级,提高效率,降低成本
文件存储 CPFS 实现了面向 AI 智算能力的升级。CPFS 利用计算侧内存和本地盘提供读缓存加速,提供 15 GB/s 单计算节点缓存吞吐,并支持可线性扩展的分布式缓存;单客户端吞吐性能达 40 GB/s,进一步提升大模型训练的数据集和 checkpoint 的访问效率。
同时, CPFS 支持与对象存储 OSS 之间高达 100 GB/s 的高性能数据流动,支持负载均衡调度优化,实现数据分片并行传输和一致性并行数据校验,结合 QoS 优先级调度,可精准控制流量优先级,确保不影响训练流量。此外,CPFS 还增强了安全性和可管理性,如发布目录级配额,帮助客户实现存储资源的有效管理。支持容量型存储池,有效降低温冷数据的成本。今年 6 月将在新加坡、中国香港等地域发布 CPFS 的能力。
(四)大数据分析
我们看到 AI 普及的同时,基于存算分离的数据湖架构已经成为大数据分析的主流架构。一份数据既可以被大数据分析引擎访问的同时,也可以被 GPU 访问用于 AI 创新。
基于阿里云 OSS 的数据湖,单个数据湖的性能可以达到 20 Tbps 以上。为了保障这些不同业务特征和性能需求的业务平稳运行,阿里云 OSS 去年发布了资源池 QoS 能力,发布后受到了用户的欢迎。本次,我们为资源池 QoS 功能新增了 BucketGroup 分组流控能力,支持将多个 Bucket 按业务分组管理,统一调度,相较单桶管理,降低了运维复杂度。这项能力已全面覆盖阿里云所有国内和海外地域。
在 OSS 基础性能层面,依托于阿里云 OSS 的规模效应和先进的技术架构,我们也在持续提升默认吞吐能力。继北京、上海、杭州、深圳之后,新加坡已成为第五个开放单账户默认读吞吐达 100 Gbps 的地域,为全球用户提供更加极致的数据访问体验。
OSS 的 OSS-HDFS 功能提供了对 HDFS 协议的全面兼容和高性能元数据操作,可以帮助企业 IDC 自建的大数据系统实现平滑迁移上云。我们的 OSS-HDFS 服务已经覆盖新加坡、印度尼西亚、日本、美国等国家的 7 个海外 Region,可以为企业出海提供高性能的大数据分析数据底座。
(五)应用管理和办公协同
ACR EE 实现大规模镜像分发,降低应用启动延时,提升应用发布效率
除了AI 和大数据之外, 企业还有很多应用海外部署的需求和办公协同等诉求。
容器镜像服务企业版 ACR EE 面向安全需求高、分发性能需求高的容器企业级客户,比如互联网企业出海、跨国公司协作、在线教育、游戏等公司,提供云原生制品安全托管、高效分发的企业级解决方案。
在镜像管理方面:支持多样 OCI 制品托管,提供 99.95% 的服务可用性;Serverless 化的容器镜像构建服务,支持用户应用快速容器化。
在镜像同步方面: 提供专属链路、传输协议调优、多链路 QoS 的镜像同步能力,提供 99.95% 的跨海同步成功率。单集群提供 P2P 分发镜像加速能力,实在镜像拉取性能提升 4 倍以上。
ACK Pro 智能托管模式,极大提升应用运维效率
在云上,我们看到海量的企业通过 Kubernetes 容器化的方式部署应用,在服务这些企业客户的过程中,我们看到 Kubernetes 的复杂性依然是容器化业务部署的一大挑战。因此,今年容器服务 Kubernetes 版 ACK 推出了智能托管模式,即 Auto Mode。您可以在创建 ACK Pro 集群过程中选择开启智能托管模式,仅需进行进行简单的网络规划配置,即可快速创建一个符合最佳实践、全面自动化托管运维的 Kubernetes 集群。
在最佳实践方面:ACK 智能托管模式从稳定、性能、安全、成本等多个维度为您默认勾选了 Kubernetes 容器化业务场景的最佳实践,包括 100 多项集群巡检和安全配置巡检。默认选用容器场景优化的 OS,能够快速实现节点 5 秒内极速启动,实现业务快速扩容。
在自动化运维方面:ACK 智能托管模式能够实现 Kubernetes 集群控制面的自动优化和版本升级,关键系统组件的全托管,做到集群控制面的免运维。在集群数据面,ACK 内置了智能托管节点池,它可以根据工作负载的需求动态变化自动地扩容、缩容 ECS 节点,这些节点的运维管理也将由 ACK 智能托管模式自动化完成,包括自动操作系统升级、节点软件版本升级、自动安全漏洞修复等,您将完全无需关注节点的 Day2 运维,节省 90% 以上的集群运维时间。ACK 智能托管模式在全球各个地域都已发布。
企业网盘助力海外客户加速智能协同
企业网盘是一款面向各类“组织”的云协作平台,在提供传统办公协同能力的同时,还通过 AI 来助力客户对海量数据进行内容结构化和应用智能化升级。
在企业办公协同方面:企业网盘全面支持网页、桌面端和移动端,支持对图片、音视频和文档等文件的在线处理。同时提供文件管理、文件共享、安全审计等丰富的企业办公能力,并支持 LDAP 等多种账号接入方式,使用方式简单高效;
在内容结构化方面:企业网盘全新发布了 AI 知识库,利用 AI 大模型和向量能力来帮助客户将海量的无序文件进行自动归类,形成企业内部开箱即用的结构化知识库,提高文件处理和管理效率;
在应用智能化方面:企业网盘全新发布了 AI 助手,能够支持对话式问答和查询,并提供文档摘要、文档润色、文档翻译等智能创作能力。同时,企业网盘提供语义检索能力,支持语义搜图和语义检索,实现企业办公应用智能化。
今年 3 月,企业网盘在国际站发布,包括东南亚、欧洲和美国的 6 个地域。
最后,总结一下本次产品发布。
在基础设施方面, 阿里云在全球提供了丰富的算力选择,包括最领先的第九代 ECS 实例、容器原生算力 ACS 和面向小算力场景的轻量应用服务器;稳定高可用的存储产品,如 Regional ESSD、容灾备份产品帮助客户实现业务持久性。同时面对企业 AI 创新、大数据分析、应用管理和办公协同等不同场景和需求都推出对应产品,助力我们的客户成功实现业务的全球化。未来我们也会不断加大国际 Region 基础产品的投入,确保国际 Region 享有世界领先的云计算和云存储产品。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~