一文总览阿里云存储产品年度升级!

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,标准 - 同城冗余存储 20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: ​近日,在“回顾·向新:AI浪潮下的数据存储进化”年度回顾上,阿里云总结了过去一年存储产品在AI领域的研究成果,并分享了在“AI领域”和“高可用底层架构”方面的双管齐下策略。

【阅读原文】戳:一文总览阿里云存储产品年度升级!


近日,在“回顾·向新:AI浪潮下的数据存储进化”年度回顾上,阿里云总结了过去一年存储产品在AI领域的研究成果,并分享了在“AI领域”和“高可用底层架构”方面的双管齐下策略。同时,会上分享的CPFS智算版针对模型训练场景进行了全链路性能升级,提供20TB级别的吞吐和3亿IOPS最大性能,将成为AI时代大模型训练任务最具性价比的存储选择。

 

 

 

云存储读写性能再突破,CPFS支持更快大模型训练

 

 

在大型模型训练中,尤其是面对10万GPU的海量计算需求时,存储系统的性能和稳定性至关重要。阿里云的CPFS作为高性能文件存储解决方案,为GPU提供了20TB级别的吞吐和3亿IOPS最大性能,从而显著提升了训练效率。

 

此外,借助400Gb/s网卡以及RDMA通信的能力,CPFS单客户端吞吐提升至25GB/s,支持更大及更加频繁的Checkpoint读写;提供burst I/O稳定有效吞吐/低延时,单机提供15GB/s可线性扩展的分布式读缓存能力;支持100GB/s高带宽和OSS的数据流动。CPFS对全链路进行了性能提升,为LLM训练提速。

 

CPFS能力全面升级,助力企业加速AI发展

 

 

OSS端到端链路升级,支持云上构建两万+数据湖

 

 

目前已有超过2万个数据湖基于OSS构建,其中大部分为AI数据湖。会上,阿里云对象存储OSS针对AI领域进行了多项能力更新。本年度,OSS推出OSS Connector for AI/ML,相比传统挂载方式,加载25.6万张图片数据时性能提升14倍。

 

OSSFS 1.91.3版本针对推理模型文件加载优化,9.3GB大文件加载速度提升3.6倍,10万个文件list性能提升6倍。在服务端,OSS发布资源池QoS能力,支持多个Bucket共享池化性能,并可针对单Bucket和请求者RAM账号进行QoS设置,实现削峰填谷,提升资源利用率。同时,OSS加速器产品能力优化,起步容量降低99%,吞吐密度提升50%,最大性能提升2.5倍,达到100GBps。

 

 

 

 

安全是存储根基,高可用再升级

 

 

在安全方面,CPFS持续增强稳定安全和数据保护能力,包括通过Cloud Backup进行备份,应对单AZ故障和数据误删、勒索病毒等事故;新增日志审计,安全访问可追溯;提供目录级配额,简化数据管理;确保安全挂载和IO鉴权,实现端到端的数据隔离;通过Access Point简化数据访问权限管理。

 


 

此外,为了协助客户搭建和管理业务高可用架构,阿里云存储针对企业云上资源提供了一系列数据灾备方案,包括企业灾备管理服务数据灾备中心BDRC,SAAS化灾备服务云备份以及丰富的IAAS层数据灾备的能力,满足从开发者到跨国企业的多样化数据管理需求。


 

 

 

 

助力千行百业,领跑AI时代

 

 

过去一年AI渗透进各行各业,企业为了构建高效的AI 系统,采集、处理和存储了海量的多模态数据,来加速模型的训练和推理应用,这背后离不开阿里云的助力。

 

月之暗面:在基础大模型领域,CPFS为月暗提供数Tbps级别的吞吐和毫秒级别的读写延时,满足模型checkpoint、多模态数据集和训练日志等场景下极致性能的需求,帮助月暗高效处理和分析大量请求和数据,提升模型的训练效率;

 

小鹏汽车:在小鹏汽车智算模型训练场景,存储产品结合“扶摇”智算集群的优化,使得其自动驾驶模型训练效率提升了170倍,存储吞吐效率提升了40倍,极大地加速了技术研发进程;

 

小红书:对于拥有3.2亿月活跃用户的小红书而言,阿里云的对象存储服务OSS为其提供了超过20Tbps的吞吐能力,保障了海量用户生成内容的处理速度,并通过多存储类型组合方案实现了成本与性能的最佳平衡。

 

阿里云智能资深产品专家彭亚雄表示:2025年,阿里云依然会紧密围绕AI智算赛道,聚焦稳定、安全、性能、成本、体验等主要方向,持续产品的创新和进化。让每一家公司,都顺利的从数字化转型,过渡到智能化创新的Data+AI公司,加速业务发展和创新。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
敏捷开发 弹性计算 中间件
平台即服务(PaaS):简化开发与部署的新篇章
【6月更文挑战第21天】PaaS简化了应用开发与部署,提供资源池化、自动化管理及丰富的开发工具,助力企业降低成本、提高效率和系统稳定性。它支持敏捷开发、加速产品上市,改善用户体验,并推动创新,成为现代软件开发的关键。
1126 2
|
人工智能 运维 监控
AI时代云基础设施的技术创新与展望丨ODCC2023
AI时代云基础设施的技术创新与展望丨ODCC2023
|
12月前
|
人工智能 运维 安全
阿里云研发副总裁蔡德忠受邀参加乌镇峰会,畅谈AI与下一代互联网
2024年乌镇峰会“下一代互联网论坛”近日举办,主题为“创新驱动,安全赋能,共筑开放与安全的下一代互联网”。阿里云智能集团研发副总裁,基础设施网络研发负责人蔡德忠受邀参与圆桌讨论,并就人工智能(AI)与下一代互联网的融合发展分享了前瞻性见解。
|
7月前
|
人工智能 光互联 数据中心
横跨半世纪的光通讯巅峰盛会OFC落幕,阿里云在全球光通信顶会OFC2025上发表多个创新成果和报告
​2025年3月,全球光通讯领域最具标杆意义的年度盛会——OFC(光纤通信学术会议暨展览会)迎来其50周年里程碑,在美国加州旧金山盛大开幕。来自全球83个国家和地区,约17000名专家、学者、企业和政府人员齐聚美国,共同融入这场知识与思想的盛会。
|
7月前
|
运维 Prometheus 监控
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
本文围绕企业级告警体系构建展开,探讨了监控与告警在系统稳定性中的重要作用。通过梳理监控对象、分析指标、采集数据及配置规则等环节,提出告警体系建设的通用流程,并针对多平台告警、误报、告警风暴等问题提供解决思路。结合阿里云可观测产品,分享了某电商企业的实践案例,展示了如何通过标签规范、日志标准和统一管理平台实现高效告警处置,为构建全面且实用的告警体系提供了参考指南。
645 1
|
7月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 -- 阿里云ACK One注册集群开启多地域Serverless算力调度
传统单地域算力难以支撑AI推理场景的高并发实时响应、突发高流量的要求,阿里云容器服务ACK One注册集群推出多地域Serverless算力调度方案完美解决此问题。
|
7月前
|
人工智能 大数据 光互联
阿里云首次规模部署LPO光模块
2024年阿里云基础设施网络团队完成线性可插拔光模块(LPO, Linear Pluggable Optics)规模上线,成为全球首家实现LPO技术规模部署的云服务商。
|
7月前
|
自然语言处理 云计算 开发者
「轻」启未来:阿里云轻量应用服务器用户交流会
为助力中小企业与开发者轻松上云,阿里云举办「「轻」启未来:轻量应用服务器用户交流会」。活动聚焦最新产品迭代、游戏自建服实战及智能问答系统解析,助您降低选型门槛,快速找到适合业务需求的云服务器。扫描海报二维码报名,赢取百元代金券!
|
9月前
|
Kubernetes 持续交付 开发工具
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
|
9月前
|
人工智能 自然语言处理 供应链
《DeepSeek:工业互联网与人工智能融合的“催化剂”》
在工业4.0和智能制造的浪潮下,DeepSeek技术作为工业互联网与人工智能融合的“催化剂”,通过智能数据处理、精准建模预测、智能决策支持及智能交互,全面优化生产流程,提升企业竞争力。它能高效处理多源异构数据,挖掘关键信息,预测设备故障,提供科学决策建议,并简化操作流程,推动制造业向智能化、高效化、绿色化方向迈进,引领工业互联网新时代的发展潮流。
230 5
《DeepSeek:工业互联网与人工智能融合的“催化剂”》