AI驱动下的云存储创新

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储 OSS,标准 - 同城冗余存储 20GB 3个月
简介: 随着大数据时代的到来,云存储作为数据存储和管理的核心基础设施,其重要性日益凸显。同时, AI 快速发展也为云存储的进化与创新提供了强大的驱动力。本话题将解读AI 驱动下云存储的进化趋势,分享阿里云存储的创新技术,助力企业实现数字化升级。

注:本文基于云栖大会演讲分享AI驱动下的云存储创新由AI自动总结生成内容,不保障准确性,请结合官网信息判断

分享人:阿里云智能集团弹性计算存储产品线产品负责人 Alex Chen

随着大数据时代的到来,云存储作为数据存储和管理的核心基础设施,其重要性日益凸显,同时AI快速发展也为云存储的进化与创新提供了强大的驱动力。

一、数据就像浩瀚的宇宙

当谈及存储时,我们不可避免地要考虑数据。可以将数据视为如同宇宙一般,持续不断地膨胀着。其数据量在不经意间,无规律且持续地增长。随着数据量的不断累积,分析这些数据便成为了一项挑战。我们认为,数据的量增也带来了某种引力效应,因此有时需要将算力直接部署到存储层面,因为将数据迁移到算力所在位置所花费的时间,可能会超过实际计算所需的时间。数据蕴含着丰富的价值,那么,我们该如何通过分析数据来挖掘其潜在价值、发现潜在趋势呢?同时,数据如同宇宙一样,伴随着诸多风险,例如各种病毒侵袭、人为操作失误,或是机房设备故障,这些都可能导致企业失去其最核心或最宝贵的资产——数据。

二、未来,每一家公司都将是Data+AI的公司

在数据时代,数据与AI的结合推动了各公司数字化转型过程中与AI的深度集成。在AI和大数据集成的时代,基础设施面临着新的挑战。

1. CIPU2.0,进一步提升数据加速的效率

阿里云的核心硬件CIPU进行了升级,这不仅是从1.0到2.0的简单演进,而是经过五个代系的迭代,历时七年。从最初的微处理器、微服务器芯片硬件,到虚拟化加速IO的改进,不论是在网络还是存储领域,都实现了从FPGA向AC化的转变。随着软件的持续优化和硬件能力的提升,数据中心的数据传输效率和性能得到了显著提升。在基于CIPU 2.0的架构下,数据中心的网络带宽至少达到了200G以上,实例及其配套的网络和存储能力都有了大幅提升,甚至达到几百万IOPS或300万IOPS以上。

2. 高性能HPN7.0-为AI设计的高性能网络架构

AI时代带来了大规模模型训练的新业务场景。在大规模训练中,云计算的整体架构如同一台计算机,由多个GPU协同工作。如果任何一个节点或网络出现问题,可能会导致整个训练失效或算力资源浪费。因此,GPU之间以及算力节点的协同至关重要,网络的可用性和高可用性尤为关键,这在某种程度上也代表了算力的高可用性。为应对这些挑战,计算场景下的网络能力被重新设计,形成了高性能网络的架构。该架构分为两层:第一层支持上千块GPU的集合通信,通信只需一次跳转;第二层可支持上万块GPU,并将前端网络与后端存储网络分离,确保两者互不干扰。此外,通过自研网卡、自研流控、自研协议以及端到端的优化,确保计算系统具备99%的有效可用率。

3. 飞天盘古

经过16年的打磨,盘古的分布式存储技术历经了三个阶段的发展。1.0阶段实现了上万台设备的集群规模,2.0阶段注重提升性能,3.0阶段则专注于端到端的软硬一体化优化,包括对SSD和Flash存储的高效调优。这些技术驱动了产品的不断演进,并在技术上保持了领先地位。

三、存储产品

1. Storage for AI——4 Any

Any Performance:在传统存储系统中,通常会针对特定的性能需求进行优化,例如优化随机读写、优化吞吐量、优化小文件或大文件处理。然而,随着统一数据存储底座的出现,我们面对的是多样化的工作负载和性能需求。因此,在每个场景下都要做到最优表现,而不是在所有场景中妥协为“平庸的表现”。  

Any Interface:由于数据底座的广泛性,它已经采用了单一协议,这意味着不再需要为切换存储类型而烦恼。许多客户仍然使用文件系统来访问对象存储,或者有些客户已经切换到通过API访问对象存储。因此,接口本身不再重要,重要的是能否支持传统应用和新的创新应用。AI应用可能基于对象存储,也可能基于传统的文件系统。  

Anywhere:有人提出“数据有引力”,数据在哪里,计算资源就应该在哪里部署。然而,现实中并不是所有地方都能部署大规模GPU集群和高性能网络,甚至有些地方也无法提供数据中心所需的电力和规模。因此,高性能算力集群通常只会部署在特定地区,数据需要根据需求顺畅且高效地移动到算力集群中。Anywhere接口的概念不仅仅涉及冷数据到热数据的迁移,还包括数据按需高效地流动,支持跨地域的算力分析,例如从上海到乌兰,按需求流动数据,成为关键特征。  

Any data:以前,客户主要管理自身业务产生的数据。但在大数据时代,除了自己产生的数据,客户还可能需要管理购买的数据或第三方产生的数据。如何高效管理这些数据,并找到需要的数据,成为AI模型训练成功的关键。因此,数据治理和管理变得至关重要,这也推动了存储产品的演进,尤其是将AI能力应用到存储产品中。  

2. AI enabled Storage——3 AI

AI-Healing:利用AI技术对存储系统中的潜在问题进行预测和自动修复,减少人工干预,提高系统的稳定性和可靠性。OSS 针对 “AIGC” 场景的多模态内容支持原生的内容安全和恶意文件检测,快速识别常见病毒,防止恶意文件传播和执行。
AI-Management:通过AI算法优化存储资源的分配和调度,实现存储系统的自动化管理,帮助企业管理好存储性能预期、数字资产,提高存储效率和降低成本。阿里云利用了 Tablestore 表格存储的向量检索技术,推出了OSS数据索引的新功能——语义检索。这一功能不仅能够处理文档,还支持内容生成及AI助手服务,使用户能以更智能的方式管理海量数据,极大地提高了数据搜索、处理及管理的效率,尤其适用于大规模多模态数据集的管理。

AI-Generation:指的是存储系统能够利用AI技术生成智能报告和洞察,帮助用户更好地理解和优化他们的数据存储策略。阿里云企业网盘基于通义大模型构建网盘多模态 AI 能力,支持自适应数据分段聚合、融合索引以及跨模态查询等功能,轻松利用海量非结构化数据构建各类AI应用。

围绕 Storage for AI 与 AI in Storage 两大领域,提出“ 4 Any + 3 AI ”是存储产品的升级方向。

四、全球最完整的存储产品和服务

每年都会接收一个庞大的存储图像,以及各种快速存储文件、对象和表格数据,这些数据均被妥善存储在云端。同时,在本地部署了混合型存储系统。该系统还整合了统一的灾难恢复备份、媒体管理和网盘服务,构成了我们存储密集型的解决方案。

在科技奖项方面,我们获得了诸多荣誉,得益于盘古存储产品不断获得业界和国家的认可与奖项。这些肯定也激励我们在技术上持续精进。

五、总结

存储产品的演进将持续朝两个方向发展:一是支持更多的AI业务,无论是数据准备、模型训练、模型微调,还是大规模的万卡集群模型训练,或者是规模稍小的百卡模型训练,甚至是后续的大规模推理任务。其中,推理任务可能是单机推理,也可能是多机推理。我们将把更多的AI能力嵌入到存储产品线中,使存储具备更智能的能力,并通过Copilot或自然语言界面,帮助客户更高效地管理他们的存储和数据资产。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
24天前
|
人工智能 监控 安全
提效40%?揭秘AI驱动的支付方式“一键接入”系统
本项目构建AI驱动的研发提效系统,通过Qwen Coder与MCP工具链协同,实现跨境支付渠道接入的自动化闭环。采用多智能体协作模式,结合结构化Prompt、任务拆解、流程管控与安全约束,显著提升研发效率与交付质量,探索大模型在复杂业务场景下的高采纳率编码实践。
283 26
提效40%?揭秘AI驱动的支付方式“一键接入”系统
|
24天前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
20天前
|
存储 人工智能 安全
云栖大会|AI驱动的智能数据湖仓,高性能实时分析与深度洞察
2025云栖大会“AI驱动的智能数据湖仓”专场,汇聚夺畅、聚水潭、零跑汽车等企业及阿里云瑶池团队,分享AI时代下数据管理到分析的全链路实践,涵盖智能计算、弹性架构、多模态处理与数据安全,共探Data+AI融合新范式。
|
1月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
182 3
|
20天前
|
人工智能 运维 关系型数据库
云栖大会|AI时代的数据库变革升级与实践:Data+AI驱动企业智能新范式
2025云栖大会“AI时代的数据库变革”专场,阿里云瑶池联合B站、小鹏、NVIDIA等分享Data+AI融合实践,发布PolarDB湖库一体化、ApsaraDB Agent等创新成果,全面展现数据库在多模态、智能体、具身智能等场景的技术演进与落地。
|
2月前
|
人工智能 自动驾驶 算法
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
269 99
|
21天前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
178 5
我们开源了一款 AI 驱动的用户社区
|
24天前
|
人工智能 IDE 开发工具
从6人日到1人日:一次AI驱动的客户端需求开发实战
从6人日到1人日:一次AI驱动的客户端需求开发实战
从6人日到1人日:一次AI驱动的客户端需求开发实战