【阿里云基础设施 AI Tech Day】 AI Infra 建设方案及最佳实践沙龙圆

简介: 聚焦 AI Infra 建设方案及最佳实践,「智驱未来,云网随行:AI Infra 建设方案及最佳实践」沙龙阿里云基础设施 AI Tech Day 北京站于 8 月 8 日下午在北京全球创新社区顺利举办,活动现场吸引了来自月之暗面、字节、小米、爱奇艺、360、雪球、猿辅导、奥迪等 16 家相关 AI 领域领先企业或有AI建设诉求企业的 32 名业务/技术骨干参与。本次技术沙龙旨在聚焦企业建设高效、高可用的 AI Infra,深入解析 AI 驱动的原子能力与场景化架构设计,分享从基础网络建设、算力池化、存储调度,以及 VPC RDMA 性能优化、Agent 智能体出海等场景的全链路方案,助力企业

【阅读原文】戳:【阿里云基础设施 AI Tech Day】 AI Infra 建设方案及最佳实践沙龙圆

 

活动简介

 

 

聚焦 AI Infra 建设方案及最佳实践,「智驱未来,云网随行:AI Infra 建设方案及最佳实践」沙龙阿里云基础设施 AI Tech Day 北京站于 8 月 8 日下午在北京全球创新社区顺利举办,活动现场吸引了来自月之暗面、字节、小米、爱奇艺、360、雪球、猿辅导、奥迪等 16 家相关 AI 领域领先企业或有AI建设诉求企业的 32 名业务/技术骨干参与。本次技术沙龙旨在聚焦企业建设高效、高可用的 AI Infra,深入解析 AI 驱动的原子能力与场景化架构设计,分享从基础网络建设、算力池化、存储调度,以及 VPC RDMA 性能优化、Agent 智能体出海等场景的全链路方案,助力企业打造智能、弹性、稳定的下一代 AI 基础网络架构。

 

 

 

阿里云智能集团公共云华北大区资深解决方案架构师 王勇猛(勇猛)致开场辞,AI 规模化落地对基础设施提出严峻挑战,AI 时代的基础设施不再仅仅是后台支持,而是深度融入业务决策,加速企业认知,实现“零延迟”技术底座。

 

今天 AI 发展的三个趋势:第一,AI Infra 核心是高效协同的“集群当量”,而非单一 GPU 数量。第二,大模型等应用爆发驱动云基础设施升级:低时延、高吞吐、弹性、高可用,关乎业务连续性和数智化竞争力。第三,AI 出海加速,全球化部署成刚需,需全球组网、低延迟调度及合规安全。

 

云基础设施是 AI 爆发的创新土壤和模型高效稳定运行的“底座工程”。阿里云正围绕通义大模型、PAI 平台、自研芯片、全球一张高性能网络等能力构建一体化 AI 基础设施,助力技术领导者专注于业务创新。

 

 

Part 1:

AI Infra 解决方案与实践

 

 

第一章节围绕 AI Infra 解决方案与最佳实践展开,介绍当前阿里云围绕 AI Infra 主推的网络/计算/存储主推方案与核心能力。

 

 

阿里云智能集团云网络高级产品解决方案架构师任江波(硕丰)分享了《资源池化,打造全球AI算力和数据一张网》。AI 技术和应用的时代,相比以往的 3 大特征:算力规模更大、算力形态更多样、数据体量和数据流动频率指数级增长。在此背景之下,网络作为管道,如何进行资源池化和调度,帮助释放算力的价值,让数据传输和流动更加高效,变得尤为重要。阿里云云网络基于弹性公网 EIP、云企业网 CEN、转发路由器 TR、私网连接 PrivateLink、AI 原生 ALB 和全球加速 GA 等核心产品打造一张覆盖全球的 AI 算力和数据网络,真正实现算网融合,资源池化,弹性调度,按需使用。支撑 AI 场景下高质量数据采集、超大带宽训练数据运载、超低时延推理访问加速、多业务端到端有序混跑和内网级生态应用安全调用,保障极致的用户使用体验。

 

 

阿里云智能集团弹性计算容器产品架构师陈晓斌(阿兵)分享了《AI Infra 关键基础算力与容器编排调度 》。AI 领域相对传统微服务,大数据领域从资源异构管理,大规模稳定性,资源利用率,工程提效对 Infra 团队提出了更高的要求。ACK 容器智算 针对 AI 领域所涉及的预训练数据获取、处理场景的资源弹性,高性价比算力,IP 轮换,计算框架容器化深度融合; 训练场景:集群异构资源管理,监控和性能追踪、故障发现、诊断、自愈,支持各种训练推理框架、大规模 AI 任务调度; 推理场景:AI 容器镜像和模型加速,分布式推理负载管理与弹性伸缩,高阶流量调度; 针对 AI Agent 场景的安全沙箱/极速弹性 Serverless 能力均在各大头部 AI 客户得到大规模生产实践。

 

 

阿里云智能集团存储产品解决方案架构师程川军(无川)分享了《面向 AI 的阿里云存储方案及最佳实践》。 该话题从 Storage for AI & AI enabled Storage 两个方面,阐述如何利用阿里云的存储解决方案构建一个高效、灵活且安全的 AI 数据管道,帮助企业快速实现从原始数据到有价值洞察的转变,以及用户在使用中的需求洞察和最佳实践。

 

Storage for AI 产品能力,面向大模型、智驾和具身智能等 AI 场景,CPFS(数据流动、EFC 缓存)、OSS(OSS 加速器、OSS connecter For AI)、EBS(EED)、NAS 等存储组合方案,从数据采集、数据处理,模型训练、模型推理多个细分场景提高数据的处理效率。

 

AI enabled Storage 维度,介绍 OSS 的数据索引Metaquery 提供支持 AI 检索能力,对 OSS 中的文本,图片、视频类数据,融合大模型解析能力,匹配非结构化数据的语义信息,智能整合向量特征、键值特征与全文索引&智能排序,支持数据高效价值发掘和应用,并分享在智能家居摄像机场景的语义检索实践 。

 

 

Part 2:

AI场景网络助力业务提效

 

 

第二章节围绕 AI 场景网络助力业务提效展开,从典型客户的 AI Infra 组网架构实践展开,再深度介绍训推场景和 AI Agent 出海场景网络性能和体验提升方案。

 

 

阿里云智能集团公共云事业部解决方案架构 李为祥(轻毅) 分享了《AI Infra 基础组网架构的实践与思考》。AI 场景下,Infra 应该如何更好的满足业务的需求。从 AI 行业的发展趋势入手,看大模型开发的不同阶段对 Infra 的特殊需求,倒推出 Infra 设计原则,最后详细阐述了网络、计算、存储三个层面具体的架构设计和注意事项。把我们服务众多基础大模型客户的经验赋能给了参会的各行业的客户群体。

 

 

阿里云智能集团云网络高级技术专家 吴曦(恒远)分享了《为客户体验保驾护航:AI 应用出海场景的网络实践与演进》。AI 智能体&推理服务出海浪潮呈现三大特征:其一,需平衡资源可获得性、用户体验优化与成本控制;其二,网络连接具有显著的长连接与高时延敏感性;其三,涉及多模型跨地域调用。应对此,亟需构建一张具备全球视野,融合安全防护、智能加速与全局分发能力的网络。云网络全球加速产品正是为此而生,其核心能力——全球智能调度、集成四七层防护及提供确定性跨域时延——将有效助力AI智能体&推理服务提升出海竞争力。

 

 

在最后的客户互动讨论环节,来自阿里云网络、弹性计算、存储等团队的 PDSA、PD 和研发同学,与到场客户一起围绕企业 AI(模型/应用等)建设及使用场景的典型问题展开深度探讨和交流,包括 IaaS 层核心能力与网络需求、外部数据获取与模型优化、AI 应用与智能体服务部署、基础架构重构与资源融合等相关的架构合理性、合规性、成本、质量等。

 

/ END /


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
14天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
14天前
|
SQL 人工智能 关系型数据库
AI Agent的未来之争:任务规划,该由人主导还是AI自主?——阿里云RDS AI助手的最佳实践
AI Agent的规划能力需权衡自主与人工。阿里云RDS AI助手实践表明:开放场景可由大模型自主规划,高频垂直场景则宜采用人工SOP驱动,结合案例库与混合架构,实现稳定、可解释的企业级应用,推动AI从“能聊”走向“能用”。
474 33
AI Agent的未来之争:任务规划,该由人主导还是AI自主?——阿里云RDS AI助手的最佳实践
|
16天前
|
人工智能 vr&ar UED
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
|
13天前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
|
14天前
|
机器学习/深度学习 人工智能 算法
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
NBA中国与阿里云达成合作,首发360°实时回放技术,融合AI视觉引擎,实现多视角、低延时、沉浸式观赛新体验,重新定义体育赛事观看方式。
141 0
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
|
14天前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
机器学习/深度学习 人工智能 编解码
AI运动:阿里体育端智能最佳实践
过去一年,阿里体育技术团队在端智能方面不断探索,特别在运动健康场景下实现了实践落地和业务赋能,这就是AI运动项目。AI运动项目践行运动数字化的理念,为运动人口的上翻提供了重要支撑,迈出了阿里体育端智能运动领域的第一步,为用户带来了更加有趣的新颖玩法。上线以来,项目受到了广泛关注。
AI运动:阿里体育端智能最佳实践
|
14天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
191 21
|
2月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
630 30
|
28天前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
295 18