云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 阿里云在云栖大会发布“湖流一体”数智平台,推出DLF-3.0全模态湖仓、实时计算Flink版升级及EMR系列新品,融合实时化、多模态、智能化技术,打造AI时代高效开放的数据底座,赋能企业数字化转型。

随着企业数字化转型加速,现代数据架构正经历从数据仓库到数据湖,再到湖流一体的演进。从传统的离线批处理转向分钟级甚至秒级的流批一体计算,支撑实时决策与动态响应;多模态数据的融合管理(结构化、非结构化、时序数据)推动数据价值边界的扩展,而智能化技术则重塑数据分析范式,实现从“数据可用”到“数据好用”的质变。


9月26日,云栖大会开源大数据分论坛上阿里云智能集团开源大数据平台负责人王峰发表了《打造 AI 时代开源开放的“湖流一体”数智平台》主题演讲,并带来了开源大数据平台多款产品的升级发布。


王峰表示,阿里云开源大数据平台围绕“实时化、多模态、智能化”的现代数据架构演进趋势,为企业提供“实时、准实时、离线”数据分析一体化及 Data + AI 领域的创新实践,全面赋能企业实现高效智能的数据管理与 AI 融合创新。


阿里云发布 DLF-3.0 全模态湖仓平台,湖流一体全模态架构引领数据智能新范式

王峰宣布推出 Data Lake Formation-3.0 (DLF) 全模态湖仓管理平台,在支持 Paimon、Iceberg 等主流湖表格式的基础上,将存储格式从传统结构化数据,拓展至全模态数据场景,支持面向 AI 场景的 Lance 文件数据、表格数据等全类型。

在技术层面,阿里云通过兼容开源、超越开源的三大分析引擎构建统一底座Flash 向量化流处理引擎性能较开源提升5-10倍;Fusion 向量化批处理引擎在 100T TPC-DS 测试中登顶;Stella 存算分离 OLAP 引擎在 10T TPC-H 测试中性能领先。

针对不同业务需求,阿里云提出覆盖全场景的数据分析方案:实时场景基于 Flink + Fluss 构建一站式流处理平台,满足毫秒级响应;准实时场景采用 Flink + StarRocks + DLF 流式湖仓架构,融合 Apache Paimon 流批一体湖表;离线场景则依托 Spark + StarRocks + DLF 流式湖仓架构,支撑大规模离线数据处理。这一实时-准实时-离线”一体化架构,统一了存储与计算逻辑,显著降低企业数据管理复杂度。

在AI融合领域,阿里云通过 Spark + DLF 全模态湖仓实现文本、音频、视频等多模态数据的统一治理与AI模型训练,而 Flink + Milvus + LLM 构建的实时智能分析决策系统,则支持舆情分析、直播监控等场景的毫秒级AI决策。王峰强调,湖流一体全模态数智平台不仅解决了传统架构的碎片化问题,更通过开源生态与AI技术的深度融合,为千行百业提供了高效、开放、智能的数据底座。


实时计算Flink版升级:打造面向 AI 时代的新一代流处理存储一体化平台

阿里云智能集团实时计算 Flink 版产品负责人黄鹏程介绍了产品的核心升级方向。黄鹏程重点发布了实时计算 Flink 版分钟级近实时计算能力,基于增量计算技术,在保证时效性的同时显著降低成本。同时,Flink SQL 支持分钟级数据新鲜度配置,提升开发运维效率。

在流存储方面,黄鹏程宣布面向实时流计算、湖流一体的存储 Fluss 现已上线阿里云并即将在十月正式开启公测。该存储方案基于 Apache Arrow 列式存储设计,大幅优化 IO 性能,并支持流读列裁剪、分区下推等特性,实现高性能低成本的流处理。

在AI融合方面,实时计算 Flink 版提供了强大的AI函数功能,支持使用 Flink SQL 直接调用大语言模型。该能力现已全面支持阿里云 PAI、百炼等大模型服务平台,并可与各类兼容  OpenAI API 的大模型服务实现无缝对接。同时支持将实时向量化数据写入 Milvus 数据库,为实时 RAG 场景提供技术支撑。这些新特性将为企业构建实时情感分析、智能推荐、异常检测、语义搜索、智能客服等多样化AI应用场景提供完整解决方案。


EMR产品线全面拥抱AI,登顶TPC 基准测试榜单

阿里云智能集团计算平台事业部 EMR 负责人李钰在年度发布中指出,面对 AI 时代对数据处理和读写的效率、多样性以及便利性的全新挑战,EMR 全系列产品(EMR on ECS、EMR Serverless Spark、EMR Serverless StarRocks)全面提升内核引擎性能和拥抱 AI 技术,完成一系列能力升级, Fusion (企业级 Spark 内核) 和 Stella (企业级 StarRocks 内核) 技术登顶 TPC 全球榜单。其中 EMR Serverless Spark 在 TPC-DS 100TB 测试中,以 QphDS 性能提升 100% 的成绩夺冠。

首次参加评测的 EMR Serverless StarRocks 以 QphH 超 754 万分的性能结果斩获全球冠军,领先第二名 111%。

在AI融合方面,EMR Agent 正式开启公测,推出通过自然语言交互即可实现运维操作、开源组件自助诊断、平台功能高效咨询等智能化交互式产品能力,大幅降低大数据集群使用门槛。同时,EMR Serverless 产品提供面向 GPU 和多模态的数据处理能力、全面的 AI Function 支持等。为企业用户提供高效智能的AI大数据平台底座。


DataWorks构建湖仓一体化开发平台

阿里云智能集团高级技术专家晨曦表示,DataWorks 面向数据湖推出 OpenLake 湖仓一体化开发平台,依托 DLF 3.0 实现多源数据高效入湖与智能化调度,覆盖多模态数据从采集、存储、开发、治理到分析的全生命周期管理闭环,进一步降低数据价值挖掘成本。

在入湖方面,提供丰富的数据源支持,极致性能优化;在湖流/湖仓一体化开发运维方面,提供丰富任务类型支持,统一运维方案;在企业级治理能力方面,覆盖存储、计算、开发、安全多维度,事前、事中、事后等全方位治理能力;在多模态数据管理方面,结合DLF 多模态数据管理,实现全链路血缘追踪;同时提供丰富的 Data+AI 一体化开发任务,支持60余种任务类型,涵盖开源大数据流/批处理、AI 训练、推理等能力;Copliot+ChatBI,帮助用户提升开发、治理、数据分析的效率。


客户实践:多行业共筑“湖流一体”数智平台新范式

在本次论坛中,来自汽车、农业、制造业及金融科技领域的客户代表分享了基于阿里云新一代“湖流一体”数智平台的创新实践。零跑科技通过实时计算 Flink+Hologres 实现车辆终端与业务系统的全链路实时数据同步,支撑万辆级车联网的毫秒级响应;牧原集团依托 Flink 平台构建生猪养殖的实时数据链路,实现环境感知与疫病预警的智能化升级;海信聚好看结合 EMR 与 Paimon 湖格式,打造多模态数据湖,为 AI 模型训练提供 AI-Ready 数据底座;洋钱罐则基于 EMR Serverless 架构,构建全球一体化数字金融平台,兼顾资源弹性与金融级可靠性。这些案例展现了“湖流一体”平台在实时计算、多模态治理及 Serverless 落地中的核心价值,为多行业数字化转型提供了可复用的技术路径与实践经验。

零跑汽车大数据高级专家聂清分享

零跑科技实时计算的应用与实践

牧原集团大数据负责人王瑞洁分享

牧原集团的 Flink 规模化落地之路

海信聚好看研发总经理张纪宽分享

多模态数据湖实现数智化转型AI-Ready的落地实践

洋钱罐大数据运维总监宋晓峰分享

基于EMR Serverless产品构建全球一体化数字金融平台


结语

阿里云开源大数据平台持续推动“湖流一体”架构创新与 AI 技术融合,为企业提供覆盖数据存储、实时计算、智能分析到全栈开发的完整解决方案。未来,阿里云将继续深耕开源生态,助力全球客户在 AI 时代实现数据驱动的业务跃迁。



来源  |  Apache Flink公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
319 4
|
4月前
|
存储 分布式计算 Hadoop
Hadoop框架解析:大数据处理的核心技术
组件是对数据和方法的封装,从用户角度看是实现特定功能的独立黑盒子,能够有效完成任务。组件,也常被称作封装体,是对数据和方法的简洁封装形式。从用户的角度来看,它就像是一个实现了特定功能的黑盒子,具备输入和输出接口,能够独立完成某些任务。
|
14天前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
3月前
|
SQL 分布式计算 大数据
我与ODPS的十年技术共生之路
ODPS十年相伴,从初识的分布式计算到共生进化,突破架构边界,推动数据价值深挖。其湖仓一体、隐私计算与Serverless能力,助力企业降本增效,赋能政务与商业场景,成为数字化转型的“数字神经系统”。
|
3月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
3月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据在智能物流运输车辆智能调度与路径优化中的技术实现(218)
本文深入探讨了Java大数据技术在智能物流运输中车辆调度与路径优化的应用。通过遗传算法实现车辆资源的智能调度,结合实时路况数据和强化学习算法进行动态路径优化,有效提升了物流效率与客户满意度。以京东物流和顺丰速运的实际案例为支撑,展示了Java大数据在解决行业痛点问题中的强大能力,为物流行业的智能化转型提供了切实可行的技术方案。
|
4月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
4月前
|
存储 分布式计算 算法
Java 大视界 -- Java 大数据在智能教育在线考试监考与作弊检测中的技术创新(193)
本文探讨了Java大数据技术在智能教育在线考试监考与作弊检测中的创新应用。随着在线考试的普及,作弊问题日益突出,传统监考方式难以应对。通过Java大数据技术,可实现考生行为分析、图像识别等多维度监控,提升作弊检测的准确性与效率。结合Hadoop与Spark等技术,系统能实时处理海量数据,构建智能监考体系,保障考试公平性,推动教育评价体系的数字化转型。
|
4月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。
|
8月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
344 79