阿里云大数据AI产品月刊-2025年10月

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 大数据& AI 产品技术月刊【2025年 10 月】,涵盖 10 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

大数据& AI 产品技术月刊【2025年 10 月】,涵盖 10 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。


一、产品功能发布

人工智能平台 PAI - DLC 后付费(通用计算) 任务支持自定义云盘

PAI DLC 后付费(通用计算) 任务支持自定义云盘。

人工智能平台 PAI - EAS算力检测与容错功能发布

EAS算力检测与容错功能对参与推理的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,有效减少服务推理初期遇到问题的可能性,提升推理部署成功率。

人工智能平台 PAI - ArtLab发布设计智能体Design Agent

通过自然语言指令即可轻松完成高质量的图像生成、视频制作及精细化图片编辑,极大降低创意实现门槛。 释放自然语言的创造力,重新定义AIGC设计工作流。

人工智能平台 PAI - 模型蒸馏功能发布

PAI-Model Gallery推出一键模型蒸馏能力,支持大模型能力向小模型迁移,帮助用户通过低门槛配置化的方式实现模型性能提升与部署成本降低。

人工智能平台 PAI - DSW实例全生命周期事件支持消息通知

DSW实例全生命周期事件支持消息通知,可通过钉钉、短信、电话、企微等渠道接收实例状态变化的消息推送。

人工智能平台 PAI - Dify on PAI-EAS场景化部署发布

Dify on EAS场景化部署发布,支持客户在EAS上一键部署开源版Dify平台并支持WebUI使用和相关接口调用,快速实现构建、部署和管理基于生成式 AI 的应用。

人工智能平台 PAI - 灵骏智算GU7系列支持570驱动

灵骏智算GU7系列新增570驱动;目前PAI训练服务,GU7系列支持 530、550、570等多种驱动,提供无需重装,任务提交时多驱动选择的能力,充分发挥Serverless 平台能力,为客户提供最优的使用体验。

人工智能平台 PAI - AI资源组(通用计算),支持预付费云盘的扩容升级。

AI资源组,通用计算类型,支持已购预付费云盘(数据盘)的扩容和升级,提供弹性升配能力,满足客户业务扩展的动态资源诉求。

云原生大数据计算服务 MaxCompute - 基于filesystem catalog的外部项目

MC推出基于filesystem catalog的外部项目满足不依赖元数据服务的简化计算场景。

云原生大数据计算服务 MaxCompute - 基于Hologres Database的外部项目

MaxCompute通过外部项目映射Hologres Database,权限与Hologres打通,实时获取Holo元数据,直读Hologres Pangu数据,实现了离线实时一体化。

云原生大数据计算服务 MaxCompute - 支持对parquet格式文件的schema-less

MaxCompute支持对parquet格式文件的schema-less query,可以直接读取指向oss location的parquet文件。

云原生大数据计算服务 MaxCompute - Object Table增强

Object Table支持对外部引擎提供签名地址进行文件上传下载,支持对OSS文件压缩/解压/解包 、提供元信息函数集等。

云原生大数据计算服务 MaxCompute - 外部表支持OSS-HDFS存储

很多使用开源技术方案的用户,数据存储在OSS-HDFS上,需要MC与之联合查询,现在MC外部表支持建立在OSS-HDFS存储之上,读写数据。

云原生大数据计算服务 MaxCompute - 数据传输独享资源组支持精细化运维管理

MaxCompute数据传输独享资源组运管能力升级,支持拆分多个二级Quota,提升资源的精细化管理能力。

云原生大数据计算服务 MaxCompute - 新一代Table Format - Delta Table

  1. 面向实时化业务,实时数据更新;
  2. 适应业务发展,突破原有表格式使用限制;
  3. 兼顾性能与可靠性。

云原生大数据计算服务 MaxCompute - 支持模型对象及模型管理能力

MaxCompute支持10+开源公共模型、自定义模型及远程模型等多种类型的模型,提供统一的模型与模型版本管理能力,帮助用户更便捷地将模型推理和AI能力融入业务分析流程。

云原生大数据计算服务 MaxCompute - SQL引擎支持 AI Function能力

SQL AI Function是MaxCompute提供的一组面向AI业务场景的预定义函数。

实时数仓 Hologres - Hologres支持全文检索

Hologres支持构建全文倒排索引,实现高性能全文检索能力。

实时数仓 Hologres - 支持AI Function,多模态AI数据统一检索分析

创新性的将AI服务封装成Function,通过标准SQL,结合Object Table、Dynamic Table、向量检索、全文检索等能力,可以实现非结构化数据的多模检索分析。

实时数仓 Hologres - 支持HBO智能优化执行计划

支持HBO(基于历史查询的查询优化),系统将收集慢查询的执行详情,自动分析查询计划中是否存在需要调优的地方,并根据这些历史智能的调整查询计划。

实时数仓 Hologres - 支持内表Time Travel查看任意时间点历史数据

支持内部表的Time Travel,允许查询在定义时间段内的任何时间点访问历史数据。

实时数仓 Hologres - Hologres向量计算全面升级,性能提升10倍以上

Hologres向量计算全面升级,性能提升10倍以上。

实时数仓 Hologres - 计算组实例Multi-cluster

Hologres计算组型实例支持Multi-cluster横向扩展能力。

实时数仓 Hologres - 计算组自动弹性

计算组型实例支持自动弹性,客户可以实现业务高峰期自动弹性横向扩展、低峰期自动弹性收缩,无需手动调整资源,提效降本。

大数据开发治理平台 DataWorks - 数据地图支持元数据集合开放授权使用功能上线

可以在数据开发与分析中利用 MaxCompute Package 视图授权共享元数据,快速获取标准化、可追溯的元数据,从而实现高效的数据治理与分析。

大数据开发治理平台 DataWorks - 数据开发大模型节点上线

可通过大模型节点集成大模型能力,实现智能数据开发和分析,显著降低技术门槛。

大数据开发治理平台 DataWorks - 数据开发支持 PAI Flow 节点直接运行

实现了包含 PAI Flow 节点的工作流在数据开发的直接运行,打通了算法开发与大数据开发的链路。

大数据开发治理平台 DataWorks - 数据开发多项体验功能发布

支持连接本地编辑器,支持与 Git 之间的代码互通,开发体验显著提升。

大数据开发治理平台 DataWorks - 数据处理 Embedding 向量化上线

支持在数据集成过程中对数据进行 Embedding 向量化处理,方便用户处理非结构化数据,能够大幅简化 ETL 流程,高效实现知识向量化,助力 RAG 等 AI 场景落地。

大数据开发治理平台 DataWorks - 单表离线读取 Lindorm、 lceberg 表上线

数据集成支持单表离线读取 Lindorm 和 lceberg 表,方便数据湖内数据流出应用。

大数据开发治理平台 DataWorks - 数据处理自定义大模型功能发布

支持在数据集成单表离线数据处理中的 AI 辅助处理能力上配置自定义的大模型,方便用户使用自己训练的模型来进行 AI 相关工作。

大数据开发治理平台 DataWorks - 数据集成报警规则模版上线

支持在数据集成主站里配置报警模版,提升用户配置报警的效率。

大数据开发治理平台 DataWorks - 运维中心触发器新增支持 Kafka 和 MQ 消息触发

DataWorks 触发器支持 Kafka 和 MQ 消息触发,支持用户使用 Kafka 和 MQ 的消息触发 DataWorks 工作流实例的运行。

大数据开发治理平台 DataWorks - 补数据支持通过 AI 智能批量生成业务日期

DataWorks 补数据支持通过 AI 智能自动批量填写业务日期,方便用户快速补数据。

大数据开发治理平台 DataWorks - 运维中心监控标签功能上线

自定义监控支持监控标签,可通过标签监控其关联任务的完成情况,有效提升运维监控效率。

实时计算 Flink版 - CDC YAML格式增强

CDC YAML格式新增对Kafka的canal-json格式和es-ts时间戳格式的支持,简化了CDC场景的配置工作,提升了数据同步的灵活性。

实时计算 Flink版 - Paimon/OSS Connector RAM认证

用户可通过RAM角色进行Paimon连接器的访问授权,无需指定AK/SK,提升了数据访问的安全性,简化了权限管理。

实时计算 Flink版 - PyFlink 可以直接使用内置连接器

开发者在使用PyFlink时 可以直接使用内置连接器,改善Python开发体验,提供更好的开发支持。

实时计算 Flink版 - Flink SQL内置函数扩展

Flink SQL新增了多个内置函数,涵盖了字符串处理、JSON处理和正则表达式等多个领域,极大丰富了SQL处理能力。

实时计算 Flink版 - Kafka和Paimon之间的自动Schema演化

实时计算Flink版全新支持在Kafka和Paimon之间的自动Schema演化,增强了数据模型的灵活性和适应性。

实时计算 Flink版 - Flink SQL支持Variant类型

Flink SQL新增对Variant类型的支持,增强了数据类型的灵活性。

实时计算 Flink版 - 新增 AI 函数 Vector Search

新增AI函数VECTOR_SEARCH,支持向量检索功能。

开源大数据平台 E-MapReduce - Serverless StarRocks 事件中心发布

Serverless StarRocks 事件中心发布,您可以在EMR控制台查看实例的事件,并在云监控控制台中设置事件告警规则,以便及时响应。

开源大数据平台 E-MapReduce - Serverless Spark 支持密文管理

Serverless Spark 新增支持工作空间级别的密文管理,避免明文AccessKey、密码等信息带来的安全风险。

开源大数据平台 E-MapReduce - Serverless Spark支持运行环境管理

Serverless Spark 新增支持按照指定Python版本配置运行环境。

开源大数据平台 E-MapReduce - Serverless StarRocks 健康诊断日报新

健康诊断日报每天自动对实例进行健康评估诊断,并围绕资源配置、查询任务、导入任务、Compaction、表分析、缓存分析等几个维度给出实例的检查评估项,并为你提供修复建议及最佳优化实践。

开源大数据平台 E-MapReduce - 全托管Spark 支持 Kyuubi Gateway

Serverless Spark 支持单工作空间内支持创建多个Kyuubi Gateway。Token支持设置分配对象,进行Ram User/Role认证。 默认适配 DLF,通过Kyuubi提交的任务默认支持使用Serverless Spark工作空间中添加的 DLF 数据目录。

开源大数据平台 E-MapReduce - StarRocks存算分离实例多可用区容灾功能

Serverless StarRocks 存算分离实例多可用区容灾功能正式发布。

开源大数据平台 E-MapReduce - EMR AI 助手开启公测

EMR AI 助手开启公测,助您高效地管理和运维 EMR集群。


二、产品快讯

2025 双11 大促开启,大数据AI 产品低至 3 折

阿里云双11促销进行中,大数据AI部分产品规格低至 3 折,并提供以下企业级解决方案:

ꔷ OpenLake 一站式湖仓:简化数据入湖流程,实现湖仓融合、敏捷分析;

ꔷ 人工智能平台 PAI:覆盖大模型训练、调优到推理的全流程,开发部署效率提升;

ꔷ MaxCompute + DataWorks / EMR + DataWorks:经典数据开发组合全面升级,提效降本;

ꔷ AI 搜索开放平台:融合大模型与向量检索技术,打造智能化搜索体验。

人工智能+大数据平台加速企业模型后训练

阿里云发布企业级大模型后训练解决方案,依托PAI、MaxCompute、DataWorks等产品,实现数据处理、训练、推理全链路优化,训练效率提升3倍,推理吞吐提升5倍+,助力通用大模型高效落地垂直场景。

从多模态数据到 Physical AI,PAI 助力客户快速启动 Physical AI 实践

阿里云PAI联合NVIDIA推出Physical AI全链路解决方案,集成Isaac Sim、Cosmos等工具,提供从多模态数据合成、模仿学习到仿真验证的一站式开发平台,通过Notebook Gallery开箱即用,助力开发者高效构建具身智能应用。

通义实验室基于MaxCompute进行大模型数据管理及处理

通义实验室基于阿里云MaxCompute构建大模型数据平台,针对AI数据“无标准、高成本、难理解”三大特点,实现EB级多模态数据的统一管理、标准化处理与高质量清洗,支撑通义千问、通义万相等大模型高效训练。

云栖实录|MaxCompute全新升级:AI时代的原生数据仓库

阿里云MaxCompute十五周年重磅升级,发布AI原生数据仓库,全面支持多模态数据管理、异构算力(CPU/GPU)弹性调度、AI模型统一管理和AI Function能力,打通SQL与Python开发范式,实现数据处理与AI训练一体化,助力企业高效构建生成式AI应用。

云栖实录|Hologres 4.0全新发布:AI时代的一站式多模态分析平台

Hologres 4.0 发布,集成 OLAP、点查、全文检索、向量搜索与 AI Function,支持多模态数据统一处理,通过 SQL 直接调用大模型,实现一站式智能分析,简化架构、降本增效。

云栖实录|阿里云 Milvus:AI 时代的专业级向量数据库

阿里云推出全托管 Milvus 向量数据库,基于开源 Milvus 深度优化,支持百亿级向量高效检索,性能提升20%、延迟降低40%,无缝集成通义大模型与PAI平台,适用于RAG、多模态搜推等AI场景,提供免运维、弹性伸缩、高性价比的一站式向量服务。

云栖实录|从“开源开放”走向“高效智能”:阿里云 EMR 年度重磅发布

阿里云 EMR 全面升级,发布自研高性能内核 Stella(StarRocks)和 Fusion(Spark),TPC 性能登顶全球榜首;同时推出 EMR AI 助手与 AI Function,支持自然语言交互和 SQL 调用大模型,实现“高效+智能”融合,助力企业轻松应对 AI 时代的多模态数据处理挑战。

云栖实录|AI 搜索智能探索:揭秘如何让搜索“有大脑”

阿里云发布 Agentic Search 智能搜索技术,融合传统检索、RAG 与多智能体动态规划,实现从“找信息”到“做研究”的跃迁。通过低维高效向量模型、多模态检索(图搜/视频定位)、NL2SQL 和 DeepSearch 系统,支持复杂任务自动分解、多工具协同与报告生成,已在电商、金融、科研等场景落地,推动搜索进入智能决策时代。

驶入智驾深水区:广汽的“数据突围“之路

广汽携手阿里云打造端到端智驾数据底座,依托MaxCompute、PAI等大数据AI平台能力,实现数据处理效率提升10倍、模型训练周期缩短50%、资源利用率超90%,支撑GSD系统日均处理数亿样本、快速迭代,加速迈向L3高阶智驾。

云栖实录|DataWorks 发布下一代 Data+AI 一体化平台,开启企业智能数据新时代

DataWorks 发布下一代 Data+AI 一体化平台,深度融合数据开发与 AI 工程,推出智能调度、多模态数据管理、AI Function 集成及 DataWorks Agent 等能力,支持 NL2SQL 全球领先、ETL 自动化生成、自主式数据治理和 ChatBI 自然语言分析,助力企业构建 AI 时代的数据中枢。

理想汽车基于 Hologres + Flink 构建万亿级车联网信号实时分析平台

理想汽车基于阿里云 Hologres + Flink 构建万亿级车联网实时分析平台,实现写入性能提升200%、计算成本降低40%、SLA 达99.9%,支撑100万+车辆、每秒百万级信号的秒级处理,并通过冷热分层、JSONB动态列、增量ETL等创新方案,兼顾高实时、高弹性与低成本,为未来200万辆车规模奠定坚实数据底座。

云栖实录|阿里云DLF 3.0:面向AI时代的智能全模态湖仓管理平台

阿里云 DLF 3.0 升级为智能全模态湖仓管理平台,统一管理结构化表与非结构化文件(如视频、PDF),支持 Paimon、Iceberg、Lance 等开放格式,提供 Omni Catalog、零代码流批入湖、智能冷热分层、细粒度权限等六大能力,实现元数据性能提升10倍、存储成本降低30%,助力企业高效构建安全、开放、高性能的 Data+AI 基础设施。

云栖实录|实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能

阿里云实时计算 Flink 版全新升级,推出增量计算与自研流存储 Fluss,实现时效与成本平衡、湖流一体架构;深度融合 AI 能力,支持 SQL 中调用大模型、实时向量化与智能推理,已在风控、车企舆情等场景落地,打造面向 AI 时代的全栈实时智能平台。

驰骋在数据洪流上:Flink+Hologres驱动零跑科技实时计算的应用与实践

零跑科技基于阿里云 Flink + Hologres 构建实时计算平台,实现车机信号秒级处理、故障实时诊断与AI预测预警,性能较开源方案提升60%~400%,存储成本降低、架构简化,并支撑从50万到100万辆车的规模化增长。未来将深化Flink与数据湖、AI融合,打造流批一体与实时智能特征平台。

阿里云助力金山办公打造智能搜索新标杆:WPS云文档搜索技术全面升级

金山办公携手阿里云 Elasticsearch,将 WPS 云文档搜索升级至 3.0 时代,通过“语义搜索 + 向量检索”混合架构,实现自然语言问答、意图识别与智能摘要,支撑 2625 亿文档的秒级精准检索,内存与 CPU 消耗分别降低 70% 和 50%,为 6.32 亿用户提供“一步直达答案”的智能搜索体验。

云栖实录|AI原生搜索引擎:Elasticsearch 换“芯”——AI原生搜索内核增强技术

阿里云 Elasticsearch 全面“换芯”,推出自研 C++ 云原生内核,实现向量检索吞吐提升最高 400%、复杂查询性能提速 6 倍,并深度融合 RAG、混合检索、Inference Service 与 BBQ 量化技术,打造高性价比、低延迟、多模态的 AI 原生搜索引擎,助力企业构建智能搜索中枢。

云栖实录|阿里云发布 Elasticsearch Serverless 2.0,重塑AI搜索时代基础设施

阿里云发布 Elasticsearch Serverless 2.0,以“极致弹性、智能核心、AI生态融合”三大能力,实现亚秒级弹性扩缩、自动调优(节省70%存储/75%内存),并全托管向量检索与AI搜索链路,无缝集成搜索专属大模型,让开发者零运维构建高性能AI搜索应用,推动智能搜索普惠化。

AI 搜索引擎如何驱动亿级物流:货拉拉 x 阿里云 Elasticsearch

货拉拉依托阿里云 Elasticsearch Serverless,实现日志集群弹性扩缩容(CU 12→150)、资源成本降低60%、运维效率提升50%,支撑全球14个市场、4PB数据、千万级QPS的高并发检索;通过多AZ架构与智能治理平台保障稳定性,并加速AI融合,推动物流业务向智能驱动全面升级。

智能哨兵:AI驱动的云平台风险巡检

阿里云发布“智能哨兵”AI运维系统,构建覆盖指标、日志、作业分布的多层次异常检测体系,结合时序大模型与多Agent协同框架,实现告警降噪、根因定位与处置闭环,将运维从“被动救火”升级为“主动防控”,迈向自愈型智能运维新阶段。

三、最佳实践

AI刷新赛事体验,PAI-ArtLab支撑“我的NBA AI手办”互动

阿里云携手NBA中国推出“我的NBA AI手办”互动体验,基于通义大模型与PAI-ArtLab平台,实现线上线下高并发、低延迟的AIGC个性化生成,重塑球迷观赛与参与方式。

PAI-DLC 支持一键提交 DataJuicer 任务,高效进行大规模多模态数据处理

阿里云 PAI-DLC 支持一键提交 DataJuicer 任务,高效处理大规模多模态数据,异构调度、自动容错,处理效率提升24%以上,助力大模型数据准备。

EMR AI 助手使用指南

EMR AI 助手(EMR Agent)是阿里云EMR推出的一款智能化工具,旨在助您更高效地管理和运维 EMR 集群。通过合理利用 EMR AI 助手的各项功能,可以快速查询资源信息、唤起相关操作、诊断组件异常、获取技术支持等,能帮您提升运维效率和操作体验。

相关文章
|
2月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
225 1
|
存储 数据可视化
BPMN介绍说明(图解)
BPMN介绍说明(图解)
1471 0
|
6月前
|
人工智能 分布式计算 大数据
大数据& AI 产品月刊【2025年4月】
大数据& AI 产品技术月刊【2025年4月】,涵盖4月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
XML 存储 JavaScript
Flowable学习笔记(二、BPMN 2.0-基础 )
Flowable学习笔记(二、BPMN 2.0-基础 )
3844 0
Flowable学习笔记(二、BPMN 2.0-基础 )
|
18小时前
|
人工智能 搜索推荐 API
蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」:你的全能城市向导来啦~
蚂蚁百宝箱联合深铁集团、深圳通推出全国首个“公共出行+城市服务”AI智能体「深铁宝」,上线于深圳地铁、深圳通及支付宝APP,实现一句话直达、秒级响应的智慧出行体验,涵盖出行规划、乘车码快捷调取、周边生活服务推荐等一站式功能,助力城市交通与服务数字化升级。
68 29
|
5月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2025年5月】
大数据& AI 产品技术月刊【2025年5月】,涵盖5月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
10天前
|
存储 数据采集 搜索推荐
Python+淘宝API:3步爬取10万条商品评论(附反爬破解技巧)
本文介绍淘宝商品评论爬取技术,涵盖环境配置、接口分析、反爬破解及数据存储。使用Python模拟请求,动态代理与签名绕过风控,结合Flask中转降低封禁风险,实现高效合规的数据采集,适用于竞品分析与用户画像构建。(238字)
|
21天前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
4月前
|
人工智能 运维 监控
日志太多根本看不过来?教你用AI,让日志自己“说人话”!
日志太多根本看不过来?教你用AI,让日志自己“说人话”!
737 0
|
4月前
|
SQL DataWorks 监控
免费玩转阿里云DataWorks!智能Copilot+用户画像实战,开发效率翻倍攻略
DataWorks是阿里云推出的一站式大数据开发与治理平台,具备数据集成、开发、管理、安全及智能监控等功能,支持多行业数据中台建设。其可视化界面与强大调度能力,助力企业高效完成数据处理与分析。
594 0