【产品升级】Dataphin V5.2 全新上线：四大能力升级，数据管理更统一、更智能！-阿里云开发者社区

一、关于Dataphin（智能数据建设与治理）

Dataphin 是阿里巴巴十余年内部实践及方法论的产品化输出，为企业提供数据建设、治理、运营、消费的Data x AI全链路服务，深度适配湖仓一体架构，灵活兼容多云复杂环境，助力企业高效构建标准化数据资产体系，加速释放数据价值。

二、Dataphin V5.2 版本升级功能点

01. 全新“数据资产一站式运营平台”，加速释放企业数据价值

支持20+数据源全生命周期管理，主题目录+灵活上下架，快速盘点和消费数据；

自定义属性配置，资产价值可视化，助力精准决策。

02. 全新智能应用，降本又增效

X-数据管家：自动解析资产元数据并生成描述等信息，AI驱动的“低人工干预”数据运营；

X-ETL：基于业务需求说明智能生成概念模型，加速数据规范建设落地。

03. 开发平台全链路升级，高效协作无壁垒

湖仓能力再升级：实时集成支持 Iceberg、SelectDB；

支持基于调度模板的批量调度配置、API输入组件支持自定义循环模式，适配复杂加工场景；

全面适配多时区，跨地域协作更顺畅。

04. API 调用支持行级权限管控，筑牢数据安全防线

自动继承表行级权限，精准控制数据读写权限；

用户/应用双认证+动态权限分配，满足不同权限管理诉求。

三、新版本重点特性详解及应用场景示例

特性 1：X-数据管家：批量元数据智能生成，资产上架 so easy！

应用场景:

小王负责部门所有资产的上架工作，上架前需要给完善表资产的展示名、描述、归属目录、标签，以及字段的展示名和标签；由于开发人员建表的 DDL 语句基本未填写 comment 信息，小王需要一一查看理解询问后再进行编辑，工作量巨大。
除了完善基本信息，小王还需要将通过 SQL 开发的自定义指标进行标记，配置维度字段的关联实体并完善指标资产的信息，由于指标众多，操作成本也很高。

功能概览：

Dataphin 的“X-数据管家”智能能用，支持针对单个或者通过圈选规则批量圈选的数据资产，借助大模型的能力+ DDL 等基本信息，智能生成丰富数据资产的属性信息，包括标签、展示名、描述等信息的智能生成，助力降低资产运营成本、提高资产信息完整度。
清晰便捷的推荐结果确认操作：以列表形式展示智能生成结果，可快速对比已有信息和智能生成信息，快速调整后批量应用；也可以查看单个资产详情，针对不合适的配置项单点重新生成
使用建议：您可以先通过自动上架规则批量编辑定义明确、可批量配置的属性信息（如使用部门、业务负责人等），再通过 X- 数据管家批量智能生成描述信息，最后在生成结果确认页面手动添加个性化信息，从而快速完善资产配置信息

特性 2：X-ETL，基于用户提供的业务知识，智能生成概念模型

应用场景:

概念模型是Dataphin模型的最基础部分，很多用户存在以下困惑

数据板块该如何切分
同行业内主题域一般怎么划分
都需要创建哪些业务实体

大模型有着丰富的公共领域知识，加上用户提供的业务知识，利用大模型的能力可以快速生成草稿版的模型。

功能概览：

输入用户需求，大模型将结合公共领域知识和用户提供的业务知识，生成概念模型

在大模型产出的结果上，可以人工进行调整或通过自然语言由大模型来调整
用户确认概念模型后，可以直接发布

特性 3：离线调度模板，通过模板一次批量设置调度配置

应用场景:

某金融客户的一批任务使用相同的调度条件，每次修改时也是按照同样规则变更。如: 有100个任务初始设置为每月第5天运行，后需要修改为每月第10天运行。由于需要修改的任务较多，并且需要重新提交发布任务，操作成本较高。

功能概览：

可在租户级创建离线调度模板，分为

“基础调度模板”，可配置基础调度，如：调度类型，调度周期
“条件调度模板”，可配置条件调度，适用于需要根据其他条件灵活触发任务运行的场景

计算任务、集成任务可引用基础调度模板和条件调度模板；逻辑表、派生指标、标签任务可以引用条件调度模板。如果您需要修改调度配置，只需要编辑更新模板，所有引用模板的任务的调度设置将立即自动跟随变更，无需重新编辑发布。

特性 4：API输入组件支持自定义循环，单任务自动采集海量数据

应用场景:

在企业级数据集成中，存在需循环调用API获取全量数据的场景（如某零售企业需每日拉取500家门店的销售流水，单次API仅返回单店的部分记录，需循环调用才能所有数据）。传统方案面临三大瓶颈：

分页数据采集不全：需按分页字段（如页码、偏移量）逐批拉取，人工计算终止位置易导致末尾数据遗漏或冗余请求；
参数轮询配置效率低下：需场景多任务调用成百上千个参数值（如门店编码、地理位置），配置复杂且运维成本上升；
终止条件不灵活：静态终止机制（如“最多请求100次”）无法满足多样化的接口场景；

功能概览：

分页循环：支持页码、偏移量、游标模式的分页数据读取，可自定义设置动态终止条件
参数遍历循环：支持手动填写、API两种方式获取循环参数，自动遍历完所有参数完成循环

特性 5：实时集成目标端支持Iceberg以及SelectDB

应用场景:

数据实时入湖场景：将业务库数据通过实时同步的方式写入数据湖Iceberg
数据实时出湖场景：将数据湖据通过实时同步的方式写入的SelectDB仓中

功能概览：

实时集成目标端支持Iceberg
实时集成目标端支持SelectDB

特性 6：业务指标“指标关系图”助力指标口径清晰定义和理解

应用场景:

理解业务指标逻辑：当业务指标作为需求表达载体时，可视化地展示业务指标的拆解逻辑，可帮助技术人员更直观、高效地理解业务指标，促进业务人员与技术人员之间精准对接需求，减少歧义，提升团队沟通与协作效率。
梳理指标分析思路：•相关人员也可借助业务指标关系图，更直观地查看指标拆解路径和相关过程指标，显著提升问题分析的效率以及分析思路的条理性。

功能概览：

指标管理页面，配置好相关业务指标后，可一键开启“指标关系图”：支持通过@快速引用添加、关键词模糊搜索和列表选择等方式，快速添加相关业务指标，结合运算符号，灵活构建指标关系表达式。

业务指标详情支持查看“指标关系图”：按照配置的指标关系，可视化呈现当前指标的拆解逻辑（例如：GMV --> 活跃用户数 --> 新UV ），便于更直观地理解指标，同时有效提升指标分析效率。

特性 7：数据API支持行级权限管控，精细化数据访问控制

应用场景:

在企业数据应用中，不同角色对数据的访问需求存在显著差异：

金融行业：客户经理仅能查看所属片区客户数据，风控专员需跨区域分析风险指标
零售行业：区域经理仅能访问管辖门店的销售数据，而总部分析师需全局视角
医疗领域：医生仅能调阅本人接诊患者的病历数据，科研团队需脱敏后的聚合数据

在基于数据服务API进行数据查询时，我们通常使用用户信息以及用户的权限配置表进行限制，或者基于应用级别进行授权。但前者无法将用户的权限进行统一的管控，且难以满足API服务与SQL查询的统一管控需求；后者则会让应用的构建变得非常复杂而无法实施。Dataphin的数据服务API可支持用户粒度和应用粒度的行级权限管控，帮助企业数据应用满足精细化数据访问控制。

功能概览：

自动继承式权限管理

直连数据库API：对接Oracle/MySQL等源时自动继承表级行权限规则（如银行交易流水按客户经理归属划分权限），可手动关闭或开启继承的行级权限
服务单元API：服务单元继承表级行级权限，可手动开启或关闭继承的行级权限；基于服务单元的API均继承服务单元上定义的行级权限

双模权限适配机制

应用自主访问模式：适用于自动化作业场景，采用应用身份鉴权（如额度评估系统调用征信数据API）
用户代理访问模式：适用于用户访问，通过DelegationUid透传用户身份（如销售代表查询自己的销售业绩及负责客户信息）

特性 8：全面适配国际化多时区使用场景，助力出海企业构建统一数据中心

应用场景:

A和客户B是两家全球企业，业务分布在跨不同时区的国家和地区，他们都准备采用Dataphin 用于构建全球的数据中心：

客户A期望将美国不同地区的分公司数据都同步到同一个 Databricks 实例中进行汇总分析；
客户B准备在每个国家搭建一套 StarRocks 引擎并使用当地时间作为数据库时区，期望采用Dataphin多租户+注册调度集群的方式，来隔离和管理不同国家的数据。

以上场景，都面临到数据所在时区各异、但是需要使用一套 Dataphin 进行集成加工处理的问题。

功能概览：

跨时区的数据同步：支持设置数据库的默认时区，离线集成和实时集成将根据输入数据源和输出数据源的时区，对时间字段进行时区转换；

租户级别设置调度时区：支持按照租户设置调度时区，修改后实例生成和运行将按照设置的调度时区进行。

特性 9：“数据资产管理与运营平台”支持独立输出

Dataphin 全新推出的“数据资产管理与运营平台”，面向已有数据开发平台的企业，提供集中化且用户友好的数据资产管理解决方案，支持从数据导入到消费的全生命周期管理流程。核心功能包括：

多源、多云数据资产引入：支持 20+ 不同类型的数据源（如关系型数据库、大数据存储引擎）的元数据采集，同时支持 BI系统的报表元数据采集，确保企业全面掌握所有数据资源状态，提高数据盘点效率。
自定义资产属性配置：支持根据管理诉求个性化定义每个资产类型的附加属性信息，通过批量上传或借助大模型智能完善属性信息。同时支持添加使用说明、关联展示数据血缘及质量评估报告等，促进终端用户对数据资产的理解和应用。
主题式资产目录构建：基于不同维度（如数据来源、责任部门）创建资产专题和目录，支持灵活定义专题可见用户范围，帮助企业高效组织并快速定位所需信息资源。
灵活的资产上下架管理：结合归属目录定义及最小化数据可见规则，让高质量数据资产像“商品”一样被管理和使用，治理数据价值加速释放。
与 BI系统无缝集成，打通消费最后一公里：完成访问权限申请后，用户可直接跳转至预集成的 BI 系统进行自助分析和洞察生成，权限统一托管在资产平台，确保操作便捷性和数据安全性。

此外，平台还提供一系列增值服务选项，如智能数据管家、基于自然语言的智能资产问答和数据分析、数据服务、全域数据治理（标准、质量、安全）以及行级权限管控等，让企业能更有效地激活累积的数据潜力，促进业务增长，同时建立完善的数据保护机制，实现数字化转型。

四、总结与展望

本次版本通过推出全新独立数据资产管理平台、智能化能力升级、开发链路优化及API权限管控四大核心功能，为企业构建了更高效、安全、智能的数据运营体系。未来，我们将持续迭代技术深度与场景覆盖，下一版本将重点推出数据治理智能Agent（智能数据标准映射+智能安全分类分级打标）、MaxCompute/ Hive SQL 可配置查询加速引擎以提升查询性能、资产目录支持上下架审批流程、实时集成和实时研发全面适配Paimon和Hudi 湖表等能力，进一步深化湖仓一体能力，助力企业实现数据驱动的精细化运营与业务创新。

【产品升级】Dataphin V5.2 全新上线：四大能力升级，数据管理更统一、更智能！

一、关于Dataphin（智能数据建设与治理）

二、Dataphin V5.2 版本升级功能点

三、新版本重点特性详解及应用场景示例

特性 1：X-数据管家：批量元数据智能生成，资产上架 so easy！

特性 2：X-ETL，基于用户提供的业务知识，智能生成概念模型

特性 3：离线调度模板，通过模板一次批量设置调度配置

特性 4：API输入组件支持自定义循环，单任务自动采集海量数据

特性 5：实时集成目标端支持Iceberg以及SelectDB

特性 6：业务指标“指标关系图”助力指标口径清晰定义和理解

特性 7：数据API支持行级权限管控，精细化数据访问控制

特性 8：全面适配国际化多时区使用场景，助力出海企业构建统一数据中心

特性 9：“数据资产管理与运营平台”支持独立输出

四、总结与展望

Dataphin智能数据建设与治理

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【产品升级】Dataphin V5.2 全新上线：四大能力升级，数据管理更统一、更智能！

一、关于Dataphin（智能数据建设与治理）

二、Dataphin V5.2 版本升级功能点

三、新版本重点特性详解及应用场景示例

特性 1：X-数据管家：批量元数据智能生成，资产上架 so easy！

特性 2：X-ETL，基于用户提供的业务知识，智能生成概念模型

特性 3：离线调度模板，通过模板一次批量设置调度配置

特性 4：API输入组件支持自定义循环，单任务自动采集海量数据

特性 5：实时集成目标端支持Iceberg以及SelectDB

特性 6：业务指标“指标关系图”助力指标口径清晰定义和理解

特性 7：数据API支持行级权限管控，精细化数据访问控制

特性 8：全面适配国际化多时区使用场景，助力出海企业构建统一数据中心

特性 9：“数据资产管理与运营平台”支持独立输出

四、总结与展望

Dataphin智能数据建设与治理

热门文章

最新文章

相关课程

相关电子书