【产品升级】Dataphin V5.2 全新上线:四大能力升级,数据管理更统一、更智能!

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Dataphin是阿里巴巴推出的数据建设与治理平台,提供全链路数据服务,助力企业构建标准化数据资产体系。V5.2版本新增“数据资产一站式运营平台”,引入X-数据管家、X-ETL等智能应用,提升数据运营效率。开发平台全面升级,支持多云复杂环境,强化API行级权限管控,保障数据安全。新版还适配国际化多时区场景,助力企业高效协同,释放数据价值。

一、关于Dataphin(智能数据建设与治理)

Dataphin 是阿里巴巴十余年内部实践及方法论的产品化输出,为企业提供数据建设、治理、运营、消费的Data x AI全链路服务,深度适配湖仓一体架构,灵活兼容多云复杂环境,助力企业高效构建标准化数据资产体系,加速释放数据价值。

二、Dataphin V5.2 版本升级功能点

01. 全新“数据资产一站式运营平台”,加速释放企业数据价值

支持20+数据源全生命周期管理,主题目录+灵活上下架,快速盘点和消费数据;

自定义属性配置,资产价值可视化,助力精准决策。

02. 全新智能应用,降本又增效

X-数据管家:自动解析资产元数据并生成描述等信息,AI驱动的“低人工干预”数据运营;

X-ETL:基于业务需求说明智能生成概念模型,加速数据规范建设落地。

03. 开发平台全链路升级,高效协作无壁垒

湖仓能力再升级:实时集成支持 Iceberg、SelectDB;

支持基于调度模板的批量调度配置、API输入组件支持自定义循环模式,适配复杂加工场景;

全面适配多时区,跨地域协作更顺畅。

04. API 调用支持行级权限管控,筑牢数据安全防线

自动继承表行级权限,精准控制数据读写权限;

用户/应用双认证+动态权限分配,满足不同权限管理诉求。

三、新版本重点特性详解及应用场景示例

特性 1:X-数据管家:批量元数据智能生成,资产上架 so easy!

应用场景:

  1. 小王负责部门所有资产的上架工作,上架前需要给完善表资产的展示名、描述、归属目录、标签,以及字段的展示名和标签;由于开发人员建表的 DDL 语句基本未填写 comment 信息,小王需要一一查看理解询问后再进行编辑,工作量巨大。
  2. 除了完善基本信息,小王还需要将通过 SQL 开发的自定义指标进行标记,配置维度字段的关联实体并完善指标资产的信息,由于指标众多,操作成本也很高。

功能概览:

  1. Dataphin 的“X-数据管家”智能能用,支持针对单个或者通过圈选规则批量圈选的数据资产,借助大模型的能力+ DDL 等基本信息,智能生成丰富数据资产的属性信息,包括标签、展示名、描述等信息的智能生成,助力降低资产运营成本、提高资产信息完整度。
  2. 清晰便捷的推荐结果确认操作: 以列表形式展示智能生成结果,可快速对比已有信息和智能生成信息,快速调整后批量应用;也可以查看单个资产详情,针对不合适的配置项单点重新生成
  3. 使用建议:您可以先通过自动上架规则批量编辑定义明确、可批量配置的属性信息(如使用部门、业务负责人等),再通过 X- 数据管家批量智能生成描述信息,最后在生成结果确认页面手动添加个性化信息,从而快速完善资产配置信息


特性 2:X-ETL,基于用户提供的业务知识,智能生成概念模型

应用场景:

概念模型是Dataphin模型的最基础部分,很多用户存在以下困惑

  • 数据板块该如何切分
  • 同行业内主题域一般怎么划分
  • 都需要创建哪些业务实体

大模型有着丰富的公共领域知识,加上用户提供的业务知识,利用大模型的能力可以快速生成草稿版的模型。

功能概览:

  1. 输入用户需求,大模型将结合公共领域知识和用户提供的业务知识,生成概念模型


  1. 在大模型产出的结果上,可以人工进行调整或通过自然语言由大模型来调整
  2. 用户确认概念模型后,可以直接发布

特性 3:离线调度模板,通过模板一次批量设置调度配置

应用场景:

某金融客户的一批任务使用相同的调度条件,每次修改时也是按照同样规则变更。如: 有100个任务初始设置为每月第5天运行,后需要修改为每月第10天运行。由于需要修改的任务较多,并且需要重新提交发布任务,操作成本较高。

功能概览:

  1. 可在租户级创建离线调度模板,分为
  1. “基础调度模板”,可配置基础调度,如:调度类型,调度周期
  2. “条件调度模板”,可配置条件调度,适用于需要根据其他条件灵活触发任务运行的场景

  1. 计算任务、集成任务可引用基础调度模板和条件调度模板;逻辑表、派生指标、标签任务可以引用条件调度模板。如果您需要修改调度配置,只需要编辑更新模板,所有引用模板的任务的调度设置将立即自动跟随变更,无需重新编辑发布。

特性 4:API输入组件支持自定义循环,单任务自动采集海量数据

应用场景:

在企业级数据集成中,存在需循环调用API获取全量数据的场景(如某零售企业需每日拉取500家门店的销售流水,单次API仅返回单店的部分记录,需循环调用才能所有数据)。传统方案面临三大瓶颈:

  1. 分页数据采集不全需按分页字段(如页码、偏移量)逐批拉取,人工计算终止位置易导致末尾数据遗漏或冗余请求;
  2. 参数轮询配置效率低下需场景多任务调用成百上千个参数值(如门店编码、地理位置),配置复杂且运维成本上升;
  3. 终止条件不灵活静态终止机制(如“最多请求100次”)无法满足多样化的接口场景;

功能概览:

  1. 分页循环:支持页码、偏移量、游标模式的分页数据读取,可自定义设置动态终止条件
  2. 参数遍历循环:支持手动填写、API两种方式获取循环参数,自动遍历完所有参数完成循环

特性 5:实时集成目标端支持Iceberg以及SelectDB

应用场景:

  1. 数据实时入湖场景:将业务库数据通过实时同步的方式写入数据湖Iceberg
  2. 数据实时出湖场景:将数据湖据通过实时同步的方式写入的SelectDB仓中

功能概览:

  1. 实时集成目标端支持Iceberg
  2. 实时集成目标端支持SelectDB

特性 6:业务指标“指标关系图”助力指标口径清晰定义和理解

应用场景:

  1. 理解业务指标逻辑当业务指标作为需求表达载体时,可视化地展示业务指标的拆解逻辑,可帮助技术人员更直观、高效地理解业务指标,促进业务人员与技术人员之间精准对接需求,减少歧义,提升团队沟通与协作效率
  2. 梳理指标分析思路:•相关人员也可借助业务指标关系图,更直观地查看指标拆解路径和相关过程指标,显著提升问题分析的效率以及分析思路的条理性

功能概览:

  1. 指标管理页面,配置好相关业务指标后,可一键开启“指标关系图”:支持通过@快速引用添加、关键词模糊搜索和列表选择等方式,快速添加相关业务指标,结合运算符号,灵活构建指标关系表达式。

  1. 业务指标详情支持查看“指标关系图”:按照配置的指标关系,可视化呈现当前指标的拆解逻辑(例如:GMV --> 活跃用户数 --> 新UV ),便于更直观地理解指标,同时有效提升指标分析效率

特性 7:数据API支持行级权限管控,精细化数据访问控制

应用场景:

在企业数据应用中,不同角色对数据的访问需求存在显著差异:

  • 金融行业:客户经理仅能查看所属片区客户数据,风控专员需跨区域分析风险指标
  • 零售行业:区域经理仅能访问管辖门店的销售数据,而总部分析师需全局视角
  • 医疗领域:医生仅能调阅本人接诊患者的病历数据,科研团队需脱敏后的聚合数据

在基于数据服务API进行数据查询时,我们通常使用用户信息以及用户的权限配置表进行限制,或者基于应用级别进行授权。但前者无法将用户的权限进行统一的管控,且难以满足API服务与SQL查询的统一管控需求;后者则会让应用的构建变得非常复杂而无法实施。Dataphin的数据服务API可支持用户粒度和应用粒度的行级权限管控,帮助企业数据应用满足精细化数据访问控制。

功能概览:

  1. 自动继承式权限管理
  1. 直连数据库API:对接Oracle/MySQL等源时自动继承表级行权限规则(如银行交易流水按客户经理归属划分权限),可手动关闭或开启继承的行级权限
  2. 服务单元API:服务单元继承表级行级权限,可手动开启或关闭继承的行级权限;基于服务单元的API均继承服务单元上定义的行级权限
  1. 双模权限适配机制
  1. 应用自主访问模式:适用于自动化作业场景,采用应用身份鉴权(如额度评估系统调用征信数据API)
  2. 用户代理访问模式:适用于用户访问,通过DelegationUid透传用户身份(如销售代表查询自己的销售业绩及负责客户信息)

特性 8:全面适配国际化多时区使用场景,助力出海企业构建统一数据中心

应用场景:

A和客户B是两家全球企业,业务分布在跨不同时区的国家和地区,他们都准备采用Dataphin 用于构建全球的数据中心:

  1. 客户A期望将美国不同地区的分公司数据都同步到同一个 Databricks 实例中进行汇总分析;
  2. 客户B准备在每个国家搭建一套 StarRocks 引擎并使用当地时间作为数据库时区,期望采用Dataphin多租户+注册调度集群的方式,来隔离和管理不同国家的数据。

以上场景,都面临到数据所在时区各异、但是需要使用一套 Dataphin 进行集成加工处理的问题。

功能概览:

  1. 跨时区的数据同步:支持设置数据库的默认时区,离线集成和实时集成将根据输入数据源和输出数据源的时区,对时间字段进行时区转换;

  1. 租户级别设置调度时区:支持按照租户设置调度时区,修改后实例生成和运行将按照设置的调度时区进行。


特性 9:“数据资产管理与运营平台”支持独立输出

Dataphin 全新推出的“数据资产管理与运营平台”,面向已有数据开发平台的企业,提供集中化且用户友好的数据资产管理解决方案,支持从数据导入到消费的全生命周期管理流程。核心功能包括:

  1. 多源、多云数据资产引入:支持 20+ 不同类型的数据源(如关系型数据库、大数据存储引擎)的元数据采集,同时支持 BI系统的报表元数据采集,确保企业全面掌握所有数据资源状态,提高数据盘点效率。
  2. 自定义资产属性配置:支持根据管理诉求个性化定义每个资产类型的附加属性信息,通过批量上传或借助大模型智能完善属性信息。同时支持添加使用说明、关联展示数据血缘及质量评估报告等,促进终端用户对数据资产的理解和应用。
  3. 主题式资产目录构建:基于不同维度(如数据来源、责任部门)创建资产专题和目录,支持灵活定义专题可见用户范围,帮助企业高效组织并快速定位所需信息资源。
  4. 灵活的资产上下架管理:结合归属目录定义及最小化数据可见规则,让高质量数据资产像“商品”一样被管理和使用,治理数据价值加速释放。
  5. 与 BI系统无缝集成,打通消费最后一公里:完成访问权限申请后,用户可直接跳转至预集成的 BI 系统进行自助分析和洞察生成,权限统一托管在资产平台,确保操作便捷性和数据安全性。

此外,平台还提供一系列增值服务选项,如智能数据管家、基于自然语言的智能资产问答和数据分析、数据服务、全域数据治理(标准、质量、安全)以及行级权限管控等,让企业能更有效地激活累积的数据潜力,促进业务增长,同时建立完善的数据保护机制,实现数字化转型。

四、总结与展望

本次版本通过推出全新独立数据资产管理平台、智能化能力升级、开发链路优化及API权限管控四大核心功能,为企业构建了更高效、安全、智能的数据运营体系。未来,我们将持续迭代技术深度与场景覆盖,下一版本将重点推出数据治理智能Agent(智能数据标准映射+智能安全分类分级打标)、MaxCompute/ Hive SQL 可配置查询加速引擎以提升查询性能资产目录支持上下架审批流程、实时集成和实时研发全面适配Paimon和Hudi 湖表等能力,进一步深化湖仓一体能力,助力企业实现数据驱动的精细化运营与业务创新。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
SQL 人工智能 分布式计算
【产品升级】Dataphin V5.3 全新上线:四大能力升级,数据管理更统一、更智能!
V5.3版本,Dataphin推出众多重磅功能:例如,全新的智能应用:X-数据标准、X-数据安全以及智能应用反馈看板;更前沿的数据研发能力:利用SelectDB/Doris/StarRocks查询加速Hive和MaxCompute的离线引擎、全面支持Paimon格式的数据湖构建;资产运营和数据服务持续提效。
376 0
|
4月前
|
SQL 运维 自然语言处理
Dataphin智能化重磅升级!编码难题一扫光,开发运维更高效!
Dataphin重磅推出三大核心智能化能力:智能代码助手提升SQL开发效率;智能运维助手实现移动化任务管理;智能分析通过自然语言生成SQL,助力数据价值释放。未来将持续开放智能ETL、安全助手等能力,助力企业构建高效、稳定的数据资产体系。
423 0
|
8月前
|
运维 分布式计算 监控
Dataphin深度评测:企业级数据中台的智能实践利器
Dataphin是一款以全链路治理、智能提效和高兼容性为核心的企业级数据中台工具,特别适用于中大型企业的复杂数据场景。其流批一体能力、资源监控工具及行业化模板库可显著提升数据治理水平并降低运维成本。通过周期补数据功能,历史数据修复效率提升约60%;智能建模功能使建模时间缩短50%。尽管在数据源支持(如SAP HANA、DB2)和用户体验上仍有改进空间,但其强大的功能使其成为构建企业级数据中台的优选工具,尤其适合零售、金融等行业需要高效数据治理与实时分析的企业。
|
7月前
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
674 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
7月前
|
SQL 调度
如何基于Dataphin智能研发开发“留存率”指标
用户留存率是指在互联网行业中,某段时间内新增用户中,在后续特定时间点或时间段内继续使用应用的用户比例。它是衡量应用质量和用户保留能力的重要指标。 本文为您介绍如何基于Dataphin规范建模结合SQL加工能力进行留存率指标开发。
202 11
|
10月前
Dataphin免费试用指南
为您提供Dataphin快速上手操作指南,一起轻松构建数据
599 67
|
11月前
|
存储 分布式计算 Hadoop
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
Dataphin V4.4版本引入了多项核心升级,包括级联发布、元数据采集扩展、数据源指标上架、自定义属性管理等功能,大幅提升数据处理与资产管理效率。此外,还支持Hadoop集群管理、跨Schema数据读取、实时集成目标端支持Hudi及MaxCompute delta等技术,进一步优化用户体验。
890 3
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
|
SQL 运维 API
Dataphin(智能数据建设与治理)V3.13版本升级速览
本次发布的V3.13 版本中,Dataphin 不仅提升了易用性,支持了计算任务批量操作(离线集成&实时计算任务)、运维列表查看及批量操作(实例排序、手动任务批量运行、逻辑表任务修改负责人)等功能;也新增了多个特色功能,如:任务传参及灵活调度(跨节点参数)、治理经验沉淀(质量知识库)、资产治理相关对象的跨租户发布(数据标准、安全)、跨集群资源调度、分析平台手工表等,以满足灵活、多样性的业务诉求。
709 2
|
运维 算法 安全
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——4. 特色研发能力
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——4. 特色研发能力
555 1

热门文章

最新文章