一、关于Dataphin(智能数据建设与治理)
Dataphin 是阿里巴巴十余年内部实践及方法论的产品化输出,为企业提供数据建设、治理、运营、消费的Data x AI全链路服务,深度适配湖仓一体架构,灵活兼容多云复杂环境,助力企业高效构建标准化数据资产体系,加速释放数据价值。
二、Dataphin V5.2 版本升级功能点
01. 全新“数据资产一站式运营平台”,加速释放企业数据价值
支持20+数据源全生命周期管理,主题目录+灵活上下架,快速盘点和消费数据;
自定义属性配置,资产价值可视化,助力精准决策。
02. 全新智能应用,降本又增效
X-数据管家:自动解析资产元数据并生成描述等信息,AI驱动的“低人工干预”数据运营;
X-ETL:基于业务需求说明智能生成概念模型,加速数据规范建设落地。
03. 开发平台全链路升级,高效协作无壁垒
湖仓能力再升级:实时集成支持 Iceberg、SelectDB;
支持基于调度模板的批量调度配置、API输入组件支持自定义循环模式,适配复杂加工场景;
全面适配多时区,跨地域协作更顺畅。
04. API 调用支持行级权限管控,筑牢数据安全防线
自动继承表行级权限,精准控制数据读写权限;
用户/应用双认证+动态权限分配,满足不同权限管理诉求。
三、新版本重点特性详解及应用场景示例
特性 1:X-数据管家:批量元数据智能生成,资产上架 so easy!
应用场景:
- 小王负责部门所有资产的上架工作,上架前需要给完善表资产的展示名、描述、归属目录、标签,以及字段的展示名和标签;由于开发人员建表的 DDL 语句基本未填写 comment 信息,小王需要一一查看理解询问后再进行编辑,工作量巨大。
- 除了完善基本信息,小王还需要将通过 SQL 开发的自定义指标进行标记,配置维度字段的关联实体并完善指标资产的信息,由于指标众多,操作成本也很高。
功能概览:
- Dataphin 的“X-数据管家”智能能用,支持针对单个或者通过圈选规则批量圈选的数据资产,借助大模型的能力+ DDL 等基本信息,智能生成丰富数据资产的属性信息,包括标签、展示名、描述等信息的智能生成,助力降低资产运营成本、提高资产信息完整度。
- 清晰便捷的推荐结果确认操作: 以列表形式展示智能生成结果,可快速对比已有信息和智能生成信息,快速调整后批量应用;也可以查看单个资产详情,针对不合适的配置项单点重新生成
- 使用建议:您可以先通过自动上架规则批量编辑定义明确、可批量配置的属性信息(如使用部门、业务负责人等),再通过 X- 数据管家批量智能生成描述信息,最后在生成结果确认页面手动添加个性化信息,从而快速完善资产配置信息
特性 2:X-ETL,基于用户提供的业务知识,智能生成概念模型
应用场景:
概念模型是Dataphin模型的最基础部分,很多用户存在以下困惑
- 数据板块该如何切分
- 同行业内主题域一般怎么划分
- 都需要创建哪些业务实体
大模型有着丰富的公共领域知识,加上用户提供的业务知识,利用大模型的能力可以快速生成草稿版的模型。
功能概览:
- 输入用户需求,大模型将结合公共领域知识和用户提供的业务知识,生成概念模型
- 在大模型产出的结果上,可以人工进行调整或通过自然语言由大模型来调整
- 用户确认概念模型后,可以直接发布
特性 3:离线调度模板,通过模板一次批量设置调度配置
应用场景:
某金融客户的一批任务使用相同的调度条件,每次修改时也是按照同样规则变更。如: 有100个任务初始设置为每月第5天运行,后需要修改为每月第10天运行。由于需要修改的任务较多,并且需要重新提交发布任务,操作成本较高。
功能概览:
- 可在租户级创建离线调度模板,分为
- “基础调度模板”,可配置基础调度,如:调度类型,调度周期
- “条件调度模板”,可配置条件调度,适用于需要根据其他条件灵活触发任务运行的场景
- 计算任务、集成任务可引用基础调度模板和条件调度模板;逻辑表、派生指标、标签任务可以引用条件调度模板。如果您需要修改调度配置,只需要编辑更新模板,所有引用模板的任务的调度设置将立即自动跟随变更,无需重新编辑发布。
特性 4:API输入组件支持自定义循环,单任务自动采集海量数据
应用场景:
在企业级数据集成中,存在需循环调用API获取全量数据的场景(如某零售企业需每日拉取500家门店的销售流水,单次API仅返回单店的部分记录,需循环调用才能所有数据)。传统方案面临三大瓶颈:
- 分页数据采集不全:需按分页字段(如页码、偏移量)逐批拉取,人工计算终止位置易导致末尾数据遗漏或冗余请求;
- 参数轮询配置效率低下:需场景多任务调用成百上千个参数值(如门店编码、地理位置),配置复杂且运维成本上升;
- 终止条件不灵活:静态终止机制(如“最多请求100次”)无法满足多样化的接口场景;
功能概览:
- 分页循环:支持页码、偏移量、游标模式的分页数据读取,可自定义设置动态终止条件
- 参数遍历循环:支持手动填写、API两种方式获取循环参数,自动遍历完所有参数完成循环
特性 5:实时集成目标端支持Iceberg以及SelectDB
应用场景:
- 数据实时入湖场景:将业务库数据通过实时同步的方式写入数据湖Iceberg
- 数据实时出湖场景:将数据湖据通过实时同步的方式写入的SelectDB仓中
功能概览:
- 实时集成目标端支持Iceberg
- 实时集成目标端支持SelectDB
特性 6:业务指标“指标关系图”助力指标口径清晰定义和理解
应用场景:
- 理解业务指标逻辑:当业务指标作为需求表达载体时,可视化地展示业务指标的拆解逻辑,可帮助技术人员更直观、高效地理解业务指标,促进业务人员与技术人员之间精准对接需求,减少歧义,提升团队沟通与协作效率。
- 梳理指标分析思路:•相关人员也可借助业务指标关系图,更直观地查看指标拆解路径和相关过程指标,显著提升问题分析的效率以及分析思路的条理性。
功能概览:
- 指标管理页面,配置好相关业务指标后,可一键开启“指标关系图”:支持通过@快速引用添加、关键词模糊搜索和列表选择等方式,快速添加相关业务指标,结合运算符号,灵活构建指标关系表达式。
- 业务指标详情支持查看“指标关系图”:按照配置的指标关系,可视化呈现当前指标的拆解逻辑(例如:GMV --> 活跃用户数 --> 新UV ),便于更直观地理解指标,同时有效提升指标分析效率。
特性 7:数据API支持行级权限管控,精细化数据访问控制
应用场景:
在企业数据应用中,不同角色对数据的访问需求存在显著差异:
- 金融行业:客户经理仅能查看所属片区客户数据,风控专员需跨区域分析风险指标
- 零售行业:区域经理仅能访问管辖门店的销售数据,而总部分析师需全局视角
- 医疗领域:医生仅能调阅本人接诊患者的病历数据,科研团队需脱敏后的聚合数据
在基于数据服务API进行数据查询时,我们通常使用用户信息以及用户的权限配置表进行限制,或者基于应用级别进行授权。但前者无法将用户的权限进行统一的管控,且难以满足API服务与SQL查询的统一管控需求;后者则会让应用的构建变得非常复杂而无法实施。Dataphin的数据服务API可支持用户粒度和应用粒度的行级权限管控,帮助企业数据应用满足精细化数据访问控制。
功能概览:
- 自动继承式权限管理
- 直连数据库API:对接Oracle/MySQL等源时自动继承表级行权限规则(如银行交易流水按客户经理归属划分权限),可手动关闭或开启继承的行级权限
- 服务单元API:服务单元继承表级行级权限,可手动开启或关闭继承的行级权限;基于服务单元的API均继承服务单元上定义的行级权限
- 双模权限适配机制
- 应用自主访问模式:适用于自动化作业场景,采用应用身份鉴权(如额度评估系统调用征信数据API)
- 用户代理访问模式:适用于用户访问,通过DelegationUid透传用户身份(如销售代表查询自己的销售业绩及负责客户信息)
特性 8:全面适配国际化多时区使用场景,助力出海企业构建统一数据中心
应用场景:
A和客户B是两家全球企业,业务分布在跨不同时区的国家和地区,他们都准备采用Dataphin 用于构建全球的数据中心:
- 客户A期望将美国不同地区的分公司数据都同步到同一个 Databricks 实例中进行汇总分析;
- 客户B准备在每个国家搭建一套 StarRocks 引擎并使用当地时间作为数据库时区,期望采用Dataphin多租户+注册调度集群的方式,来隔离和管理不同国家的数据。
以上场景,都面临到数据所在时区各异、但是需要使用一套 Dataphin 进行集成加工处理的问题。
功能概览:
- 跨时区的数据同步:支持设置数据库的默认时区,离线集成和实时集成将根据输入数据源和输出数据源的时区,对时间字段进行时区转换;
- 租户级别设置调度时区:支持按照租户设置调度时区,修改后实例生成和运行将按照设置的调度时区进行。
特性 9:“数据资产管理与运营平台”支持独立输出
Dataphin 全新推出的“数据资产管理与运营平台”,面向已有数据开发平台的企业,提供集中化且用户友好的数据资产管理解决方案,支持从数据导入到消费的全生命周期管理流程。核心功能包括:
- 多源、多云数据资产引入:支持 20+ 不同类型的数据源(如关系型数据库、大数据存储引擎)的元数据采集,同时支持 BI系统的报表元数据采集,确保企业全面掌握所有数据资源状态,提高数据盘点效率。
- 自定义资产属性配置:支持根据管理诉求个性化定义每个资产类型的附加属性信息,通过批量上传或借助大模型智能完善属性信息。同时支持添加使用说明、关联展示数据血缘及质量评估报告等,促进终端用户对数据资产的理解和应用。
- 主题式资产目录构建:基于不同维度(如数据来源、责任部门)创建资产专题和目录,支持灵活定义专题可见用户范围,帮助企业高效组织并快速定位所需信息资源。
- 灵活的资产上下架管理:结合归属目录定义及最小化数据可见规则,让高质量数据资产像“商品”一样被管理和使用,治理数据价值加速释放。
- 与 BI系统无缝集成,打通消费最后一公里:完成访问权限申请后,用户可直接跳转至预集成的 BI 系统进行自助分析和洞察生成,权限统一托管在资产平台,确保操作便捷性和数据安全性。
此外,平台还提供一系列增值服务选项,如智能数据管家、基于自然语言的智能资产问答和数据分析、数据服务、全域数据治理(标准、质量、安全)以及行级权限管控等,让企业能更有效地激活累积的数据潜力,促进业务增长,同时建立完善的数据保护机制,实现数字化转型。
四、总结与展望
本次版本通过推出全新独立数据资产管理平台、智能化能力升级、开发链路优化及API权限管控四大核心功能,为企业构建了更高效、安全、智能的数据运营体系。未来,我们将持续迭代技术深度与场景覆盖,下一版本将重点推出数据治理智能Agent(智能数据标准映射+智能安全分类分级打标)、MaxCompute/ Hive SQL 可配置查询加速引擎以提升查询性能、资产目录支持上下架审批流程、实时集成和实时研发全面适配Paimon和Hudi 湖表等能力,进一步深化湖仓一体能力,助力企业实现数据驱动的精细化运营与业务创新。