Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。

高质量数据能更好支撑业务发展

数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。

数据质量的好坏,直接影响着业务的开展,下面是一些简单的示例:

良好的数据质量

糟糕的数据质量

1、数据支撑业务顺利开展,如

更精确的用户偏好,通过推荐提高用户的消费额

更实时的物流信息,优化物流分配和配送效率

更准确的仓储信息,优化仓储补货和管理

2、及时、准确的数据,支持高效的商务决策

1、业务开展受阻,如

无法正确开具发票,导致无法走财务流程

登记了错误的用户联系方式,导致货物无人接收

2、数据错误导致业务决策出错

3、最好的机器学习算法,遇到数据质量不足时,结果也不如人意

数据质量问题的来源众多,业务方面(业务规则未定义、业务输入控制)、管理方面(无完整数据治理体系)、技术方案(设计和开发脱节、数据采集有误等)都可能导致数据质量变差。完整的解决数据质量问题,需要从业务、管理和技术等多方面进行优化。

c0cebc07-cbf8-4c18-bc2d-08720be691fc.png

Dataphin数据质量可以帮助组织沉淀业务规则,并通过技术进行自动化的质量校验,同时支持告警、大盘等管理功能,助力企业解决数据质量问题,获得高质量数据来更好支持业务发展。


全域数据质量能力

image.png

【点击图片收看视频介绍】

全域数据质量是指对客户全场景/全数据源下的数据常用的数据场景,都可以进行数据质量监控,本次升级支持了大部分常用场景和计算源,并持续扩展中。

Dataphin当前能够对客户在数据处理中常用到的数据引擎、数据源和数据对象进行数据质量的监控,详细支持的列表如下:

质量校验对象

支持范围

质量校验能力

Dataphin表

支持Dataphin上的物理表和逻辑表的质量校验。支持Maxcompute、Hadoop系列(CDP、CDH、TDH等)、ADB等环境下数据表质量的校验

支持7种质量性质下24个模版共计100+不同监控指标的质量规则校验

该部分详见质量规则模版

全域表

支持MySQL、Oracle、Maxcompute、Hive等7种数据源表的质量检测,并持续扩展中

支持7种质量性质下24个模版共计100+不同监控指标的质量规则校验

该部分详见质量规则模版

数据源

注册到Dataphin上的数据源的稳定性,支持20+常见数据源的质量校验,并持续扩展中

1、数据源连通性

2、表结构变动监控

实时元表

Dataphin的实时元表

1、实时指标监控

2、实时离线对比

3、实时多条链路对比

指标

Dataphin生产的指标

1、指标的稳定性、唯一性等监控


质量规则模版

Dataphin数据质量,支持对数据表进行完整性、唯一性、及时性、有效性、一致性、稳定性、自定SQL等7种质量模版分类下24个模版共计100+不同监控指标的质量规则校验,7种质量模版分类介绍如下:

质量规则分类

分类说明(主要基于DAMA)

举例

完整性

1、完备性用于对表/字段是否存在所有必要数据进行判断,用于检查数据是否完整

2、常用于判断字段填充率、必填/非空(填充率100%)等

企业有1000员工,只有600人有联系方式

唯一性

1、唯一性用于对字段是否唯一进行校验。

2、常用于判断主键/业务实体的唯一性、重复率等

员工身份证号码应该只出现一次

及时性

1、及时性用于对数据时间更新的频率和间隔进行验证

2、常用于判断业务日期/操作日期是否最新,时间间隔是否合理

A上午8点入职,10点才能在系统看到相关信息

有效性

1、有效性用于对数据内容填写是否符合规范进行校验

2、常用于对数据的类型/范围/长度格式进行校验

员工年龄-1岁,无效

一致性

1、一致性用于对比不同列、不同表之间的数据一致性或者业务一致性。

2、常用于比较不同数据表的主键是否相同、单价乘数量是否等于总价等

A在员工系统的公司职务是总监,在销售系统是主管

稳定性

1、稳定性用于校验数据产出是否稳定,也可以用于校验业务数据是否稳定

2、常用于校验数据总大小/总条数是否稳定,以及数据的汇总值、平均值是否稳定等

客户数量在10000家,当一个月波动20%的时候可能存在异常

自定义SQL

支持自定义指标监控和自定义异常数据监控两种方式,分别针对数据统计值和数据详情进行质量监控

/

*这里仅针对模版的整体能力进行说明,每一个分类下都有更多的模版和应用场景,详见Dataphin产品手册


产品能力展示

2edb41a9-c49d-4527-86f3-158c2389e124.png

1、质量大盘

质量大盘可以展示当前全局的校验规则情况和异常情况,有助于管理员快速发现整体问题,安排排查任务。

cea542b3-5316-4dbc-97d5-99d16bf39b61.png

2、模版管理

模版管理可以查看质量当前所有的模版信息。

模版分为系统内置模版和自定义模版,系统模版开箱即用,可以用来快速创建质量规则。如果组织内有通用的需求(如:用户年龄区间有效性、财务数据准确性等),可以沉淀为通用的模版,用于业务质量规则的快速创建。

2.1、质量模版管理

36ea73a4-6bac-4e5e-96aa-c3f3f2deed94.png

2.2、新建自定义规则模版

914bd084-db06-493a-9146-51418ef70a1c.png

3、质量规则

支持给质量监控对象(如表、数据源)配置质量规则,并设置告警阈值和规则强弱;配置调度后就可以定时或者跟随数据更新来自动触发质量的校验任务,完成后自动生成质量报告,并根据校验情况完成告警、阻断等后续操作。

3.1、质量规则管理

4c4e3f53-b83b-474c-b985-8605d46ae77f.png

3.2、表的质量规则配置

3e62a98d-7e72-4443-ba1d-d3321ffc8d75.png

3.3、新建质量规则

cac44f3d-e4b6-43d7-bbca-176cd35b41e0.png

预览质量规则SQL

9a5a2a69-5d5e-4bc6-9f2c-592290a918f3.png

3.4、调度配置

c3d19faf-8ecd-4233-b987-c04fbf810a1c.png

3.5、告警配置

7ddbfbf4-e3f6-4eff-8c5c-3b6de34c0dfb.png

3.6、质量报告

40e0308e-493d-43b4-a1e5-e25beb361c28.png

3.7、质量规则试跑和运行

cbc11b3a-3d0b-4be9-89dd-95be9b3af37a.png


4、校验记录

校验记录可以查看每次校验规则执行的具体结果和详情,是每天检查数据质量和处理质量问题最常用的入口。Dataphin质量的校验记录,详细的记载了每次质量规则校验的时间、状态和执行详情,便于进行日常检查和错误排查。

4.1、资源粒度的校验记录

3ca4d496-e171-4a52-abf6-1c3d1a8030ca.png

4.2、资源校验详情

736106c0-fc32-40dc-9321-3b752d969104.png

50cde213-267c-4882-93c0-6d3000cdbc44.png


5、数据源管理

数据源除了要进行数据质量检测任务外,还要进行日常的业务支撑。为了防止数据质量任务影响到日常业务,支持对单个数据源支持的最大质量并行度进行控制,当达到质量最大并行度时,新调度的质量规则会进入排队等待状态,以保护业务的正常开展。

deff5d0c-dbfd-41fe-b919-841752e95463.png


最后,我们通过视频来了解下Dataphin数据质量模块的质量监控场景和具体的操作。


309C1EC9-F34D-46d8-9CF0-8C997671F325.png

【点击图片收看视频】


相关文章
|
2月前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
164 2
|
2月前
|
SQL 人工智能 搜索推荐
Dataphin功能Tips系列(71)X-数据管家:数据资产运营的「AI外挂」
在企业数据治理中,数据资产规模庞大、字段繁多,手动录入效率低且易出错。Dataphin推出「X-数据管家」,利用大模型智能生成标签、描述及字段类型等信息,支持一键批量上架,大幅提升资产运营效率。
|
7月前
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
674 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
SQL 分布式计算 Apache
Dataphin x Iceberg 开箱即用的数据湖治理解决方案
Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。
196 0
|
10月前
|
安全 数据挖掘 大数据
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。
522 87
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
|
6月前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
169 8
|
5月前
|
运维 安全 数据管理
Dataphin V5.1 企业级发布:全球数据无缝集成,指标管理全新升级!
企业数据管理难题?Dataphin 5.1版来解决!聚焦跨云数据、研发效率、指标管理和平台运维四大场景,助力数据团队轻松应对挑战。无论是统一指标标准、快速定位问题,还是提升管理安全性,Dataphin都能提供强大支持。3分钟了解新版本亮点,让数据治理更高效!
|
8月前
|
数据采集 SQL 人工智能
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
467 15
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
|
7月前
|
分布式计算 监控 安全
产品评测|从数据标准到实时监控,深度解析Dataphin如何以智能提效与安全合规驱动企业数据价值释放
Dataphin是阿里巴巴基于OneData方法论打造的一站式数据治理与建设平台,帮助企业实现数据全生命周期管理。本文详细记录了使用Dataphin搭建离线数仓的全流程,包括环境准备、数仓规划、数据引入、处理、周期任务补数据、数据验证与分析等环节。体验中发现其离线管道任务、周期调度、补数据功能便捷高效,但也存在系统稳定性不足、文档更新滞后等问题。建议增强对JSON文件支持、优化资源推荐机制并完善脱敏操作功能,进一步提升用户体验。
|
10月前
|
数据采集 SQL 人工智能
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
数据标准是数据治理的核心抓手,通过梳理数据标准可以有效提升数据质量。瓴羊Dataphin平台利用AI技术简化数据治理流程,实现自动化的数据标准建立、质量规则构建和特征识别,助力企业在大模型时代高效治理数据,推动数据真正为业务服务。
830 28
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin