张飞的猪编程工作室

  • 首页
  • Web3.0
  • 大数据
  • 技术书籍
  • 拾记
  • 关于
Hello World
大数据、数据仓库、Web3.0编程技术文章与资料分享,欢迎关注微信公众号:张飞的猪大数据分享
  1. 首页
  2. 大数据
  3. 正文

数据仓库(12)数据治理之数仓数据管理实践心得

2023年 3月 7日 273点热度 1人点赞 0条评论

这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。

当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:数据仓库(11)什么是大数据治理,数据治理的范围是哪些。

简单来说,包括下图列举部分。

数据治理

那接下来就继续说说数据治理的一些思路心得。

接到数据治理的任务?要怎么做?

  • 梳理目前数据集群,以及业务的总体情况

这个,其实没有什么好说,做事情之前,肯定是要先了解,我们要做的东西是怎么样的,评估可能会遇到的问题,这样才能进一步做出来好的数据质量方案。

  • 对数据治理进行分类

了解了我们面对的数据集群之后,就要了解对我们需要治理的方向,进行分类了,这个对我们后续的方案设计和组件的选取、改造会有很大的影响,不一样的分类,我们要解决问题的范围,是不一样的。

那要怎么分类?首先是大的方向。

  1. 主数据管理
  2. 元数据管理
  3. 数据标准
  4. 数据质量管理
  5. 数据安全管理
  6. 数据计算管理
  7. 数据存储管理

大的方向确定了,当其实还是太大了,还是需要进一步的进行切割。

像是数据质量管理,可以进一步切分为

1 唯一性校验:不存在无意义的重复数据
2 完整性校验:数据完整且连续
3 一致性校验:数据在多数据源中意义一致
4 有效性校验:这里主要指数据在分析的时间点是有效,而非过期或失效数据
5 准确性校验:数据合理、准确,并符合数据类型的标准

元数据管理,要划分为技术元数据和业务元数据等,具体的划分粒度,应该需要到具体的,可实现的,不容易混淆,以及偏于以后数据的管理和使用。毕竟这个东西后续要给开发,给数据bi等人使用的。当然,我们可能不能已下载就划分好一个最好的分类,我们应该循环迭代,做出一个更加符合实际出来。

数据管理这个,如果说技术能力,开发人力有限,那其实往往更加简单的方式更好,也便于推广,应该说一个可用的方案好过于一个全面,但用起来不方便的方案。

  • 针对某个类别的数据,进行具体设计,开发,并进一步成规范

上面,我们已经大概梳理好了我们数据治理的范围和分类,进一步的,我们就需要落地了。这个时候,我们就要进一步的针对,我们的划分的问题,提出,我们的方案,并实现他。

如果,上面说的数据质量管理中的准确性校验,这个时候,我们就面临了一个问题,怎么样的数据,符合数据合理、准确,并符合数据类型的标准这样的数据规范?我们会怎么去验证这个东西呢?正常情况下,开发人员是怎么去验证这个东西的?

所以,这个时候,我们就需要抽象出这些具体的操作,拼通过合适的方案实现他。

如果,准确性校验,开发人员一般是通过写sql,通过一定的数据规则判断的,比如数据的波动,数据值的范围等。那么我们做这个的时候,是不是就可以做这样的一个系统,可以配置sql,或者一些比较通过的逻辑,定时比对数据,得到我们的一个结果,实现这样的一个功能?当然这个肯定不是最好的方案,但是一个可用的方案好过于一个全面,但用起来不方便的方案。然后不停的迭代优化,完善。

当然,这个时候也要放过来思考我们上面的划分是不是,合理,比如数据质量管理,是不是可以使用同一个思路去做?争取事半功倍。

  • 执行规范

做好上面的事情,接下来,就是考验执行了的时候了,任何方案在,最终如果不能很好的执行,那就是事倍功半。

啰里啰唆,写了这一点点心得,逻辑可能不是很通畅,希望可以给到各个在数据治理挣扎的同学,一点思路,这个也是我的个人笔记,后续有新的想法,再更新。

需要数据仓库资料可以点击这个领取数据仓库(13)大数据数仓经典最值得阅读书籍推荐

参考资料:
1. 数据仓库(01)什么是数据仓库,数仓有什么特点
2. 数据仓库(02)数仓、大数据与传统数据库的区别
3. 数据仓库(03)数仓建模之星型模型与维度建模
4. 数据仓库(04)基于维度建模的数仓KimBall架构
5. 数据仓库(05)数仓Kimball与Inmon架构的对比
6. 数据仓库(06)数仓分层设计
7. 数据仓库(07)数仓规范设计
8. 数据仓库(08)数仓事实表和维度表技术
9. 数据仓库(09)数仓缓慢变化维度数据的处理
10. 数据仓库(10)数仓拉链表开发实例
11. 数据仓库(11)什么是大数据治理,数据治理的范围是哪些
12. 数据仓库(12)数据治理之数仓数据管理实践心得
13. 数据仓库(13)大数据数仓经典最值得阅读书籍推荐****

本作品采用 知识共享署名-非商业性使用 4.0 国际许可协议 进行许可
标签: 大数据 数据仓库
最后更新:2023年 3月 7日

张飞的猪

选择远方,风雨兼程,专注于web3.0及其前沿的技术。

打赏 点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复
标签聚合
数据仓库 Web3.0 大数据 网站运营 书籍 Flink spark 区块链 网站搭建
最新 热点 随机
最新 热点 随机
数据仓库(13)大数据数仓经典最值得阅读书籍推荐 数据仓库(12)数据治理之数仓数据管理实践心得 数据仓库(11)什么是大数据治理,数据治理的范围是哪些 精益数据分析PDF下载 数据仓库(10)数仓拉链表开发实例 大数据Spark企业级实战版PDF下载
数据仓库(10)数仓拉链表开发实例 数据仓库(08)数仓事实表和维度表技术 数据仓库(04)基于维度建模的数仓KimBall架构 数据仓库(05)数仓Kimball与Inmon架构的对比 大数据Spark企业级实战版PDF下载 数据仓库(06)数仓分层设计

COPYRIGHT © 2022 张飞的猪技术博客分享. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

粤ICP备2022149594号