张飞的猪编程工作室

  • 首页
  • Web3.0
  • 大数据
  • 技术书籍
  • 拾记
  • 关于
Hello World
大数据、数据仓库、Web3.0编程技术文章与资料分享,欢迎关注微信公众号:张飞的猪大数据分享
  1. 首页
  2. 大数据
  3. 正文

数据仓库(05)数仓Kimball与Inmon架构的对比

2023年 1月 3日 238点热度 2人点赞 0条评论

数据仓库主要有四种架构,Kimball的DW/BI架构、独立数据集市架构、辐射状企业信息工厂Inmon架构、混合Inmon与Kimball架构。不过不管是那种架构,基本上都会使用到维度建模。

Kimball的DW/BI架构,可以参考这篇文章 数据仓库(4)基于维度建模的KimBall架构。

独立数据集市架构,采用这种架构的数据仓库,数据以部门为基础来部署,不考虑企业级别的信息共享和集成。也就是各个部门各自按照需要,各自在数据源同步数据,按照各自的标准,对数据进行处理。这种实际上就是没有架构,会造成分析数据的冗余存储,计算资源的浪费,会导致每一个统计部门统计口径的不统一,也就会导致因为数据口径不一致导致长时间的对数据。

辐射状企业信息工厂Inmon架构,数据从操作型数据源中获取,在ETL中进行处理,获得的原子数据保存在满足第三范式的数据库中,这种规范化,原子数据的仓库就是企业信息工厂Inmon架构。Inmon架构与Kimball架构的差别之一就是,Inmon的数据仓库是规范化的,而Kimball架构是基于维度建模的星型模型。

辐射状企业信息工厂Inmon架构

混合Inmon与Kimball架构,这种就是将Kimball与Inmon两种架构进行嫁接,抽取过来的数据,存放在规范化的数据仓库中,然后在这个的基础之上抽取基于维度建模的数据展现,开发给数据分析人员等。

混合Inmon与Kimball架构

在经典的理论认为,混合Inmon与Kimball架构是最好的方式。这种方法可以将数据规范化,然后通过维度建模,以一种比较简单的方式开发给分析人员。但是这种方式适合比较传统的行业,或者政府单位,这种业务发展缓慢的模式,如果是互联网企业,特别是创业型团队,业务还在快速的迭代中,使用维度建模需要花费很长的前期准备工作,而且扩展性不好,使用Kimball维度建模是比较合适的。

Kimball 模式从流程上看是是自底向上的,即从数据集市到数据仓库再到数据源(先有数据集市再有数据仓库)的一种敏捷开发方法。对于Kimball模式,数据源每每是给定的若干个数据库表,数据较为稳定可是数据之间的关联关系比较复杂,须要从这些OLTP中产生的事务型数据结构抽取出分析型数据结构,再放入数据集市中方便下一步的BI与决策支持。所以KimBall是根据需求来确定需要开发ETL哪些数据。

Inmon 模式从流程上看是自顶向下的,即从数据源到数据仓库再到数据集市的(先有数据仓库再有数据市场)一种瀑布流开发方法。对于Inmon模式,数据源每每是异构的,好比从自行定义的爬虫数据就是较为典型的一种,数据源是根据最终目标自行定制的。这里主要的数据处理工做集中在对异构数据的清洗,包括数据类型检验,数据值范围检验以及其余一些复杂规则。在这种场景下,数据没法从stage层直接输出到dm层,必须先经过ETL将数据的格式清洗后放入dw层,再从dw层选择须要的数据组合输出到dm层。在Inmon模式中,并不强调事实表和维度表的概念,由于数据源变化的可能性较大,须要更增强调数据的清洗工做,从中抽取实体-关系。immon是将整个数据仓库规划好,统一按照范式建模进行开发。

下面是两种架构的优劣比较。

Inmon与Kimball优劣比较

需要数据仓库资料可以点击这个领取数据仓库(13)大数据数仓经典最值得阅读书籍推荐

参考资料:
1. 数据仓库(01)什么是数据仓库,数仓有什么特点
2. 数据仓库(02)数仓、大数据与传统数据库的区别
3. 数据仓库(03)数仓建模之星型模型与维度建模
4. 数据仓库(04)基于维度建模的数仓KimBall架构
5. 数据仓库(05)数仓Kimball与Inmon架构的对比
6. 数据仓库(06)数仓分层设计
7. 数据仓库(07)数仓规范设计
8. 数据仓库(08)数仓事实表和维度表技术
9. 数据仓库(09)数仓缓慢变化维度数据的处理
10. 数据仓库(10)数仓拉链表开发实例
11. 数据仓库(11)什么是大数据治理,数据治理的范围是哪些
12. 数据仓库(12)数据治理之数仓数据管理实践心得
13. 数据仓库(13)大数据数仓经典最值得阅读书籍推荐

本作品采用 知识共享署名-非商业性使用 4.0 国际许可协议 进行许可
标签: 大数据 数据仓库
最后更新:2023年 1月 3日

张飞的猪

选择远方,风雨兼程,专注于web3.0及其前沿的技术。

打赏 点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复
标签聚合
大数据 spark 网站搭建 Flink 书籍 Web3.0 网站运营 数据仓库 区块链
最新 热点 随机
最新 热点 随机
数据仓库(13)大数据数仓经典最值得阅读书籍推荐 数据仓库(12)数据治理之数仓数据管理实践心得 数据仓库(11)什么是大数据治理,数据治理的范围是哪些 精益数据分析PDF下载 数据仓库(10)数仓拉链表开发实例 大数据Spark企业级实战版PDF下载
数据仓库(02)数仓、大数据与传统数据库的区别 数据仓库(09)数仓缓慢变化维度数据的处理 数据仓库(12)数据治理之数仓数据管理实践心得 数据仓库(06)数仓分层设计 数据仓库(08)数仓事实表和维度表技术 WEB3.0的现状以及未来的发展,其会颠覆我们的知识结构?

COPYRIGHT © 2022 张飞的猪技术博客分享. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

粤ICP备2022149594号