张飞的猪编程工作室

  • 首页
  • Web3.0
  • 大数据
  • 技术书籍
  • 拾记
  • 关于
Hello World
大数据、数据仓库、Web3.0编程技术文章与资料分享,欢迎关注微信公众号:张飞的猪大数据分享
  1. 首页
  2. 大数据
  3. 正文

数据仓库(01)什么是数据仓库,数仓有什么特点

2022年 12月 13日 471点热度 3人点赞 0条评论

  这里会介绍数据仓库的理解,什么是数据仓库技术,数据仓库的作用。

  数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

  我简单的做一个比喻,数据仓库就是可以理解就是一个使用仓库,数据就是这个仓库的货物,而数据仓库的开发人员就是这个仓库的管理员,所以数据仓库就是一个怎么管理好数据,使得数据规范的放在仓库中,便于BI、AI等其他的使用数据的方面可以更好的使用仓库里面的数据,使得数据发挥出更好的价值,显而易见在一堆有规律,整齐的货物里面找一个东西,要比在没有整理的里面找更加有效率。

  数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

  数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

  数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

数据仓库的特点:

  1. 数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
  2. 数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;
    数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
    数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
    数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
  3. 数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
  4. 数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。
  5. 汇总的。操作性数据映射成决策可用的格式。
  6. 大容量。时间序列数据集合通常都非常大。
  7. 非规范化的。Dw数据可以是而且经常是冗余的。
  8. 元数据。将描述数据的数据保存起来。
  9. 数据源。数据来自内部的和外部的非集成操作系统。

  数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。

  在具体的实践操作中,为了更好地为数据应用服务,也就是为了数据分析,数据报表的高效开发。数据仓库往往有如下几点特点:

  1. 效率足够高。
      数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好
    的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。
  2. 数据质量。
      数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
  3. 扩展性。
      之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
    从上面的介绍中可以看出,数据仓库技术可以将企业多年积累的数据唤醒,不仅为企业管理好这些海量数据,而且挖掘数据潜在的价值,从而成为通信企业运营维护系统的亮点之一。
      广义的说,基于数据仓库的决策支持系统由三个部件组成
    :数据仓库技术,联机分析处理技术和数据挖掘技术,其中数据仓库技术是系统的核心,在这个系列后面的文章里,将围绕数据仓库技术,介绍现代数据仓库的主要技术和数据处理的主要步骤,讨论在通信运营维护系统中如何使用这些技术为运营维护带来帮助。
  4. 面向主题
      操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。

需要数据仓库资料可以点击这个领取数据仓库(13)大数据数仓经典最值得阅读书籍推荐

参考资料:
1. 数据仓库(01)什么是数据仓库,数仓有什么特点
2. 数据仓库(02)数仓、大数据与传统数据库的区别
3. 数据仓库(03)数仓建模之星型模型与维度建模
4. 数据仓库(04)基于维度建模的数仓KimBall架构
5. 数据仓库(05)数仓Kimball与Inmon架构的对比
6. 数据仓库(06)数仓分层设计
7. 数据仓库(07)数仓规范设计
8. 数据仓库(08)数仓事实表和维度表技术
9. 数据仓库(09)数仓缓慢变化维度数据的处理
10. 数据仓库(10)数仓拉链表开发实例
11. 数据仓库(11)什么是大数据治理,数据治理的范围是哪些
12. 数据仓库(12)数据治理之数仓数据管理实践心得
13. 数据仓库(13)大数据数仓经典最值得阅读书籍推荐

本作品采用 知识共享署名-非商业性使用 4.0 国际许可协议 进行许可
标签: 大数据 数据仓库
最后更新:2022年 12月 13日

张飞的猪

选择远方,风雨兼程,专注于web3.0及其前沿的技术。

打赏 点赞
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复
标签聚合
网站运营 网站搭建 Web3.0 书籍 spark 数据仓库 Flink 区块链 大数据
最新 热点 随机
最新 热点 随机
数据仓库(13)大数据数仓经典最值得阅读书籍推荐 数据仓库(12)数据治理之数仓数据管理实践心得 数据仓库(11)什么是大数据治理,数据治理的范围是哪些 精益数据分析PDF下载 数据仓库(10)数仓拉链表开发实例 大数据Spark企业级实战版PDF下载
数据仓库(11)什么是大数据治理,数据治理的范围是哪些 利用WordPress搭建属于自己的网站 数据仓库(04)基于维度建模的数仓KimBall架构 数据仓库(13)大数据数仓经典最值得阅读书籍推荐 大数据Spark企业级实战版PDF下载 Flink CDC 新一代数据集成框架-技术原理、入门与生产实践PDF下载

COPYRIGHT © 2022 张飞的猪技术博客分享. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

粤ICP备2022149594号