数据仓库

一种存储系统

计算机领域,数据仓库(英语:data warehouse,也称为企业数据仓库)是用于报告英语Business reporting数据分析的系统,被认为是商业智能的核心组件[1]。 数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起[2],用于为整个企业的员工创建分析报告[3]

数据仓库的总览。

存储在仓库中的数据从运行系统(例如营销或销售)上传。这些数据可能会通过一个ODS数据库,并且可能需要进行额外操作的数据清理[2],以确保数据质量英语data quality,然后才能在数据仓库中用于报告。

典型的基于提取、转换、加载(ETL)的数据仓库[4]使用分级数据集成和访问层来存放其关键功能。分级层或分级数据库存储从每个不同的源数据系统中提取的原始数据。集成层通过转换来自分级层的数据,将不同的数据集合在一起,通常将转换后的数据存储在ODS数据库中。然后将集成的数据转移到另一个数据库(通常称为数据仓库数据库),在这个数据库中,数据被分为层次组(通常称为维度),并被分成事实和聚合事实。事实和维度的组合有时被称为星型模式。访问层帮助用户检索数据。[5]

数据的主要来源被清理、转换、分类,并提供给管理人员和其他商业专业人员用于数据挖掘在线分析处理市场研究决策支持[6]。 然而,检索和分析数据、提取、转换和装载数据以及管理数据字典的方法也被认为是数据仓库系统的基本组成部分。许多数据仓库的文献都使用了这个更广泛的语境。因此,数据仓库的扩展定义包括商业智能工具英语business intelligence tools、提取、转换和加载数据到存储库的工具,以及管理和检索元数据的工具。

较简易的解释方式

数据仓库是一种信息系统的数据存储理论,此理论强调利用某些特殊数据存储方式,让所包含的数据,特别有利于分析处理,以产生有价值的信息并依此作决策。

利用数据仓库方式所存放的数据,具有一但存入,便不随时间而更动的特性,同时存入的数据必定包含时间属性,通常一个数据仓库皆会含有大量的历史性数据,并利用特定分析方式,自其中发掘出特定信息。

较学术的解释方式

数据仓库 ,由数据仓库之父比尔·英蒙英语Bill Inmon于1990年提出,主要功能乃是将组织透过信息系统之在线交易处理(OLTP)经年累月所累积的大量数据,透过数据仓库理论所特有的数据存储架构,作一有系统的分析整理,以利各种分析方法如在线分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管信息系统(EIS)之建立,帮助决策者能快速有效的自大量数据中,分析出有价值的信息,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

一般来说,数据仓库可由关系数据库,或专为数据仓库开发的多维度数据库建立,若由多维度数据库建立而成,其架构可分为星状及雪花状架构,包含数个维度数据表,及一个事实数据表。

数据仓库的建制不仅只是信息工具技术面的运用,在规划和执行面更需对产业知识、营销管理、市场定位、策略规划等相关条件有深入的了解,才能真正发挥数据仓库以及后续分析工具的价值,提升组织竞争力。

数据仓库的特性

  • 主题导向(Subject-Oriented)
有别于一般OLTP系统,数据仓库数据模型设计,着重将数据按其意义归类至相同的主题区(subject area),因此称为主题导向。举例如Party、Arrangement、Event、Product等。
  • 集成性(Integrated)
数据来自企业各OLTP系统,在数据仓库中是集成过且一致的。
  • 时间差异性(Time-Variant)
数据的变动,在数据仓库中是能够被纪录以及追踪变化的,有助于能反映出能随着时间变化的数据轨迹。
  • 不变动性(Nonvolatile)
数据一旦确认写入后是不会被取代或删除的,即使数据是错误的亦同。(i.e.错误的后续修正,便可因上述时间差异性的特性而被追踪)

ODS、数据仓库和数据超市之异同

Operational data storeODS)、数据仓库数据超市三者相同之处在于均不属于任一OLTP系统,并且都是以数据导向的设计而非流程(process)导向。

相异之处在于,ODS的特性较著重于战术性查询,变动性大。数据仓库通常为企业层级,用来解答即兴式、临时性的问题。而数据超市则较偏向解决特定单位或部门的问题,部分采用维度模型(dimensional model)。

数据挖掘、OLAP和数据仓库

数据仓库可以作为数据挖掘OLAP等分析工具的数据来源,由于存放于数据仓库中的数据,必需经过筛选与转换,因此可以避免分析工具使用错误的数据,而得到不正确的分析结果。

数据挖掘OLAP同为分析工具,其差别在于OLAP提供用户一便利的多维度观点和方法,以有效率的对数据进行复杂的查询动作,其默认查询条件由用户预先设置,而数据挖掘,则能由信息系统主动发掘数据来源中,未曾被察觉的隐藏信息,和透过用户的认知以产生知识。

数据挖掘(Data Mining)技术是经由自动或半自动的方法探勘及分析大量的数据,以建立有效的模型及规则,而企业透过数据挖掘更了解他们的客户,进而改进他们的营销、业务及客服的运作。数据挖掘是数据仓库的一种重要运用。基本上,它是用来将你的数据中隐藏的信息挖掘出来,所以Data Mining其实是所谓的Knowledge Discovery的一部分,Data Mining使用了许多统计分析与Modeling的方法,到数据中查找有用的特征(Patterns)以及关连性(Relationships)。Knowledge Discovery的过程对Data Mining的应用成功与否有重要的影响,只有它才能确保Data Mining能获得有意义的结果。

参见

参考文献

  1. ^ Dedić, Nedim; Stanier, Clare. Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José , 编. An Evaluation of the Challenges of Multilingualism in Data Warehouse Development. International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy (PDF). Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016) 1 (SciTePress). 2016: 196–206 [2019-05-19]. ISBN 978-989-758-187-8. doi:10.5220/0005858401960206. (原始内容存档于2021-04-27).  参数|journal=与模板{{cite conference}}不匹配(建议改用{{cite journal}}|book-title=) (帮助)
  2. ^ 2.0 2.1 9 Reasons Data Warehouse Projects Fail. blog.rjmetrics.com. [2017-04-30]. (原始内容存档于2021-04-27). 
  3. ^ Exploring Data Warehouses and Data Quality. spotlessdata.com. [2017-04-30]. (原始内容存档于2018-07-26). 
  4. ^ What is Big Data?. spotlessdata.com. [2017-04-30]. (原始内容存档于2017-02-17). 
  5. ^ Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil. Optimization of Data Warehousing System: Simplification in Reporting and Analysis. IJCA Proceedings on International Conference and workshop on Emerging Trends in Technology (ICWET) (Foundation of Computer Science). 2011, 9 (6): 33–37 [2019-05-19]. (原始内容存档于2021-04-28). 
  6. ^ Marakas & O'Brien 2009