数据仓库DataWarehouse.ppt
《数据仓库DataWarehouse.ppt》由会员分享,可在线阅读,更多相关《数据仓库DataWarehouse.ppt(78页珍藏版)》请在三一文库上搜索。
1、数据仓库(Data Warehouse),北京科技大学 武 森,内容安排,1 数据仓库概述 2 多维数据模型 3 数据仓库的体系结构 4 数据仓库的数据组织 5 数据仓库的数据预处理 6 数据仓库应用举例,内容安排,1 数据仓库概述 2 多维数据模型 3 数据仓库的体系结构 4 数据仓库的数据组织 5 数据仓库的数据预处理 6 数据仓库应用举例,1 数据仓库概述,1.1 数据仓库的产生与发展 1.2 数据仓库的含义与特征 1.3 操作型数据库系统与数据仓库 1.4 数据仓库的基本结构 1.5 数据仓库的相关概念,1.1 数据仓库的产生与发展,最早发轫于80年代初W.H.Inmon的研究,存在于
2、其“记录系统”、“本原数据” 、“决策支持数据库”等研究专题中1。 数据仓库的具体概念是W.H.Inmon在1992年出版的建立数据仓库一书中提出的,目前它被认为是解决信息技术在发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案。,1.2 数据仓库的含义与特征,数据仓库的含义(W.H.Inmon) “数据仓库是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营管理中的决策制定过程(A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collec
3、tion of data in support of managements decision making process)”。,1.2 数据仓库的含义与特征,对数据仓库含义的理解 通俗地讲,数据仓库就是企业内部一种专门的数据存储,专门用于支持分析型数据查询。 (1)专门的数据存储 以多维数据模型进行存储,该模型能够反映实际的商业分析需求,并支持预先未知的具体数据查询操作。 (2)分析型数据查询工具 数据仓库是Lotus1-2-3和Microsoft Excel等工具的延伸与发展,目的在于使得分析能够更准确、更快速、更灵活、更有效,支持的数据量更大。,1.2 数据仓库的含义与特征,数据仓库的
4、特征 (1)数据仓库是面向主题的:传统数据库应用按照业务处理流程来组织数据,目的在于提高处理的速度。主题是一个在较高层次将数据进行归类的标准,满足该领域分析决策的需要。 (2)数据仓库是集成性的:数据仓库中的数据来自于多个应用系统,不仅要统一原始数据中的所有矛盾,如同名异义,异名同义等,而且要将这些数据统一到数据仓库的数据模式上来。 (3)数据仓库是随时间而变化的:数据仓库随着时间变化要不断增加新的内容。由于数据仓库常常用作趋势预测分析,所以需要保留足够长时间的历史数据,一般为510年。 (4)数据仓库是稳定的:数据仓库的这种稳定性指的是数据仓库中的数据主要供企业决策分析之用,决策人员所涉及的
5、数据操作主要是数据查询,一般情况下并不进行数据修改。,1.2 数据仓库的含义与特征,数据仓库还具有以下特点: (1)数据仓库中的数据量非常大。通常的数据仓库的数据量为10GB级,相当于一般数据库100MB的100倍,大型数据仓库的数据量可以达到一个TB(1000GB)。数据中索引和综合数据占2/3,原始数据占1/33。 (2)数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库一般还是应用数据库管理系统来管理其中的数据。 (3)数据仓库的使用人员较少。,1.3 操作型数据库系统与数据仓库,1.4 数据仓库的基本结构,可视化,应用工具,数据存储,数据源,1.5 数据仓库的相关概念,粒度
6、粒度(Granularity)是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小级别就越低;数据综合度越高,粒度越大级别就越高。 在传统的操作型数据库系统中,对数据处理和操作都是在最低级的粒度上进行的。但是在数据仓库环境中应用的主要是分析型处理,一般需要将数据划分为:详细数据,轻度总结、高度总结三级或更多级粒度。,1.5 数据仓库的相关概念,维度 维(Dimension)是指人们观察事物的特定的角度,概念上类似于关系表的属性。 例如:企业常常关心产品销售数据随着时间推移而变化的情况,这是他从时间的角度来观察产品的销售,即时间维;企业也常常关心本企业的产品在不同地区的销售分布情况,这时
7、他是从地理分布的角度来观察产品的销售,即地区维。,1.5 数据仓库的相关概念,数据立方体 数据立方体是指由两个或更多个属性、即两个或更多个维来描述或分类的数据。在三维的情况下以图形来表示,该类数据具有立方体结构,一般称为数据立方体。 虽然我们通常从几何意义的角度将立方体理解为三维的,但是在数据仓库中数据立方体是一个n-维的概念。,1.5 数据仓库的相关概念,UX-11,TR-78,EC-1,XVG,Jun.,May.,Apr.,Mar.,VCR,全部地区,南部,北部,1季度,2季度,上半年,产品,时,间,地 区,TR-75,CAMC,VIDEO,图1-2 销售数据多维数据立方体示意图,531,
8、539,652,683,867,Feb.,531,605,Jan.,1.5 数据仓库的相关概念,联机分析处理(OLAP) 联机分析处理(OLAPOn_Line Analytical Processing)是快速、灵活的多维数据分析工具。OLAP的概念最早是由关系数据库之父E.F.Codd于1993年提出的。 OLAP的目的是支持分析决策,满足多维环境的查询和报表需求,其技术核心在于“维”的概念,OLAP是多维数据分析的工具。,1.5 数据仓库的相关概念,1.5 数据仓库的相关概念,数据集市 数据集市(Data Mart)是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而
9、成的。数据集市一般由某一个业务部门投资建设,满足其分析决策的需要,可以将其理解为“部门级数据仓库”。,内容安排,1 数据仓库概述 2 多维数据模型 3 数据仓库的体系结构 4 数据仓库的数据组织 5 数据仓库的数据预处理 6 数据仓库应用举例,2 多维数据模型,2.1 E-R模型与多维模型 2.2 星型模式 2.3 星型模式的种类 2.4 数据仓库的总线型结构,2.1 E-R模型与多维模型,实体-关系模型(Entity-Relationship Model)是操作型数据库系统普遍采用的数据建模方式,该技术的主要特点是可以减少数据的冗余,而且可以保证数据的唯一性。,2.1 E-R模型与多维模型,
10、虽然实体-关系模型能成功地应用于操作型数据库系统,但是分析人员、决策人员不可能理解、更不可能记住这些实体-关系,因此让他们在实体-关系模型中进行主动的数据检索是不可能的。 支持分析型应用的解决方案是多维数据模型。,2.1 E-R模型与多维模型,多维数据模型很难说是由哪一个人创建的,它是在人们追求可理解和高性能的数据库设计过程中自然形成的。 多维数据模型普遍采用的一种非常重要的模式是星形模式(Star Schema)。,2.2 星型模式,2.2 星型模式,事实表(Fact Table,也称主表)包含的是业务数据信息,数据取值通常是可度量的、连续型的,且具有可加性,数据量可达到几百万甚至上亿条记录
11、。 维表( Dimension Table,也称辅表)包含的是相应维度的描述型信息,这些信息用作查询的约束条件,一般是离散的、描述性的,不具有可加性。,2.2 星型模式,主码与外码,2.2 星型模式,代理码,地区维表,销售事实表,2.3 星型模式的种类,简单星型模式(Simple Star Schema) 星系模式(Star Galaxy Schema) 星座模式(Star Constellation Schema) 雪花模式(Snowflake Schema),2.3 星型模式的种类,简单星型模式(Simple Star Schema),2.3 星型模式的种类,星系模式(Star Galax
12、y Schema),2.3 星型模式的种类,星座模式(Star Constellation Schema),2.3 星型模式的种类,雪花模式(Snowflake Schema),2.4 数据仓库的总线型结构,数据仓库的总线型结构(Data Warehouse Bus Architecture) 一个数据仓库内所有的数据集市必须具有统一一致的维定义和统一一致的业务事实。统一的维和统一的事实就是数据仓库的“总线”,2.4 数据仓库的总线型结构,销售量事实,销售额事实,应收帐款事实,分销渠道维,时间维,客户维,产品维,统一的事实,统一的维,财务数据集市,销售数据集市,内容安排,1 数据仓库概述 2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 DataWarehouse
链接地址:https://www.31doc.com/p-2904111.html