数据仓库原理ppt课件.ppt
《数据仓库原理ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据仓库原理ppt课件.ppt(94页珍藏版)》请在三一文库上搜索。
1、第第2章章 数据仓库原理数据仓库原理o本章学习目标:本章学习目标:o掌握数据仓库的定义,四个基本特征掌握数据仓库的定义,四个基本特征o掌握数据集市的概念,与数据仓库区分掌握数据集市的概念,与数据仓库区分o掌握数据仓库的体系结构掌握数据仓库的体系结构o掌握数据仓库中数据组织方式掌握数据仓库中数据组织方式o掌握数据处理过程掌握数据处理过程o掌握元数据的概念、元数据管理的原理掌握元数据的概念、元数据管理的原理第第2章章 数据仓库原理数据仓库原理o2.1 数据仓库定义数据仓库定义o2.2 数据集市数据集市o2.3 数据仓库体系结构数据仓库体系结构o2.4 数据组织结构和形式数据组织结构和形式o2.5
2、数据抽取数据抽取E、转换、转换T和装载和装载LETL)o2.6 元数据管理元数据管理2.1 数据仓库定义oWilliam H.Inmon:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理人员的决策。数据仓库之父数据仓库之父-Bill Inmon William H.Inmon:William H.Inmon是是世世界界公公认认的的“数数据据仓仓库库之之父父”,是是数数据据仓仓库库及及其其相相关关技技术术网网站站billinmon的的合合作作伙伙伴伴,是是“企企业业信信息息工工厂厂的的创创造造者者之之一一。他他一一直直致致力力于于数数据据库库和和数数据据仓仓库库技技
3、术术方方面面的的研研究究,在在数数据据管管理理和和数数据据仓仓库库技技术术方方面面以以及及数数据据处处理理的的管管理理方方面面撰撰写写了了40多多本本著著作作,发发表表过过600多多篇篇学学术术论论文文,并并且且经经常常应应邀在技术和学术会议上演讲。邀在技术和学术会议上演讲。四个基本特征四个基本特征o数据仓库的数据是面向主题的数据仓库的数据是面向主题的o数据仓库的数据是集成的数据仓库的数据是集成的o数据仓库的数据是非易失的数据仓库的数据是非易失的o数据仓库的数据是随时间不断变化的数据仓库的数据是随时间不断变化的面向主题面向主题o主题主题Subject):特定的数据分析领域与):特定的数据分析领
4、域与目标。目标。o面向主题:为特定的数据分析领域提供数据面向主题:为特定的数据分析领域提供数据支持。支持。面向主题面向主题o为特定数据分析领域提供的数据与传统数据库中的为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。作必要的抽取、加工与总结而形成。o数据仓库是面向分析、决策人员的主观要求的,不数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随同的用户有不同
5、的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。因用户主观要求的变化而变化的。面向主题示例面向主题示例o例:一个面向事务处理的例:一个面向事务处理的“商场数据库系统,其数商场数据库系统,其数据模式如下据模式如下o采购子系统:采购子系统:o订单订单号,供应商号,总金额,日期)订单订单号,供应商号,总金额,日期)o订单细则订单号,商品号,类别,单价,数量)订单细则订单号,商品号,类别,单价,数量)o供应商供应商号,供应商名,地址,)供应商供应商号,供应商名,地址,)o销售子系统:销售子系统:o顾客顾
6、客号,姓名,性别,年龄,文化程度,地址,顾客顾客号,姓名,性别,年龄,文化程度,地址,)o销售员工号,顾客号,商品号,数量,单价,日期)销售员工号,顾客号,商品号,数量,单价,日期)面向主题示例库存管理子系统:库存管理子系统:领料单领料单号,领料人,商品号,数量,日期)领料单领料单号,领料人,商品号,数量,日期)进料单进料单号,订单号,进料人,收料人,日期)进料单进料单号,订单号,进料人,收料人,日期)库存商品号,库房号,库存量,日期)库存商品号,库房号,库存量,日期)库房库房号,仓库管理员,地点,库存商品描述)库房库房号,仓库管理员,地点,库存商品描述)人事管理子系统:人事管理子系统:员工员
7、工号,姓名,性别,年龄,文化程度,部门号)员工员工号,姓名,性别,年龄,文化程度,部门号)部门部门号,部门名称,部门主管,)部门部门号,部门名称,部门主管,)面向主题示例面向主题示例o上述数据模式基本上是按照企业内部的业务活动及上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。真正的数据与应用分离,其抽象程度也不够高。o如果按照面向主题的方式进行数据组织,首先应该如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,抽取主题,即按照管理
8、人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。的数据不尽相同。主题一:商品主题一:商品p商品固有信息:商品号,商品名,类别,颜色等商品固有信息:商品号,商品名,类别,颜色等p商品采购信息:商品号,供应商号,供应价,供应日期,商品采购信息:商品号,供应商号,供应价,供应日期,供应量等供应量等p商品销售信息:商品号,顾客号,售价,销售日期,销商品销售信息:商品号,顾客号,售价,销售日期,销售量等售量等p商品库存信息:商品号,库房号,库存量,日期等商品库存信息:商品号,库房号,库存量,日期等主题二:供应商主题二:供应
9、商p供应商固有信息:供应商号,供应商名,地址,电话等供应商固有信息:供应商号,供应商名,地址,电话等p供应商品信息:供应商号,商品号,供应价,供应日期,供应商品信息:供应商号,商品号,供应价,供应日期,供应量等供应量等主题三:顾客主题三:顾客p顾客固有信息:顾客号,顾客名,性别,年龄,文化程顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等度,住址,电话等p顾客购物信息:顾客号,商品号,售价,购买日期,购顾客购物信息:顾客号,商品号,售价,购买日期,购买量等买量等面向主题面向主题o在每个主题中,都包含了有关该主题的所有信息,同时又抛弃在每个主题中,都包含了有关该主题的所有信息,同
10、时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合成一个这样一致的信息集合o不同的主题之间也有重叠的内容,但这种重叠是逻辑上的,而不同的主题之间也有重叠的内容,但这种重叠是逻辑上的,而不是物理存储上的重叠;是部分细节的重叠,而不是完全的重不是物理存储上的重叠;是部分细节的重叠,而不是完全的重叠
11、叠。面向主题o每个主题所需数据的物理存储:每个主题所需数据的物理存储:o多维数据库多维数据库MDDBMulti-Dimensional DataBase用多维数组形式存储数据。用多维数组形式存储数据。o关系数据库。用一组关系来组织数据的存储,同一关系数据库。用一组关系来组织数据的存储,同一主题的一组关系都有一个公共的关键字,存放的也主题的一组关系都有一个公共的关键字,存放的也不是细节性的业务数据,而是经过一定程度的综合不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。形成的综合性数据。集成的集成的o数据是分散的;由于事务处理应用分散、蜘蛛数据是分散的;由于事务处理应用分散、蜘蛛网
12、问题、数据不一致问题、外部数据和非结构网问题、数据不一致问题、外部数据和非结构化数据。化数据。o数据仓库中的数据是为分析服务的,而分析需数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系取,这些数据源包括多种类型数据库、文件系统以及统以及Internet网上数据等,它们通过数据网上数据等,它们通过数据集成而形成数据仓库中的数据。集成而形成数据仓库中的数据。集成的集成的o集成的方法:集成的方法:o一致:消
13、除不一致的现象一致:消除不一致的现象o综合:对原有数据进行综合和计算综合:对原有数据进行综合和计算o需要考虑的问题:需要考虑的问题:o数据格式数据格式o计量单位计量单位o数据代码含义混乱数据代码含义混乱o数据名称混乱数据名称混乱非易失的非易失的o数据仓库中的数据是经过抽取而形成的分析型数据,不具有原数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是始性,主要供企业决策分析之用,执行的主要是查询查询操作,操作,一般情况下不执行一般情况下不执行更新更新操作。同时,一个稳定的数据环境操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。也有利于
14、数据分析操作和决策的制订。o但这也不等于数据仓库中的数据不需要但这也不等于数据仓库中的数据不需要更新更新操作。操作。o在需要进行新的分析决策时,可能需要进行新的数据抽取和在需要进行新的分析决策时,可能需要进行新的数据抽取和更新更新操作操作o数据仓库中的一些过时的数据,也可以通过数据仓库中的一些过时的数据,也可以通过删除删除操作丢弃操作丢弃掉。掉。o因此数据仓库的存储管理相对于因此数据仓库的存储管理相对于DBMSDBMS来说要简单得多。来说要简单得多。随时间不断变化随时间不断变化o数据仓库中的数据必须以一定时间段为单位进行统一更数据仓库中的数据必须以一定时间段为单位进行统一更新。新。o不断增加新
15、的数据内容不断增加新的数据内容o不断删去旧的数据内容不断删去旧的数据内容o更新与时间有关的综合数据更新与时间有关的综合数据2.2 数据集市数据集市Data Mart)o建立数据集市的原因建立数据集市的原因o数据仓库是一种反映主题的全局性数据组织。但是数据仓库是一种反映主题的全局性数据组织。但是,全局性数据全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织映各个子主题的局部性数据组织,它们即是数据集市。因此,有它们即是数据集市。因此,有时我们也称它为部门数据仓库。时我们也称它为部门数据仓库。o例:在有
16、关商品销售的数据仓库中可以建立多个不同主题的数例:在有关商品销售的数据仓库中可以建立多个不同主题的数据集市:据集市:o商品采购数据集市商品采购数据集市o库房使用数据集市库房使用数据集市o商品销售数据集市商品销售数据集市20数据集市Data Marts是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。Data Marts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。数据集市概念数据集市概念数据集市类型o按照数据获取来源:o独立型:直接从操作型环境获取数据。o从属型:从企业级数据仓库获取数据。独立数据集市独
17、立数据集市(Independent Data Mart)(Independent Data Mart)从属数据集市从属数据集市(Dependent Data Mart)(Dependent Data Mart)建设途径o从从 全局数据仓库全局数据仓库 到到 数据集市数据集市o从从 数据集市数据集市 到到 全局数据仓库全局数据仓库数据仓库 VS 数据集市o数据仓库与数据集市的关系类似于传统关系数据库系统中的基表与视图的关系。o数据集市的数据来自数据仓库,它是数据仓库中数据的一个部分与局部,是一个数据的再抽取与组织的过程。2.3 数据仓库体系结构o数据仓库系统由数据仓库数据仓库系统由数据仓库DWD
18、W)、仓库管理)、仓库管理和分析工具三部分组成和分析工具三部分组成ORACLESYBASESQL Server文 件数据集市数据集市数据集市数 据 建 模数据仓库元数据管理抽 取数据仓库系统示意图数据仓库系统示意图分析工具OLAP、数据挖掘)过程模型数据仓库管理系统数据仓库管理系统元数据元数据多维关系多维关系数据库数据库多维多维数据库数据库外部操作型外部操作型数据数据数据抽取数据抽取数据清洁数据清洁数据装载数据装载管理平台管理平台报表查询工具报表查询工具数据挖掘工具数据挖掘工具OLAP工具工具仓库管理数据建模仓库管理数据建模o数据建模是建立数据仓库的数据模型。数据建模是建立数据仓库的数据模型。
19、o数据仓库的数据模型不同于数据库的数据模数据仓库的数据模型不同于数据库的数据模型在于:型在于:o数据仓库只为决策分析用,不包含事务处理数据仓库只为决策分析用,不包含事务处理的数据。的数据。o数据仓库的增加了时间属性数据。数据仓库的增加了时间属性数据。o数据仓库增加了一些综合数据。数据仓库增加了一些综合数据。o数据仓库的数据建模是适应决策用户使用的数据仓库的数据建模是适应决策用户使用的逻辑数据模型。逻辑数据模型。仓库管理元数据管理仓库管理元数据管理o最基本的元数据相当于数据库系统中的数据字典。最基本的元数据相当于数据库系统中的数据字典。o元数据定义了数据仓库有什么,指明了数据仓库中元数据定义了数
20、据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。整个数据仓库的运行都是基于元数据的。o数据源的元数据数据源的元数据o数据模型的元数据数据模型的元数据o数据仓库映射的元数据数据仓库映射的元数据o数据仓库使用的元数据数据仓库使用的元数据仓库管理数据处理仓库管理数据处理o异构数据源:异构数据源:o企业内部数据企业内部数据o存档的历史数据存档的历史数据o企业的外部数据。企业的外部数据。o软硬件平台不一致软硬
21、件平台不一致oETL过程过程o抽取抽取Extraction)o转换转换Transform)o装载装载Load)分析工具查询工具o数据仓库的查询不是指对记录级数据的查询,数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。一般包含:而是指对分析要求的查询。一般包含:o 可视化工具:以图形化方式展示数据,可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。可以帮助了解数据的结构,关系以及动态性。分析工具多维分析工具o 通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。o多维数据的每一维代表对数据的一个特定的观察视角
22、如时间、地域、业务等。分析工具数据挖掘工具o从大量数据中挖掘具有规律性知识,需要利从大量数据中挖掘具有规律性知识,需要利用数据挖掘用数据挖掘Data MiningData Mining工具。工具。32数据仓库的运行结构数据仓库的运行结构 数数据据仓仓库库应应用用是是一一个个典典型型的的客客户户/服服务务器器C/SC/S结结构构形形式:式:客客户户端端所所做做的的工工作作:客客户户交交互互、格格式式化化查查询询、结结果果显显示示、报表生成等。报表生成等。服服务务器器端端完完成成各各种种辅辅助助决决策策的的SQLSQL查查询询、复复杂杂的的计计算算和和各各类综合功能等。类综合功能等。数据仓库的运
23、行结构数据仓库的运行结构o两层数据仓库结构两层数据仓库结构数据仓库数据数据仓库数据元数据元数据数据仓库服务器数据仓库服务器数据逻辑数据逻辑数据服务数据服务元数据元数据文件服务文件服务客户端客户端图形用户接口图形用户接口/表示逻辑表示逻辑查询规范查询规范数据分析数据分析报表格式报表格式总结总结数据访问数据访问34解解 释释 客户客户/服务器服务器C/S是网络上一种重要的是网络上一种重要的组织形式。组织形式。数据仓库在网络上都是以服务器数据仓库在网络上都是以服务器Server形式提供服务,能对网络上多个客户形式提供服务,能对网络上多个客户Client同时提供服务。同时提供服务。数据仓库的运行结构数
24、据仓库的运行结构o多层数据仓库结构多层数据仓库结构多维数据服务器多维数据服务器数据仓库数据数据仓库数据元数据元数据数据逻辑数据逻辑数据服务数据服务元数据元数据文件服务文件服务数据仓库服务器数据仓库服务器应用服务器应用服务器图形用户接口图形用户接口查询规范查询规范数据分析数据分析报表格式报表格式数据访问数据访问客户端客户端过滤过滤总结总结元数据元数据多维视图多维视图数据访问数据访问36 OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。这种结构形式工作效率更高。OLAP的三层的三层C/S结构结构2.4 数据组织结构和形式数据组织
25、结构和形式o典型的数据仓库的数据组织结构o高度综合级o轻度综合级o当前细节级o早期细节级o数据仓库的结构数据仓库的结构OLTP系统系统RDBMSSybaseVSAMSAP/ERP5-10 年年过去过去详细数据详细数据当前当前详细数据详细数据轻度轻度汇总数据汇总数据高度高度汇总数据汇总数据数据集市数据集市分析型分析型CRM业务指标分析业务指标分析数据仓库数据仓库数据仓库数据仓库数据仓库数据仓库/决策分析系统决策分析系统EXCELo数据仓库建立的过程数据仓库建立的过程o粒度粒度o是指数据仓库的数据单位中保存数据的细化或综是指数据仓库的数据单位中保存数据的细化或综合程度的级别合程度的级别o粒度级越小
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 原理 ppt 课件
