[CHINA-PPT.CN]-数据仓库开发都应用过程.ppt
1,第五讲 数据仓库开发应用过程,5.1数据仓库开发应用过程 5.2数据仓库的规划 5.3数据仓库的概念模型设计 5.4数据仓库的逻辑模型设计 5.5数据仓库的物理模型设计 5.6数据仓库的实施 5.7数据仓库的应用、支持和增强 练 习,2,数据仓库 开发过程,规划 分析阶段,5.1 数据仓库的螺旋式开发方法,设计 实施阶段,使用 维护阶段,3,5.2 数据仓库的规划,5.2.1 选择数据仓库实现策略,开发策略主要有: 自顶向下:实际应用比较困难 。 自底向上:用于一个数据集市或一个部门的数据仓库开发 ,容易获得成功 。 两种策略的联合使用 :能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作 。,5.2.2 确定数据仓库的开发目标和实现范围,首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。 另一个重要目标是确定利用哪些方法和工具访问和导航数据? 其它目标是确定数据仓库内部数据的规模。 从用户的角度分析 从技术的角度分析,4,5.2.3 数据仓库的结构,1.数据仓库的应用结构 基于业务处理系统的数据仓库 单纯数据仓库 单纯数据集市 数据仓库和数据集市 2.数据仓库的技术平台结构 单层结构 客户/服务器两层结构 (C/S) 三层客户/服务器 (B/W/S) 多层式结构,5,5.2.4 数据仓库使用方案和项目规划预算,1.实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来 2.开发方案的预算进行估计 3.编制数据仓库开发说明书 : 说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。 业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。 计划中需要阐明期望取得的有形和无形利益 业务价值计划最好由目标业务主管来完成 规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。,6,5.3 数据仓库的概念模型设计,概念模型的设计可以分为以下几个阶段:用户需求调查、模型定义、模型分析和模型设计。 5.3.1 概念模型的需求调查 数据仓库开发的任务书 首先要明确用户的信息需求 了解管理人员在信息需求方面的内容 了解关于信息的来源 组织所使用的系统环境,7,5.3.2 概念模型的定义,1.数据仓库用户的决策分析 2.支持决策的数据需求分析 3.数据需求分析工具,8,4.CRUD矩阵,C:Create产生、R:Read引用、U:Update更新 D:Delete删除。,9,5.企业业务处理系统数据存储表,10,5.3.3 概念模型的分析,11,5.3.4 概念模型的设计,12,详细类别表,13,5.3.5 概念模型文档与评审,1.概念模型设计文档 数据仓库开发需求分析报告 概念模型分析报告 概念模型 概念模型的评审报告。 2.概念模型的评审 3.概念模型的评审人员 4.概念模型的评审内容 数据仓库开发任务书;用户决策分析信息需求调查表;数据仓库主题;E-R图、星型模型和雪花模型。,14,5.4 数据仓库的逻辑模型设计,1.数据仓库的逻辑模型设计任务: 分析主题域,确定要装载到数据仓库的主题; 确定粒度层次划分; 确定数据分割策略; 关系模式的定义和记录系统定义、确定数据抽取模型等。 2.逻辑模型最终设计成果: 每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中 粒度划分 数据分割策略 表划分和数据来源等。,15,5.4.1 分析主题域,16,5.4.2 粒度层次和聚集的确定,5.4.3 确定数据分割策略,数据分割标准 1.数据量 2.数据分析处理的对象 3.粒度分割的策略,5.4.4 关系模型定义,17,5.4.5 数据仓库的实体定义,实体的逻辑分析 实体所有列的具体特征,18,5.4.5 数据仓库的实体定义,19,5.4.6 数据仓库的数据抽取模型,F1 数据抽取规则,P2 清理数据记录,20,5.4.6 数据仓库的数据抽取模型,2.数据仓库的数据抽取、转换与加载计划 (1)影响数据抽取、转换与加载的因素 数据格式 坏数据 系统的兼容性 数据源的变化 数据抽取的时间 (2)数据抽取、转换与加载对策 全库比较 利用程序日志 利用数据库日志 利用时间戳或利用位图索引,21,5.4.6 数据仓库的数据抽取模型,3.数据仓库的数据清理转换方法 (1)类型转换 (2)串操作 (3)数学函数 (4)参照完整性 (5)关键字翻译 (6)聚集运算 4.数据仓库的数据抽取、清理与转换模型,22,5.4.6 数据仓库的数据抽取模型,数据源抽取对象表,23,5.4.6 数据仓库的数据抽取模型,数据源抽取规则表,24,5.4.6 数据仓库的数据抽取模型,数据抽取的目标列与源列对应关系表,25,5.4.6 数据仓库的数据抽取模型,数据抽取过程的排序、概括和导出情况表,26,5.4.6 数据仓库的数据抽取模型,数据概括表与事实表对应关系,27,5.4.7 数据仓库的元数据模型建立与应用,28,5.4.8 逻辑模型的评审,逻辑模型的文档内容:主题域分析报告,数据粒度划分模型,数据分割策略,指标实体、维实体与详细类别实体的关系模式和数据抽取模型。 对逻辑模型的评审主要集中在主题域是否可以正确地反映用户的决策分析需求。 从用户对概括数据使用的要求,评审数据粒度的划分和数据分割策略是否可以满足用户决策分析的需要。 为提高数据仓库的运行效率是否需要对关系模式进行反规范化处理。 数据的抽取模型是否正确地建立了数据源与数据仓库的对应关系。 数据的约束条件和业务规则是否在这些模型中得到了正确的反映。,29,课堂练习,1请为一个学生成绩分析应用设计数据库星型模型。,30,练 习,2.数据仓库的生命周期应该包含哪几个阶段?需要完成哪些工作? 3.在数据仓库的需求分析中需要对哪些人员进行需求调查,应该调查哪些内容? 4.数据仓库的设计包含那些内容? 5.怎样通过数据仓库的应用来增强数据仓库的功能与作用?,