决策支持系统的核心数据挖.ppt
《决策支持系统的核心数据挖.ppt》由会员分享,可在线阅读,更多相关《决策支持系统的核心数据挖.ppt(79页珍藏版)》请在三一文库上搜索。
1、决策支持系统的核心 数据挖掘方法与技术,0 决策支持系统(DSS),数据,模型,推理,知识,决策,人机交互,1 数据挖掘的基本概念,数据挖掘(DM)的产生背景 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,企业和组织积累的数据越来越多,1 数据挖掘的基本概念,数据挖掘(DM)的产生背景 数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势, 从而出现“数据爆炸但知识贫乏”的现象,1 数据挖掘的基本概念,数据挖掘(DM)的产生背景 大量数据背后隐藏着许多重要的信息,企业和组织的管理决策者希望能够对其进行更高层次的分析
2、。,1 数据挖掘的基本概念,数据挖掘(DM)的产生背景 Gartner Group的一次高级技术调查结果将数据挖掘和人工智能列为“将对未来三到五年内工业产生深远影响的五大关键技术”之首; 世界500强企业中80%都涉足数据挖掘的前瞻性研究。,1 数据挖掘的基本概念,数据挖掘的概念 数据挖掘又称为数据库中的知识发现(Knowledge Discovery from Database, KDD),它是一个从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中抽取挖掘出隐含其中的、事先未知的、有价值的模式或规律等知识的复杂过程,该过程如下图所示。,1 数据挖掘的基本概念,1 数据挖掘的基本概念,
3、数据挖掘的概念 数据挖掘涉及多学科技术的集成:数据库技术,统计学,机器学习,高性能计算,模式识别,神经网络,数据可视化,信息检索,图象与信号处理和空间数据分析。,1 数据挖掘的基本概念,数据挖掘的概念 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般分两类: 描述式数据挖掘:刻画数据库或数据仓库中数据的一般特性。 预测式数据挖掘:在当前数据上进行推断,以进行预测。,1 数据挖掘的基本概念,数据挖掘的功能 概念描述(Concept description):利用数据属性中更广义的(属性)内容对其进行归纳和总结,1 数据挖掘的基本概念,数据挖掘的功能 关联分析(Associati
4、on Analysis):从给定的数据集中发现频繁出现的项集模式知识,1 数据挖掘的基本概念,数据挖掘的功能 分类(Classification):找出一组能够描述数据集合典型特征的函数,以便能够识别未知数据的归属或类别,即将未知事例映射到某个离散类别,1 数据挖掘的基本概念,数据挖掘的功能 聚类分析(Clustering Analysis):根据“各聚集(cluster)之内数据对象的相似度最大化和各聚集之间数据对象相似度最小化”这一原则将数据对象划分为若干组,1 数据挖掘的基本概念,数据挖掘的功能 孤立点分析(Outlier Analysis):寻找不符合大多数数据对象所构成的规律(模型)
5、的数据对象,1 数据挖掘的基本概念,数据挖掘的功能 演化分析(Evolution Analysis):对随时间变化的数据对象的变化规律和趋势进行建模描述,1 数据挖掘的基本概念,数据挖掘工具与传统数据分析工具的比较,2 数据挖掘功能关联规则,关联规则的基本概念 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。 从大量商业事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和促销分析等。,2 数据挖掘功能关联规则,购物篮分析 购物篮分析是关联规则挖掘的最初形式 假定作为某商店经理,你想更加了解你的顾客的购物习惯。例如:“什么商品组或集合顾客多半会在一次购物时同时
6、购买?”。为解答这个问题,可以在商店顾客事务零售数据上运行购物篮分析。 分析的结果可用于市场规划、广告策划和分类设计。,2 数据挖掘功能关联规则,购物篮分析 若设商店中所有销售商品为一个集合,则每个商品均为一个布尔变量,表示该商品是否被(一个)顾客购买。因此每个购物篮就可以用一个布尔向量表示。,2 数据挖掘功能关联规则,购物篮分析 分析相应布尔向量,得到反映商品频繁关联或同时购买的购买模式,并可用关联规则的形式表示模式。例如,购买计算机也趋向于同时购买财务管理软件可用以下关联规则表示:,2 数据挖掘功能关联规则,购物篮分析 关联规则的支持度(support)2% 表示分析中的全部事务的2% 同
7、时购买计算机和财务管理软件。 关联规则的置信度(confidence)60%表示:购买计算机的顾客60% 也购买财务管理软件。,2 数据挖掘功能关联规则,Apriori算法 Apriori算法是根据有关频繁项集性质的先验知识而命名。该算法使用一种逐层搜索的迭代方法,利用k-项集探索(k+1)-项集。 具体做法:首先找出频繁1-项集的集合,记为L1 ;再用L1找频繁2-项集的集合L2;再用L2找L3 如此下去,直到不能找到频繁k-项集为止。找每个Lk需要一次数据库扫描。,2 数据挖掘功能关联规则,Apriori算法 Apriori算法的有效性,在于它利用了一个非常重要的原理,即Apriori性质
8、:如果一个项集是频繁的,则这个项集的任意一个非空子集都是频繁的。 Apriori性质基于如下观察:如果项集I不满足最小支持度阈值min_sup,则I 不是频繁的。如果增加项A到I,则结果项集不可能比I更频繁出现。因此,也不是频繁的。,2 数据挖掘功能关联规则,Apriori算法 该性质属于一种特殊的分类,也称作反单调性。意指如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。 反单调性能迅速减值,提高搜索频繁项集的处理效率。,2 数据挖掘功能关联规则,Apriori算法 整个过程由连接和剪枝两步组成,即 连接步:为找Lk,可通过Lk-1与自己连接,产生一个候选k-项集的集合,该候选
9、项集的集合记作Ck 。,2 数据挖掘功能关联规则,Apriori算法 设l1和l2是Lk-1中的项集,记号li j表示li的第j项。为方便计,假定事务或项集中的项按字典次序排序。 执行连接 , 其中Lk-1的元素是可连接的,如果它们前(k-2)个项相同。,2 数据挖掘功能关联规则,Apriori算法 即Lk-1的元素l1和l2是可连接的,如果( l11 = l21 l12 = l22 l1k-2 = l2k-2 l1k-1 l2k-1 )。条件(l1k-1 l2 k-1)可确保不产生重复的项集。,2 数据挖掘功能关联规则,Apriori算法 剪枝步 Ck是Lk的超集,即它的成员不一定都是频繁项
10、集,但所有的频繁k-项集都包含在Ck中 扫描数据库,确定Ck中每个候选项集的计数,从而确定Lk 。然而, Ck可能很大,这样所涉及的计算量就很大。,2 数据挖掘功能关联规则,Apriori算法 剪枝步 为了压缩 Ck ,可利用Apriori性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集。因此,若一个候选k-项集的(k-1)-项子集不在 Lk-1中,则该候选也不可能是频繁的,从而可以从 Ck 中删除。,2 数据挖掘功能关联规则,【例】一个Apriori的具体例子,该例基于右图某商店的事务DB。DB中有9个事务,Apriori假定事务中的项按字典次序存放。,2 数据挖掘功能关联规则
11、,(1)在算法的第一次迭代,每个项都是候选1-项集的集合C1的成员。算法简单地扫描所有的事务,对每个项的出现次数计数。,C1,2 数据挖掘功能关联规则,(2)设最小支持计数为2,可以确定频繁1-项集的集合Lk-1。它由具有最小支持度的候选1-项集组成。,L1,2 数据挖掘功能关联规则,(3)为发现频繁2-项集的集合L2,算法使用 产生候选2-项集集合C2。,C2,2 数据挖掘功能关联规则,(4)扫描D中事务,计算C2中每个候选项集的支持计数。,C2,2 数据挖掘功能关联规则,(5)确定频繁2-项集的集合L2,它由具有最小支持度的C2中的候选2-项集组成。,L2,2 数据挖掘功能关联规则,(6)
12、候选3-项集的集合C3的产生如下:,连接: C3= = I1,I2,I1,I3,I1,I5,I2,I3,I2,I4,I2,I5 I1,I2,I1,I3,I1,I5,I2,I3,I2,I4,I2,I5 = I1,I2,I3,I1,I2,I5,I1,I3,I5,I2,I3,I4,I2,I3,I5,I2,I4,I5,2 数据挖掘功能关联规则,(6)候选3-项集的集合C3的产生如下:,利用Apriori性质剪枝:频繁项集的所有子集必须是频繁的。存在候选项集,判断其子集是否频繁。,I1,I2,I3的2-项子集是I1,I2,I1,I3和I2,I3,它们都是L2的元素。因此保留I1,I2,I3在C3中。 I
13、1,I2,I5的2-项子集是I1,I2,I1,I5和I2,I5, 它们都是L2的元素。因此保留I1,I2,I5在C3中。,2 数据挖掘功能关联规则,(6)候选3-项集的集合C3的产生如下:,I1,I3,I5的2-项子集是I1,I3,I1,I5和I3,I5,I3,I5不是L2的元素,因而不是频繁的,由C3中删除I1,I3,I5。 I2,I3,I4的2-项子集是I2,I3,I2,I4和I3,I4,其中I3,I4不是L2的元素,因而不是频繁的,由C3中删除I2,I3,I4。,2 数据挖掘功能关联规则,(6)候选3-项集的集合C3的产生如下:,I2,I3,I5的2-项子集是I2,I3,I2,I5和I3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策 支持系统 核心 数据
链接地址:https://www.31doc.com/p-2216786.html