《【大学课件】数据挖掘简单概括.ppt》由会员分享,可在线阅读,更多相关《【大学课件】数据挖掘简单概括.ppt(89页珍藏版)》请在三一文库上搜索。
1、第1章 引言 第2章 数据预处理 第3章 数据仓库与OLAP技术概述 第4章 数据立方体计算与数据泛化 第5章 挖掘频繁模式、关联和相关 第6章 分类和预测 第7章 聚类分析 第8章 挖掘流、时间序列和序列数据 第9章 图挖掘、社会网络分析和多关系数据挖掘 第10章 挖掘对象、空间、多媒体、文本和Web数据 第11章 数据挖掘的应用和发展趋势,体系结构:典型数据挖掘系统,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据清洗、集成和选择,数据库,数据仓库,万维网,其他信息库,在何种数据上进行数据挖掘(数据源),关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空
2、间数据库 时间数据库和时间序列数据库 流数据 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和遗产(legacy)数据库 文本数据库和万维网(WWW),数据仓库,数据仓库是一个从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造。,数据挖掘的应用,数据分析和决策支持 市场分析和管理 目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割 风险分析和管理 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖
3、掘 (新闻组,电子邮件, 文档) 和WEB挖掘 流数据挖掘 DNA 和生物数据分析,数据挖掘应用市场分析和管理(1),数据从那里来? 信用卡交易, 会员卡, 商家的优惠卷, 消费者投诉电话, 公众生活方式研究 目标市场 构建一系列的“客户群模型”,这些顾客具有相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式 交叉市场分析 货物销售之间的相互联系和相关性,以及基于这种联系上的预测,数据挖掘应用市场分析和管理(2),顾客分析 哪类顾客购买那种商品 (聚类分析或分类预测) 客户需求分析 确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客 提供概要信息 多维度的综合报告 统计
4、概要信息 (数据的集中趋势和变化),数据挖掘应用公司分析和风险管理,财务计划 现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率,趋势分析等等) 资源计划 总结和比较资源和花费 竞争 对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中,数据挖掘应用欺诈行为检测和异常模式的发现,方法: 对欺骗行为进行聚类和建模,并进行孤立点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险 职业病人, 医生以及相关数据分析 不必要的或相关的测试 电信: 电话呼叫欺骗行为 电话呼叫模型:
5、 呼叫目的地,持续时间,日或周呼叫次数. 分析该模型发现与期待标准的偏差 零售产业 分析师估计有38的零售额下降是由于雇员的不诚实行为造成的 反恐怖主义,其他应用,体育竞赛 美国NBA的29个球队中,有25个球队使用了IBM 分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。 天文学 JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星 网上冲浪 通过将数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为, 分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究,数据挖掘技术分类,数据
6、挖掘,验证驱动挖掘,发现驱动挖掘,SQL,SQL生成器,查询工具,OLAP,描述,预测,可视化,聚类,关联规则,顺序关联,汇总描述,分类,统计回归,时间序列,决策树,神经网路,数据挖掘的主要方法,关联分析 发现数据之间的关联规则,这些规则展示属性值频繁的在给定的数据中所一起出现的条件。 广泛的用于购物篮或事务数据分析。 关联规则是形如X Y,即”A1.Am B1.Bn”的规则;其中,Ai(i1,.,m),Bj(j1,.,n)是属性-值对。关联规则解释为“满足X中条件的数据库元组多半也满足Y中条件”。 例1.6给定AllElectronics关系数据库,一个数据挖掘系统可能发现如下形式的规则 a
7、ge(X, “2029”) income(X, “2029K”) buys(X, “CD_player”) support = 2%, confidence = 60% 其中,X是变量,代表顾客。该规则是说,所研究的AllElectronics顾客2%(支持度)在20-29岁,年收入20-29K,并且在AllElectronics购买CD机。这个年龄和收入组的顾客购买CD机的可能性有60%(置信度或可信性)。 关联规则挖掘在第6章详细讨论。,数据挖掘的主要方法,分类和预测 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。 比如:按气候将国家分类,按汽油消耗定额将汽
8、车分类 导出模型的表示: 决策树、IFTHEN规则、神经网络 预测(prediction)用来预测空缺的或不知道的数值数据值,而不是类标号,在本书中,预测主要是指数值预测。 可以用来预报某些未知的或丢失的数字值 第6章将详细讨论分类和预测,数据挖掘的主要方法,聚类分析 与分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。一般地,训练数据中不提供类标号,因为不知道从何开始。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。即,对象的聚类这样形成,使得在一个聚类中的对象具有很高的相似性,而与其它聚类中的对象很不相似。,关于一个城市内顾客的2-D图,显示
9、了3个聚类,每个聚类的“中心”用“+”标记,2.1 为什么要预处理数据?,现实世界中的数据是脏的 不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据 例, occupation=“” 噪音: 包含错误或孤立点 例, Salary=“-10” 不一致: 编码或名字存在差异 例, Age=“42” Birthday=“03/07/1997” 例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C” 例, 重复记录间的差异,数据为什么脏?,不完全数据源于 数据收集时未包含 数据收集和数据分析时的不同考虑. 人/硬件/软件问题 噪音数据源于 收集 录入 变换 不一致数据源于 不同
10、的数据源 违反函数依赖,为什么数据预处理是重要的?,没有高质量的数据, 就没有高质量的数据挖掘结果! 高质量的决策必然依赖高质量的数据 例如, 重复或遗漏的数据可能导致不正确或误导的统计. 数据仓库需要高质量数据的一致集成 数据提取, 清理, 和变换是建立数据仓库的最主要的工作,第3章: 数据仓库与OLAP技术,3.1什么是数据仓库? 3.2多维数据模型 3.3数据仓库结构 3.4数据仓库实现 3.5从数据仓库到数据挖掘,多维数据模型,数据仓库基于 多维数据模型 , 多维数据模型将数据视为数据方(data cube)形式 多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。 数
11、据方, 可以将数据建模, 并允许由多个维进行观察,由维和事实定义 维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。 事实表包括事实的名称或度量以及每个相关维表的关键字,多维数据模型,不同视角的数据立方分析,数据仓库、数据集市和数据立方之间的关系,数据仓库由于是企业范围的,能对多个相关的主题建模,所以在设计其数据构成时一般采用星系模式。而数据集市是部门级的,具有选定的主题,可以采用星形或雪花模式。,数据仓库的后端工具和实用程序,数据提取: 由多个异种, 外部数据源收集数据 数据清理: 检测数据中的错误, 可能时订正它们 数据变换: 将数据由遗产或宿主格式转换成数据仓库
12、格式 装载: 排序, 综合, 加固, 计算视图, 检查整体性, 并建立索引和划分 刷新 传播由数据源到数据仓库的更新,参考:数据仓库与OLAP实践教程 工具:Microsoft Analysis Services,2、使用Crystal Analysis,上表下图式(Horizontal Worksheet and Chart),显示的维度,隐藏的维度,显示的度量值,图形化显示,(电子教案),OLAP:Excel数据透视表和数据透视图,1、创建Excel数据透视表 2、使用Excel透视表浏览数据 3、使用Excel透视图分析数据,第5章:挖掘频繁模式、关联和相关,本章主要讲解关联规则挖掘 关
13、联规则挖掘是当前数据挖掘研究的主要方法之一,侧重于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系 。 例:在销售手机的商店中,70%的包含手机的交易中包含充电器,在所有交易中,有56%同时包含这两种物品。 于是规则表示为手机 充电器 (可信度70%,支持度56%),购物篮分析,购物篮分析:通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们开发更好的营销策略。,购物篮分析还可以应用在下列问题上:(1)针对信用卡购物,能够预测未来顾客可能购买什么。(2)对于电信与金融服
14、务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。(3)保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。(4)对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。等等,为什么频繁模式挖掘是数据挖掘的基本任务?,许多基本的数据挖掘任务的基础 关联, 相关, 因果关系 序列模式, 时间或周期关联, 局部周期性, 空间和多媒体关联 关联分类, 聚类分析, 冰山方, fascicles (语义数据压缩) 广泛的应用 购物篮数据分析, 交叉销售, 分类设计, 销售活动分析 Web 日志 (点击流) 分析, DNA 序列分析, 等.,Apriori -关联
15、规则的一个算法 CARMA,CARMA算法简介,CARMA是一种比较新的关联规则算法,它是1999年由Berkeley大学的Christian Hidber教授提出来的。,1,2,3,4,能够处理在线连续交易流数据,仅需一次,最多两次对数据的扫描就可以构造出结果集,允许在算法执行过程中按需要重新设置支持度,占用内存少,CARMA,supermarket,关联规则:哪些商品会在一起被购买?在超市的促销中就应搭配在一起或摆放在相同的货架。此时关注的是商品而不是顾客个人信息。,分类与预测,6.1 分类与预测概述,分类分析 所谓分类,就是把给定的数据划分到一定的类别中。分类分析就是通过分析训练集中的数
16、据,为每个类别建立分类分析模型;然后用这个分类分析模型对数据库中的其他记录进行分类。 分类分析的输入集是一组记录集合和几种类别的标记。这个输入集又称示例数据库或训练集。 训练集中的记录称为样本。在这个训练集中,每个记录都被赋予一个类别的标记。,6.1 分类与预测概述,分类分析 分类分析方法的一个典型例子是信用卡核准过程。信用卡公司根据信誉程度,将一组持卡人记录分为良好、一般和较差三类,且把类别标记赋给每个记录。分类分析就是分析该组记录数据,对每个信誉等级建立分类分析模型。如“信誉良好的客户是那些收入在5万元以上,年龄在4050岁之间的人士”。得出这个分类分析模型之后,就可根据这个分类分析模型对
17、新的记录进行分类,从而判断一个新的持卡人的信誉等级是什么。,6.1 分类与预测概述,分类与预测 分类: 预测分类标号(或离散值) 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据 预测: (prediction)是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。 相同点 两者都需要构建模型 都用模型来估计未知值 预测当中主要的估计方法是回归分析 线性回归和多元回归 非线性回归 不同点 分类法主要是用来预测类标号(分类属性值) 预测法主要是用来估计连续值(量化属性值),6.1 分类与预测概述,分类步骤 第一步,学习过程,建立一个模型,描述预定数据类集和
18、概念集 假定每个元组属于一个预定义的类,由一个类标号属性确定 基本概念 训练数据集:由为建立模型而被分析的数据元组组成 训练样本:训练数据集中的单个样本(元组) 学习模型可以用分类规则、决策树或数学公式的形式提供,6.1 分类与预测概述,第一步建立模型,6.1 分类与预测概述,分类步骤 第二步,分类过程,使用模型,对将来的或未知的对象进行分类 首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集要独立于训练样本集,否则会出现“过分适应数据”的情况,6.1 分类与预测概述,第二步用模型进行分类,
19、6.1 分类与预测概述,有指导的学习 VS.无指导的学习 有指导的学习(用于分类) 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行 数据使用训练数据集中得到的规则进行分类 无指导的学习(用于聚类) 每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的 通过一系列的度量、观察来建立数据中的类编号或进行聚类,6.1 分类与预测概述,分类的主要算法 (1)决策树算法 (2)贝叶斯分类算法 (3)神经网络分类算法 (4)遗传算法 (5)粗糙集分类算法 其他,6.2 决策树分类算法,什么是决策树(判定树,Decision Tree)? 决策树是采用树状分岔的架构来产生规则,适用
20、于所有分类的问题。 类似于流程图的树结构 每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个树叶节点代表类或类分布 用途:提取分类规则,进行分类预测,6.2 决策树分类算法,决策树的概念 如果每个内节点都恰好有两个分枝,则称为二叉树。如果内节点有多于两个的分枝,则称为多叉树。从根节点到每个叶节点的路径称为“决策规则”。 决策树可用于对新样本的分类,即通过决策树对新样本属性值进行测试,从树的根节点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶节点,该叶节点表示的类别就是新样本的类别,也能有效地识别新样本的类别。,6.2 决策树分类算法,决策树生成算法分成两个步骤 树的生
21、成 开始,数据都在根节点 递归的通过选定的属性,来划分样本(必须是离散值) 树的修剪 去掉一些可能是噪音或者异常的数据 决策树使用: 对未知数据进行分割 按照决策树上采用的分割属性逐层往下,直到一个叶子节点,6.2 决策树分类算法,决策树算法 基本算法(贪婪算法) 自上而下分而治之的方法 开始时,所有的数据都在根节点 属性都是种类字段 (如果是连续的,将其离散化) 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain) 停止分割的条件 一个节点上的数据都是属于同一个类别 没有属性可以再用于对数据进行分割,6.2 决策树分类
22、算法,常用的决策树演算法 ID3, C4, C4.5, C5, CART, CHAID, QUEST 决策树分类算法ID3算法 决策树方法中影响最大的是1986年提出的ID3方法。它是建立在推理系统和概念学习系统的基础上的算法。 ID3算法的基本思想是贪心算法,采用自上而下的分而治之的方法构造决策树。 首先检测训练数据集的所有特征,选择信息增益最大的特征A建立决策树根节点,由该特征的不同取值建立分枝,对各分枝的实例子集递归,用该方法建立树的节点和分枝,直到某一子集中的数据都属于同一类别,或者没有特征可以在用于对数据进行分割。,6.2 决策树分类算法,决策树的建立-决策树建立的关键,建立一个好的
23、决策树的关键是决定树根和子树根的属性,树根?,6.2 决策树分类算法,决策树的建立-决策树建立的关键,年龄,青,中,老,6.2 决策树分类算法,决策树的建立-对测试样例的信息期望,让我们称所需要研究的属性为“分类属性”。假设该属性共分m类,而它们每一类在数据表中计数的总和分别为s1, s2 , sm。 令s = s1+ s2 + +sm 则对于任一样例,决定它所属类别的信息期望可以用下面的公式来计算: I(s1, s2 , sm) = -pilog2(pi) 其中pi = si /s,6.2 决策树分类算法,决策树的建立-对测试样例的信息期望,例:左表 分类属性:买计算机? 该属性共分两类(m
24、=2): 买/不买 s1 = 641, s2 = 383 s = s1+ s2 = 1024 p1 = s1 /s = 641/1024 = 0.6260 p2 = s2 /s = 383/1024 = 0.3740 I(s1, s2) = I(641, 383) = -(p1*log2(p1) + p2*log2(p2) = 0.9537,-(p1*log2(p1) + p2*log2(p2)在Excel中写为: -(0.626*LOG(0.626,2)+0.374*LOG(0.374,2),6.2 决策树分类算法,决策树的建立-对测试样例的信息期望,平均信息期望,E,是节点各直系 分支的信
25、息期望值的加权总和 1. 假定选择年龄作树根节点,则: 青年组: I(128,256)=0.9183 中年组: I(256,0)=0 老年组: I(257,127)=0.9157 青年组比例: (128+256)/1024=0.375 中年组比例: 256/1024=0.25 老年组比例: (257+127)/1024=0.375 平均信息期望(加权总和): E(年龄)= 0.375*0.9183 +0.25*0+0.375*0.9157 = 0.6877 信息增益: Gain(年龄) = I(641, 383)-E(年龄) =0.9537 0.6877 = 0.2660,6.2 决策树分类算
26、法,决策树的建立-对测试样例的信息期望,2. 假定选择收入作树根节点,则: 高收入组: I(160,128)=0.9911 中收入组: I(289,191)=0.9697 低收入组: I(192,64)=0.8133 高收入组比例: 288/1024=0.2813 中收入组比例: 480/1024=0.4687 低收入组比例: 256/1024=0.25 平均信息期望(加权总和): E(收入)= 0.2813 * 0.9911 + 0.4687 * 0.9697 + 0.25 * 0.8133 = 0.9361 Gain(收入) = I(641, 383)-E(收入) =0.9537 0.93
27、61= 0.0176,6.2 决策树分类算法,决策树的建立-对测试样例的信息期望,3. 假定选择学生作树根节点,则: 学生组: I(420,64)=0.5635 非学生组: I(221,319)=0.9761 学生组比例: 484/1024=0.4727 非学生组比例:540/1024=0.5273 平均信息期望(加权总和): E(学生)= 0.4727 * 0.5635 + 0.5273 * 0.9761 = 0.7811 Gain(学生) = I(641, 383)-E(学生) =0.9537 0.7811= 0.1726,6.2 决策树分类算法,决策树的建立-对测试样例的信息期望,4.
28、假定选择信誉作树根节点,则: 良好组: I(480,192)=0.8631 优秀组: I(161,191)=0.9948 良好组比例: 672/1024=0.6563 优秀组比例: 352/1024=0.3437 平均信息期望(加权总和): E(信誉)= 0.6563 * 0.8631 + 0.3437 * 0.9948 = 0.9048 Gain(信誉) = I(641, 383)-E(信誉) =0.9537 0.9048 = 0.0453,6.2 决策树分类算法,决策树的建立-对测试样例的信息期望 决定树根节点 E(年龄)= 0.6877, Gain(年龄) = 0.2660(此值最大,作
29、为根节点) E(收入)= 0.9361,Gain(收入) = 0.0176 E(学生)= 0.7811,Gain(学生) = 0.1726 E(信誉)= 0.9048,Gain(信誉) = 0.0453,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例),年龄,青,中,老,树叶,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例),年龄,青,中,老,买,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例) 青年组数据表分析: 1. 假定选择收入作节点 I(128,256) = 0.9183,I(0,128)=0 比例: 128/384=0.3333,I(64,128)=0.
30、9183 比例: 192/384=0.5,I(64,0)=0 比例: 64/384=0.1667,平均信息期望(加权总和): E(收入)= 0.3333 * 0 + 0.5 * 0.9183 + 0.1667 * 0 = 0.4592 Gain(收入) = I(128, 256) - E(收入)=0.9183 0.4592 = 0.4591,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例) 青年组数据表分析: 2. 假定选择学生作节点 I(128,256) = 0.9183,I(128,0)=0 比例: 128/384=0.3333,I(0,256)=0 比例: 256/384=0.
31、6667,平均信息期望(加权总和): E(学生)= 0.3333 * 0 + 0.6667 * 0 = 0 Gain(学生) = I(128, 256) - E(学生)=0.9183 0 = 0.9183 结论: 不需要考虑属性信誉,决定选择属性学生,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例),年龄,青,中,老,买,学生,是,否,树叶,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例),年龄,青,中,老,买,学生,是,否,买,不买,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例) 老年组数据表分析: 1. 假定选择收入作节点 I(257,127) = 0.91
32、57,I(64,64)=1 比例: 128/384=0.3333,I(193,63)=0.8050 比例: 256/384=0.6667,平均信息期望(加权总和): E(收入)= 0.3333 * 1 + 0.6667 * 0.8050 = 0.8700 Gain(收入) = I(257, 127) - E(收入)=0.9157 0.8700 = 0.0457,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例) 老年组数据表分析: 2. 假定选择学生作节点 I(257,127) = 0.9157,I(196,64)=0.8051 比例: 260/384=0.6771,I(61,63)=
33、0.9998 比例: 124/384=0.3229,平均信息期望(加权总和): E(学生)= 0.6771 * 0.8051 + 0.3229 * 0.9998 = 0.8680 Gain(学生) = I(257, 127) - E(学生)=0.9157 0.8680= 0.0477,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例) 老年组数据表分析: 3. 假定选择信誉作节点 I(257,127) = 0.9157,I(256,0)=0 比例: 256/384=0.6667,I(1,127)=0.0659 比例: 128/384=0.3333,平均信息期望(加权总和): E(信誉)
34、= 0.6667 * 0 + 0.3333 * 0.0659 = 0.0220 Gain(信誉) = I(257, 127) - E(信誉)=0.9157 0.0220 = 0.8937 结论: 决定选择属性信誉,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例),年龄,青,中,老,买,学生,是,否,买,不买,信誉,良,优,树叶,6.2 决策树分类算法,决策树的建立-决策树建立步骤(例),年龄,青,中,老,买,学生,是,否,买,不买,信誉,良,优,买,依据收入、学生再进一步分类,6.2 决策树分类算法,由决策树提取分类规则 可提取决策树表示的知识,并以IF-THEN形式的分类规则表示
35、对从根到树叶的每条路径创建一个规则 沿着给定路径上的每个属性-值对形成规则前件(“IF“部分)的一个合取项 叶节点包含类预测,形成规则后件(“THEN“部分) IF-THEN规则易于理解,尤其树很大时 示例: IF age = “40” AND credit_rating = “excellent” THEN buys_computer = “yes” IF age = “40” AND credit_rating = “fair” THEN buys_computer= “no”,6.2 决策树分类算法,决策树分类作业 写出下表决策树分类步骤及图,并以IF-THEN形式的分类规则表示 6个变
36、量依次为:编号、天气晴、阴、雨、温度热、冷、适中、湿度高、正常、风力强、弱以及最后是否去玩的决策是、否。,CHAID模块简介,CHAID:又叫卡方自动交叉检验(CHi-squared Automatic Interaction Detector) 在1980年,由Kass等人提出,它在建立决策树过程中主要是利用卡方统计量来寻找最优的分支节点。 CHAID可产生多分枝的决策树 CHAID是建立在因果关系的探讨中的,依据目标变量实现对输入变量众多水平的划分 CHAID是市场研究和社会调查研究中应用比较广泛的方法 例如:市场细分研究;信件回复率研究;满意度研究,CHAID模块应用及简单示例,现有数据
37、Newschan.sav 导入数据 查看数据形式 本数据是一个市场研究 案例,目的通过已知的7个变量 age, sex, education, income category, hours spent watching television each day, number of Children,number of organization 来预测哪一类人更倾向通过网 络购买一交互式新闻服务,CHAID模块应用及简单示例,模型执行结果 首先用年龄变量进行分类,分成4类 在对年龄大于23小于37的用性别进行分支,分为两支 若模型的错判概率在我们可以接受的范围之内,则我们可以应用决策树模型进行预
38、测,如若已知一名潜在顾客的年龄为20岁,则我们应用此决策树可以判断他购买这项服务的概率仅为18.605%。另外,厂家还可以利用决策树判断哪些人更具有购买倾向,从而在进行广告宣传时,更具有针对性。比如对于本例,年龄在2337之间的男性及年龄在60岁以上的人更具有购买倾向,因此厂家可以对这部分人群进行更多的广告宣传,从而具有更大的命中性。,贝叶斯分类,朴素贝叶斯分类与贝叶斯网,举例说明,目标概念PlayTennis的训练样例,supermarket,分类:假设超市要进行红葡萄酒的促销,当一个顾客进入超市时有针对性的对其进行重点介绍,这就要事先知道是哪些人(哪类人?什么特征?)最有可能会购买红葡萄酒
39、,此时关注的是商品(红葡萄酒)与顾客个人信息(如性别、收入、年龄等)之间的关系。在进行挖掘时就要对原始表进行加工处理,只保留需要的信息,并对部分信息进行转换。要怎么处理?,(电子教案),第七章 聚类分析,一、什么是聚类分析,二、k-均值聚类,三、分层聚类或系统聚类,1.1 聚类的理解,聚类问题不属于预测性的问题,它主要解决的是把一群对象划分成若干个组的问题。划分的依据是聚类问题的核心。所谓“物以类聚,人以群分”,故得名聚类。 聚类问题容易与分类问题混淆,主要是语言表达的原因,因为我们常说这样的话:“根据客户的消费行为,我们把客户分成三个类,第一个类的主要特征是”,实际上这是一个聚类问题,但是在
40、表达上容易让我们误解为这是个分类问题。 分类问题与聚类问题是有本质区别的:分类问题是预测一个未知类别的用户属于哪个类别(相当于做单选题),而聚类问题是根据选定的指标,对一群用户进行划分(相当于做开放式的论述题),它不属于预测问题。,1.1 聚类的理解,什么是聚类 聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。 首先,基于数据的相似性把数据集合划分成组,然后给这些组指定标号。 聚类的方法可以适应变化,能够挑选出区分不同组的有用特征。 比如,要想把中国的县分成若干类,就有很多种分类法: 可以按照自然条件来分,
41、比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类。,1.2 聚类的应用,聚类分析无处不在 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物 经济领域: 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 生物学领域 推导植物和动物的分类; 对基因分类,获得对种群的认识,1.2
42、聚类的应用,谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样),1.2 聚类的应用,挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!,1.2 聚类的应用,谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以
43、制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!,1.3 聚类分析原理介绍,聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 聚类方法的目的是寻找数据中: 潜在的自然分组结构 感兴趣的关系,二、k-均值聚类 Clementine 聚类模型 K-means 聚类,三、分层聚类或系统聚类 Clementine 聚类模型 Two Step二阶聚类算法,K-means聚类,K-means聚类简介 K-mean又称快速聚类,是由Macqueen 于1967年提出
44、的。 K-means 目的是:把样品聚集成K个类的集合,要求同一类中样品彼此相似,而不同类间的样品差异较大。K的大小是事先确定好的。 K-means基本思想是:把每个样品聚集到其最近形心(均值)类中去,K-means聚类,建立K-means模型的要求:需要一个以上的In字段。方向为Out、Both、None的字段将被忽略。 优点:建立K-means模型不需要分组数据。对于大型数据集,K-means模型常常是最快的分群方法。,K-means 算法步骤,1 从原始数据中选取K个点作为初始的K个聚类中心。通常由Clementine自动选。 2 计算各样本到K个聚类中心的距离,把样本归到离它最近的那个
45、聚类中心所在的类。 3 计算新形成的K个类的均值作为新的聚类中心,重复步骤2重新聚类 4 重复步骤3,直到到达最大迭代次数或前后两次迭代之间的差异小于制定阀值,聚类过程结束。,K-means聚类实例,现有数据drink.sav,收集了16种饮料的热量(calorie)、咖啡因(caffeine)、钠(sodium)及价格(price)四个变量的值。现在希望利用这四个变量对这16种饮料进行聚类。,Clementine 实现步骤,样本分类结果:,Clementine 实现步骤,生成模型的model对话框 样本被聚成为三类,三类包含 的样本数分别为2、7、7。 展示了各类中四个变量的类均 值及标准差,如归入第 一类的 饮料的caffeine的平 均含量为 1.65,标准差为2.333。 Proximities展示了类与类之间 的距离。值越小表明越相近。,Clementine 实现步骤,生成模型的Viewer对话框 该对话框以图形的形式形象的将 模型的结果展示出来了 饼图代表各类所占的比重大小 条形方图代表各类中各变量的 类均值大小 同时图中还标出了各变量对于 聚类的重要程度,本例calorie 和price为重要变量,caffeine 为不重要变量。 第1类:高热量饮料calorie199 第2类:平均热量60 第3类:平均热量81,
链接地址:https://www.31doc.com/p-3024141.html