多元统计应用第4讲(聚类分析).ppt
《多元统计应用第4讲(聚类分析).ppt》由会员分享,可在线阅读,更多相关《多元统计应用第4讲(聚类分析).ppt(44页珍藏版)》请在三一文库上搜索。
1、2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 数理统计及其应用 聚类分析 Cluster Analysis 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第一节 聚类分析方法 第二节 聚类统计量 第三节 无量纲化方法 第四节 Q型系统聚类法 第五节 R型系统聚类法 第六节 快速聚类法 推荐阅读 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第一节 聚类分析方法 n聚类分析是根据“物以类聚”的道
2、理,对样品或 指标进行分类的一种多元统计分析方法,它们 讨论的对象是大量的样品,要求能合理地按各 自的特性来进行合理的分类,没有任何模式可 供参考或依循,即是在没有先验知识的情况下 进行的。 n基本思想是根据事物本身的特性研究个体分类 的方法;聚类原则是同一类中的个体有较大的 相似性,不同类中的个体差异很大。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n基本程序:是根据一批样品的多个观测指标, 具体地找出一些能够度量样品或指标之间相似 程度的统计量,然后利用统计量将样品或指标 进行归类。 n具体进行聚类时,由于目的、要求不
3、同,因而 产生各种不同的聚类方法: n由小类合并到大类的方法 n由大类分解为小类的方法 n静态聚类法、动态聚类法 n按样本聚类(Q)、按指标聚类(R) 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n在社会经济领域中存在着大量分类问题,如: 对我国31个省市自治区独立核算工业企业经济 效益进行分析,一般不是逐省市自治区去分析 ,而较好地做法是选取能反映企业经济效益的 代表性指标,如百元固定资产实现利税、资金 利税、产值利税率等,根据这些指标对全国各 省市自治区进行分类,然后根据分类结果对企 业经济效益进行综合评价,就易于得出科
4、学的 分析。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第二节 聚类统计量 n一、概述 n二、Q型聚类统计量 n三、R型聚类统计量 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 概述 n设有n个样本单位,每个样本测得p项指 标(变量),原始资料阵为: nQ型聚类以距离作为统计量,R型聚类以 相似系数作为统计量。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved Q型聚类统计量(距离) n把n个
5、样本点看成p维空间的n个点 n1、绝对距离(Block距离) n2、欧氏距离(Euclidean distance) 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n3、明考斯基距离(Minkowski) n4、兰氏距离 n5、马氏距离 n6、切比雪夫距离(Chebychev) 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved R型聚类统计量 n对两个指标之间的相似程度用相似系数 来刻划,相似系数的绝对值越接近于1, 表示指标间的关系越密切,绝对值越接 近于0,表
6、示指标间的关系越疏远。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n1、夹角余弦 n2、相关系数 n3、同号率 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第三节 无量纲化方法 n所谓无量纲化处理,是将原始数据矩阵 中每个元素按照某种特定的运算把它变 成一个新值,且是数值的变化不依赖于 原始数据中其它数据的新值。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n1、极差正规化(规格化变换
7、、阈值法) n2、标准化变换 n3、功效系数法 n4、相对化变换 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n例:某年我国部分省市经济效益情况 n用以上几种方法对其无量纲化。 指标标实际值实际值 北京天津上海江苏苏广东东 产产品销销售率(%) 资资金利税率(%) 成本利润润率(%) 劳动劳动 生产产率(元/人) 流动资动资 金周转转次数(次 ) 净资产净资产 率(%) 96.01 14.90 9.51 14830 1.68 28.40 95.72 9.21 3.35 10004 1.79 26.48 98.42 13.88
8、 7.55 15545 1.80 25.56 93.43 10.75 3.99 9708 2.21 22.30 95.16 10.25 5.03 14590 1.87 25.01 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第四节 Q型系统聚类法 n系统聚类法(层次聚类法):在聚类分析的开 始,每个样本自成一类;然后 ,按照某种方法 度量所有样本之间的亲疏程度,并把最相似的 样本首先聚成一小类;接下来,度量剩余的样 本和小类间的亲疏程度,并将当前最接近的样 本或小类再聚成一类;再接下来,再度量剩余 的样本和小类间的亲疏程度,
9、并将当前最接近 的样本或小类再聚成一类;如此反复,直到所 有样本聚成一类为止。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 步骤: n1、对数据进行变换处理,消除量纲 n2、构造n个类,每个类只包含一个样本计算 n3、n个样本两两间的距离dij n4、合并距离最近的两类为一新类 n5、计算新类与当前各类的距离,重复(4) n6、画聚类图 n7、决定类的个数和类 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 类与类间距离的确定 n一、最短距离法 n二、最长距离
10、法 n三、中间距离法 n四、重心距离法 n五、类平均法 n六、离差平方和 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 最短距离法(Nearest Neighbor) n以当前某个样本与已经形成的小类中的各样本 距离中的最小值作为当前样本与该小类之间的 距离。 省份x1x2x3x4x5x6x7x8 辽辽宁 浙江 河南 甘肃肃 青海 7.90 7.68 9.42 9.16 10.06 39.77 50.37 27.93 27.98 28.64 8.49 11.35 8.20 9.01 10.52 12.94 13.30 8.14
11、 9.32 10.05 19.27 19.25 16.17 15.99 16.18 11.05 14.59 9.42 9.10 8.39 2.04 2.75 1.55 1.82 1.96 13.29 14.87 9.76 11.35 10.81 例1:为了研究辽宁省5省区某年城镇居民生活消费的分 布规律,根据调查资料做类型划分(spssex/ex501) 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海 =(7.9-7.68)2+(39.77-50.37)2+(8.49-
12、11.35)2+(12.94-13.3)2+ (19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5 D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 河南与甘肃的距离最 近,先将二者(3和4 )合为一类G6=G2, G
13、4 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06 d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0 D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0 d71=d(3,4,5)1=mind13,d14,d15=12.80;d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2 D3=7 0 1 12.80 0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计 应用 聚类分析
链接地址:https://www.31doc.com/p-2241344.html