欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第七章主成分分析.ppt

    • 资源ID:2551914       资源大小:1.65MB        全文页数:55页
    • 资源格式: PPT        下载积分:8
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要8
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第七章主成分分析.ppt

    第七章 主成分分析,§7.1 引言 §7.2 总体的主成分 §7.3 样本的主成分,§7.1 引言,主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。 主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。 主成分分析的一般目的是: (1)变量的降维; (2)主成分的解释。,寻找主成分的正交旋转,旋转公式:,§7.2 总体的主成分,一、主成分的定义及导出 二、主成分的性质 三、从相关阵出发求主成分,一、主成分的定义及导出,设 为一个p维随机向量,E(x)=, V(x)=。考虑如下的线性变换 希望在约束条件 下寻求向量a1,使得 达到最大,y1就称为第一主成分。 设1 2p0为的特征值, , i=1,2,p为相应的单位特征向量,且相互正交。则可求得第一主成分为 它的方差具有最大值1。,如果第一主成分所含信息不够多,还不足以代表原始的p个变量,则需考虑再使用一个综合变量 ,为使y2所含的信息与y1不重叠,应要求 Cov(y1,y2) =0 我们在此条件和约束条件 下寻求向量a2,使得 达到最大,所求的 称为第二主成分。求得的第二主成分为 其方差为2。 一般来说,x的第i主成分是指:在约束条件 和 Cov(yk,yi)=0, k=1,2,i1下寻求ai,使得 达到最大。第i主成分为,主成分的几何意义,在几何上,ti表明了第i主成分的方向,yi是x在ti上的投影值(其绝对值即为投影长度),i是这些值的方差,它反映了在ti上投影点的分散程度。,x投影到ti上的值,其中i是ti与x的夹角。,主成分向量与原始向量之间的关系式,主成分与原始变量之间的关系式矩阵,正交变换 的几何意义,正交变换 的几何意义是将Rp中由x1,x2, ,xp构成的原p维坐标轴作一正交旋转,一组正交单位向量t1,t2, ,tp表明了p个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。,二、主成分的性质,1.主成分向量的协方差矩阵 2.主成分的总方差 3.原始变量xi与主成分yk之间的相关系数 4.m个主成分对原始变量的贡献率 5.原始变量对主成分的影响,1.主成分向量的协方差矩阵,V(y)= 其中=diag(1, 2,p),即V(yi)= i, i=1,2,p,且y1,y2, ,yp互不相关。,2.主成分的总方差,由于 所以 或,总方差中属于第i主成分yi (或被yi所解释)的比例为 称为主成分yi的贡献率。 第一主成分y1的贡献率最大,表明它解释原始变量 x1,x2, ,xp的能力最强,而y2,y3, ,yp的解释能力依次递减。 主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。,前m个主成分的贡献率之和 称为主成分y1,y2, ,ym的累计贡献率,它表明y1,y2, ,ym解释x1,x2, ,xp的能力。 通常取(相对于p)较小的m ,使得累计贡献达到一个较高的百分比(如8090)。此时,y1,y2, ,ym可用来代替x1,x2, ,xp,从而达到降维的目的,而信息的损失却不多。,3.原始变量xi与主成分yk之间的相关系数,x=Ty 即 xi=ti1y1+ti2y2+tipyp 所以 Cov(xi,yk)=Cov(tikyk,yk)=tikk 在实际应用中,通常我们只对xi (i=1,2,p)与yk (k=1,2,m)的相关系数感兴趣。,4.m个主成分对原始变量的贡献率,m个主成分y1,y2,ym从原始变量x1,x2,xp中提取的信息量,可度量为xi与y1,y2,ym的复相关系数的平方,称为m个主成分y1,y2,ym对原始变量xi的贡献率。其值为 当m=p时,,例7.2.1 设x=(x1,x2,x3)的协方差矩阵为 其特征值为 1=5.83,2=2.00,3=0.17 相应的特征向量为 若只取一个主成分,则贡献率为 5.83/(5.83+2.00+0.17)=0.72875=72.875%,可见,y1对第三个变量的贡献率为零,这是因为x3与x1和x2都不相关,在y1中未包含一点有关x3的信息,这时仅取一个主成分就显得不够了,故应再取y2,此时累计贡献率为 (5.83+2.00)/8=97.875% (y1,y2)对每个变量xi的贡献率分别为 , 都比较高。,表7.2.1 y1及(y1,y2)对每个原始变量的贡献率,5.原始变量对主成分的影响,yk=t1kx1+t2kx2+tpkxp 称tik为第k主成分yk在第i个原始变量xi上的载荷,它度量了xi对yk的重要程度。 在解释主成分时,我们需要考察载荷,同时也应考察一下相关系数。 方差大的那些变量与具有大特征值的主成分有较密切的联系,而方差小的另一些变量与具有小特征值的主成分有较强的联系。通常我们取前几个主成分,因此所取主成分会过于照顾方差大的变量,而对方差小的变量却照顾得不够。,例7.2.2 设x=(x1,x2,x3)的协方差矩阵为 经计算,的特征值及特征向量为 1=109.793,2=6.469,3=0.738 相应的主成分分别为,y1=0.305x1+0.041x2+0.951x3 y2=0.944x1+0.120x20.308x3 y3=0.127x1+0.992x20.002x3 可见,方差大的原始变量x3在很大程度上控制了第一主成分y1,方差小的原始变量x2几乎完全控制了第三主成分y3,方差介于中间的x1则基本控制了第二主成分y2。y1的贡献率为 这么高的贡献率首先归因于x3的方差比x1和x2的方差大得多,其次是x1,x2,x3相互之间存在着一定的相关性。y3的特征值相对很小,表明x1,x2,x3之间有这样一个线性依赖关系: 0.127x1+0.992x20.002x3c 其中c=0.1271+0.99220.0023为一常数。,三、从相关阵出发求主成分,最常用的标准化变换是令 。 显然, 的协方差矩阵正是x的相关矩阵R。 从R出发求主成分,主成分分析将均等地对待每一个原始变量。 从R出发求得主成分的方法与从出发是完全类似的,并且主成分的一些性质具有更简洁的数学形式。设 为R的p个特征值, 为相应的单位特征向量,且相 互正交,则p个主成分为 。记 ,于是 y*=T*x*,从R出发的主成分性质,(1)E(y*)=0,V(y*)=*,其中 (2) 。 (3)变量 与主成分 之间的相关系数 即有,因此,在解释主成分 时,由相关矩阵R求得的载荷 和相关系数 所起的作用是完全相同的,只需选其一用来作主成分解释即可。 (4)主成分 对变量 的贡献率 (5) 。,例7.2.3 在例7.2.2中,x的相关矩阵 R的特征值及特征向量为 相应的主成分分别为,的贡献率为 和 累计贡献率为 现比较本例中从R出发和例7.2.2中从 出发的主成分计算结果。从R出发的 的贡献率0.705明显小于从出发的y1的贡献率0.938,事实上,原始变量方差之间的差异越大,这一点也就倾向于越明显。 可用标准化前的原变量表达如下:,可见, 在原变量x1,x2,x3上的载荷相对大小与例7.2.2中yi在x1,x2,x3上的载荷相对大小之间有着非常大的差异。这说明,标准化后的结论完全可能会发生很大的变化,因此标准化不是无关紧要的。,§7.3 样本的主成分,我们可以从协差阵或相关阵R出发求得主成分。但在实际问题中,或R一般都是未知的,需要通过样本来进行估计。设数据矩阵为 则样本协差阵和样本相关阵分别为,§7.3 样本的主成分,一、样本主成分的定义 二、从S出发求主成分 三、从 出发求主成分 四、主成分分析的应用 五、若干补充及应用中需注意的问题,一、样本主成分的定义,若向量a1在约束条件 下,使得的样本方差 达到最大,则称线性组合 为第一样本主成分。若向量a2在约束条件 和 的样本协方差,下,使得 的样本方差 达到最大,则称线性组合 为第二样本主成分。一般地,若向量ai 在约束条件 和 的样本协方差,下,使得的样本方差 达到最大,则称线性组合 为第i样本主成分, i=1,2,p 。 需要指出的是,样本主成分是使样本方差而非方差达到最大,是使样本协方差而非协方差为零。,二、从S出发求主成分,用类似于上一节的方法,以S代替即可求得样本主成分。设 为S的特征值, 为相应的单位特征向量,且彼此正交。则第i样本主成分为 ,它具有样本方差 , i=1,2,p,各主成分之间的样本协方差为零。在几何上,p个样本主成分的方向为 所在的方向,且彼此垂直。n个样品点在 上的投影点最为分散,在其余 上投影点的分散程度依次递减。,总样本方差 xi与 的样本相关系数 其中 ,k=1,2,p。,主成分得分,在实际应用中,我们常常让xj 减去 ,使样本数据中心化。这不影响样本协差阵S,在前面的论述中惟一需要变化的是,将第i主成分改写成中心化的形式,即 若将各观测值xj代替上式中的观测值向量x,则第i主成分的值 称之为观测值xj的第i主成分得分。所有观测值的平均主成分得分,三、从 出发求主成分,设样本相关阵 的p个特征值为 , 为相应的正交单位特征向量,则第i样本主成分 其中x*是各分量经(样本)标准化了的向量,即,标准化后的主成分得分,令 这是xj的各分量数据经标准化后的数据向量,将其代替上述样本主成分公式中的x*,即得观测值xj在第i主成分上的得分 所有观测值的平均主成分得分,四、主成分分析的应用,在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。 主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。,如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累计贡献率通常较易得到满足。 主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。 主成分分析是变量降维的一种重要、常用的方法,简单的说,该方法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”。,例7.3.1 在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样六项:身高(x1)、坐高(x2) 、胸围(x3) 、手臂长(x4) 、肋围(x5)和腰围(x6) 。所得样本相关矩阵列于表7.3.1。,表7.3.1 男子身材六项指标的样本相关矩阵,经计算,相关阵 的前三个特征值、相应的特征向量以及贡献率列于表7.3.2。,表7.3.2 的前三个特征值、特征向量以及贡献率,前三个主成分分别为 从表7.3.2中可以看到,前两个主成分的累计贡献率已达78.2,前三个主成分的累计贡献率达85.9,因此可以考虑只取前面两个或三个主成分,它们能够很好地概括原始变量。 第一主成分 对所有(标准化)原始变量都有近似相等的正载荷,故称第一主成分为(身材)大小成分。,第二主成分 在 上有中等程度的正载荷,而在 上有中等程度的负载荷,称第二主成分为形状成分(或胖瘦成分)。 第三主成分 在 上有大的正载荷,在 上有大的负载荷,而在其余变量上的载荷都较小,可称第三主成分为臂长成分。 由于第三主成分的贡献率不高(7.65)且实际意义也不太重要,因此我们一般可考虑取前两个主成分。 由于 非常小,所以存在共线性关系:,例7.3.2 在习题6.5中,如下八项男子径赛运动记录: x1:100米(秒) x5:1500米(分) x2:200米(秒) x6:5000米(分) x3:400米(秒) x7:10000米(分) x4 :800米(秒) x8:马拉松(分),表7.3.3 八项男子径赛运动记录的样本相关矩阵,表7.3.4 的前三个特征值、特征向量以及贡献率,例7.3.3 对例6.3.3中的数据从相关矩阵出发进行主成分分析。经计算,x1,x2, ,x8的样本相关矩阵 列于表7.3.5。 的前三个特征值、特征向量以及贡献率列于表7.3.6。,表7.3.5 消费性支出八个变量的样本相关矩阵,表7.3.6 的前三个特征值、特征向量以及贡献率,表7.3.7 按第一主成分排序的31个地区,表7.3.8 按第二主成分排序的31个地区,五、若干补充及应用中需注意的问题,1.关于时间序列数据 2.主成分用于聚类分析 3.关于不同时期的主成分分析 4.对综合得分方法的质疑,

    注意事项

    本文(第七章主成分分析.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开