欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第10章典型相关分析.ppt

    • 资源ID:2978826       资源大小:1.70MB        全文页数:117页
    • 资源格式: PPT        下载积分:10
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要10
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第10章典型相关分析.ppt

    第十章,典型相关分析,Canonical Correlation Analysis,1. 两个随机变量Y与X 简单相关系数 2. 一个随机变量Y与一组随机变量X1,X2, Xp 多重相关(复相关系数) 3. 一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp 典型相关系数,何时采用典型相关分析,典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。,典型相关是研究两组变量之间相关性的一种统计分析方法.也是一种降维技术. 由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。,什么是典型相关分析? 典型相关分析是研究两组变量之间相关关系的一种多元统计分析方法它借用主成分分析降维的思想,分别对两组变量提取主成分,且使两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系,典型相关关系研究两组变量之间整体的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量所研究的两组变量可以是一组为自变量,而另一组变量为因变量;两组变量也可以是同等的地位,但典型相关关系要求两组变量都至少是间隔尺度,通常情况下,为了研究两组变量 的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。,在解决实际问题中,这种方法有广泛的应用。如,在工厂里常常要研究产品的q个质量指标 和p个原材料的指标 之间的相关关系;也可以是采用典型相关分析来解决的问题。如果能够采用类似于主成分的思想,分别找出两组变量的线性组合既可以使变量个数简化,又可以达到分析相关性的目的。,例 家庭特征与家庭消费之间的关系,为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:,分析两组变量之间的关系。,变量间的相关系数矩阵,Y2,Y3,Y1,X2,X1,典型相关分析的思想:,首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,,然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。,V2和W2与V1和W1相互独立,但V2和W2相关.如此继续下去,直至进行到 r 步,两组变量的相关性被提取完为止. R min(p,q),可以得到 r 组变量.,典型相关的数学描述,一般地,假设有一组变量X1,Xp与Y1,Yq ,我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述?,当 p=q=1 时,就是研究两个变量 X 与 Y 之间的相关关系.相关系数就是最常见的度量,其定义为,为Y与X1,Xp的全相关系数,全相关系数用于度量一个随机变量Y与一组随机向量X1,Xp的相关关系.,当 p , q 1时, 利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是 求 和 ,使得新的综合变量,和,之间有最大可能的相关,基于这个思想就产生了典型相关分析.,§10.1 总体典型相关,易得出对任意的常数 e , f , c 和 d ,均有,典型相关变量的解法,1. 第一对典型相关变量的求法,令 则 V , W 的相关系数,用拉格朗日乘子法,令,(其中1和2为拉格朗日乘子),为求 的极大值,对上式分别关于 , 求偏导,并令其为零,得,(10.1.1),再分别用 左乘方程(10.1.1),该方程的左端是 的p+q次多项式.求解 的高次方程(10.1.3),把求得的最大的 代回方程组(10.1.2),再求得 和 ,从而得出第一对典型相关变量.,具体计算时,因的高次方程(10.1.3)不易解;将其代入方程组(10.1.2)后还需求解(p+q)阶方程.为了计算上的简便,常作以下变换:,用1222-1左乘方程组(10.1.2)的第二项,将上()式代入方程组(10.1.2)得第一式得:,即,再用11-1左乘上式得:,的特征根是 ,相应的特征向量为,将 左乘(10.1.2)的第一式,并将第二式代入,得,(),再用22-1左乘()式得:,的特征根是 ,相应的特征向量为,故求解方程(10.1.3)等价于求解方程组(10.1.4):,(10.1.4),由于110,220,故 11-1 0 , 22-1 0.,结论: 2既是M1又是M2的特征根,和是相应于M1和M2的特征向量。,至此,典型相关分析转化为求M1和M2特征根和特征向量的问题。,第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。,在剩余的相关中再求出第二对典型变量和他们的典型相关系数.设第二对典型变量为:,求第二对典型相关变量就等价于求2和2,使,2. 典型相关变量的一般求法,例 家庭特征与家庭消费之间的关系,为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:,分析两组变量之间的关系。,变量间的相关系数矩阵,典型变量的性质,1、同一组的典型变量之间互不相关,2、不同组的典型变量之间相关性,3、 Vi , Wi 的均值为0,方差为1.,例 家庭特征与家庭消费之间的关系,为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:,分析两组变量之间的关系。,变量间的相关系数矩阵,两个反映消费的指标与第一对典型变量中V1的相关系数分别为0.9866和0.8872,可以看出V1可以作为消费特性的指标,第一对典型变量中V1与Y2之间的相关系数为0.9822,可见典型变量V1主要代表了了家庭收入, V1和 W1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的;,第二对典型变量中V2与X2的相关系数为0.4614,可以看出V2可以作为文化消费特性的指标,第二对典型变量中W2与Y1和Y3之间的分别相关系数为0.8464和0.3013,可见典型变量W2主要代表了家庭成员的年龄特征和教育程度, V2和 W2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的有关。,求解典型相关系数的步骤,求X,Y 变量组的相关阵R= 求矩阵A、B 可以证明A、B有相同的非零特征根 3. 求A或B的i (相关平方)与Cov(Vi,Wi),i1,m 4. 求A、B关于i的特征根向量即变量系数,典型相关系数计算实例,Cov(X)R11,Cov(Y)R22,Cov(Y,X)R21,Cov(X,Y)R12,1. 求矩阵A、B,A(6×6)矩阵,B(5×5)矩阵,2. 求矩阵A、B的(相关系数的平方),A、B有相同的非零特征值,B矩阵求 (典型相关系数的平方),5个与典型相关系数,3. 求A、B关于i的变量系数 (求解第1典型变量系数),求解第2典型变量系数,求解第5典型变量系数,5组(标准化)典型变量系数(X),5组(标准化)典型变量系数(X),由标准化典型变量系数获得原变量X对应的粗典型变量系数,粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。,5组(标准化)典型变量系数(Y),典型相关系数的特点,两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变 (无论原变量标准化与否,获得的典型相关系数不变). 第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,即R1max(|Cov(Xi,Yj)|) 或 R1max(|Cov(X,Yj)|) , R1max(|Cov(Xi,Y)|),§10.2 样本典型相关系数,在实际应用中,总体的协方差矩阵常常是未知的,类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差或相关系数矩阵进行估计,然后利用估计得到的协方差或相关系数矩阵进行分析.由于估计中抽样误差的存在,所以估计以后还需要进行有关的假设检验.,已知总体 Z 的 n 次观测数据为:,若假定ZNp+q( , ),则协方差阵 的最大似然估计为,显然,Sij(i,j=1,2)是ij的无偏估计.下面我们将从样本协方差阵S出发,来讨论两组变量间的相关关系.,一、样本典型相关变量和典型相关系数,计算 S 的特征根和特征向量,求M1和 M2的特征根 ,对应的特征向量 .则特征向量构成典型变量的系数,特征根为典型变量相关系数的平方,二、典型相关系数的显著性检验,全部总体典型相关系数均为0 部分总体典型相关系数为0,典型相关分析是否恰当,应该取决于两组原变量之间是否相关,如果两组变量之间毫无相关性而言,则不应该作典型相关分析.用样本来估计总体的典型相关系数是否有误,需要进行检验.,(一) 整体检验,所以,两边同时求行列式,有,事实上,由于 所以若M的特征根为 ,则(I-M)的特征根为(1-).根据矩阵行列式与特征根的关系,可得:,在原假设为真的情况下,检验的统计量,近似服从自由度为pq的2分布.在给定的显著性水平下,如果22 (pq),则拒绝原假设,认为至少有一对典型变量之间的相关性显著.,(二)部分总体典型相关系数为零的检验,当否定H0时,表明X,Y相关,进而可得出至少第一个相关系数10,相应的第一对典型相关变量V1,W1可能已经提取了两组变量相关关系的绝大部分信息.两组变量余下的部分可认为不相关,这时k0(k=2,p).因此在否定H0后,有必要再检验H0(k):k=0(k=2,p),即第k个及以后的所有典型相关系数均为0(k=2,3,p).,检验的统计量,近似服从自由度为(p-k+1)(q-k+1)的2分布.在给定的显著性水平下,如果22 (p-k+1)(q-k+1),则拒绝原假设H0(k),即第k个典型相关系数显著的不等于0.否则认为k=0.对H0(k) 从k=2开始逐个检验,知道某个k0,使 相容时为止.这时说明第k0个及以后的所有典型相关系数均为0 .,(三)样本典型变量的得分值,与原变量间的相关程度和典型变量系数有关.,典型变量与原变量的亲疏关系,原变量与自已的典型变量、 原变量与对方的典型变量之 间的相关系数.,1985年中国28 省市城市男生(1922岁)的调查数据。记形态指标:身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,X6;机能指标:脉搏(次/分)、收缩压(mmHg) 、舒张压(变音)、 舒张压(消音)、肺活量(ml)分别为Y1,Y2,Y5。现欲研究这两组变量之间的相关性。,简单相关系数矩阵,原变量在典型变量上的负荷 (即原变量与典型变量间的相关系数),负荷矩阵的表达,左上角的矩阵 X1=0.9050V1-0.0806V2+0.3777V3-0.1487V4+0.0887V5 X2=0.8616V1+0.0112V2+0.4152V3-0.0360V4+0.2412V5 X6,右下角的矩阵 Y1= -0.4130 W1-0.0848W2+0.7353W3+0.4530W4+0.2764W5 Y2=0.4533W1+0.8452W2+0.0968W3+0.1433W4+0.2240W5 Y5,各典型变量的意义解释,等于该变量与自己这方典型变量的相关系数与典型相关系数的乘积,原变量与对方典型变量的相关,原变量与对方典型变量的相关,右上角和左下角反映了原变量和对方的典型变量间关系,为利用对方的典型变量来预测原变量(回归)提供依据,职业满意度典型相关分析,某调查公司从一个大型零售公司随机调查了784人,测量了5个职业特性指标和7个职业满意变量。讨论 两组指标之间是否相联系。 X组: Y组: X1用户反馈 Y1主管满意度 X2任务重要性 Y2事业前景满意度 X3任务多样性 Y3财政满意度 X4任务特殊性 Y4工作强度满意度 X5自主权 Y5公司地位满意度 Y6工作满意度 Y7总体满意度,Canonical Correlation Analysis,X组的典型变量,Y 组的典型变量,原始变量与本组典型变量之间的相关系数,原始变量与对应组典型变量之间的相关系数,可以看出,所有五个表示职业特性的变量与V1有大致相同的相关系数, V1视为形容职业特性的指标。第一对典型变量的第二个成员W1与Y1,Y2,Y5,Y6有较大的相关系数,说明W1主要代表了主管满意度,事业前景满意度,公司地位满意度和工种满意度。而V1和W1之间的相关系数0.5537。,V1和W1解释的本组原始变量的比率: X组的原始变量被V1到V5解释了100% Y组的原始变量被W1到W5解释了80.3% X组的原始变量被V1到V4解释了90.81% Y组的原始变量被W1到W4解释了69.72%,§10.3典型变量的冗余分析 (Canonical Redundancy Analysis),该方法由Stewart and Love 1968; Cooley and Lohnes 1971; van den Wollenberg 1977)发展。 以原变量与典型变量间相关为基础。 通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比,反映由典型变量预测原变量的程度。,X原变量的相关被典型变量解释的百分比,Y原变量的相关被典型变量解释的百分比,V1,V2,V5并没有完全概括 X 变量的全部信息(97.24),而W1,W2,W5 却概括了 Y 变量的全部信息(100); W1,W2,W5中仅蕴含 X 变量信息的48.44%,而V1,V2,V5中仅蕴含 Y 变量信息的43.96%。,实例冗余分析的解释,SPSS进行典型相关分析,无直接菜单点击 可借用Analyze General Linear Model Multivariate 可采用File New Syntax Canonical Correlation.sps(注意修改相应的两组变量的变量名),在SPSS中可以有两种方法来拟合典型相关分析,第一种是采用Manova过程来拟合,第二种是采用专门提供的宏程序来拟合,后者在使用上非常简单,而输出的结果又非常详细,因此这里只对其进行介绍.该程序名为“Canonical correlation.sps”,就放在SPSS的安装路径之中,调用方式如下:,INCLUDE SPSS所在路径Canonical correlation.sps. CANCORR SET1=第一组变量的列表 /SET2=第二组变量的列表.,在程序中首先应当使用INCLUDE命令读入典型相关分析的宏程序,然后使用CANCORR名称调用典型相关分析.注意INCLUDE语句只需运行一次,随后在关闭SPSS前,宏程序会一直驻留内存,以后重复分析时只需要运行CANCORR命令即可.注意最后的“.”表示整个语句结束,不能遗漏.,例题: 课后习题十中的(10-5) ,某学校研究学生的体质与运动能力的关系,对38名学生的体质情况,每人测试了7项指标:X1(反复横荡的次数)、X2(纵跳高度)、X3(背力)、X4(握力)、X5(踏台升降指数)、X6(立姿体前屈)、X7(卧姿上体后仰);对运动能力情况每人测试了5项指标:X8(50米跑)、X9(1000米长跑)、X10(投掷)、X11(悬垂次数)、X12(持久走).试对这两组数据进行典型相关分析.,INCLUDE 'C:program filesspss13Canonical correlation.sps'. CANCORR SET1=X1 to X7 /SET2=X8 to X12.,由体质测试指标的内部相关系数看,各指标间的相关系数较小,即指标间没有多大的重复.如果两个指标的相关系数很大,可能这两个指标反映的是同一个方面,可以考虑合并.,两组变量间的相关系数,运动能力测试指标间的相关系数也比较类似.,体质情况和运动能力之间的相关性系数,从二者的直接相关系数看,X9(1000米长跑)和X2(纵跳高度)之间有关联程度较大,相关系数为0.6111,而其他体质情况指标和运动能力指标间的直接关联似乎不大,更多的可能是综合影响.但是由于变量之间的交互作用,因此这个简单相关系数矩阵只能作为参考,不能真正反映两组变量间的实质联系.,典型相关系数及显著性检验,典型相关系数.第一典型相关系数为0.851,第二典型相关系数为0.720,均比体质指标和运动能力指标两组间的任一个相关系数都大,即综合的典型相关分析效果较好于简单相关分析.,由于此处的典型相关系数都是从样本数据算得的,和简单相关系数一样,这里也有必要进行其总体系数是否为0的假设检验.此处采用的是2检验,零假设为对应的典型相关系数为0.由表知,第一典型相关系数和第二典型相关系数的显著性概率(Sig.)为0.000和0.006,在=0.05的情况下,否定典型相关系数为零的假设,说明这两对典型变量间的相关性是显著的.,从以上的分析结果可知,体质情况测试指标和运动能力测试指标相关性的研究可以转化为研究第一对典型相关变量之间的关系以及第二对典型相关变量之间的关系.,典型变量的系数,此结果为输出的原始变量(Raw Canonical Coefficients)和标准化变量(Standardized Canonical Coefficients)的典型相关变量的换算系数.由于体质和运动能力变量没有相同的量纲,因此最好使用标准化的系数.,来自体质情况的第一典型相关变量为:,来自运动能力的第一典型相关变量为:,在第一对典型变量中,大部分变量的系数都比较均匀,无论是体质指标还是运动能力指标的系数都表明,其测试结果越好,则表明其综合运动能力越强,可以解释为全面能力程度.系数为负的,表明时间越短,则综合运动能力越强.,来自体质情况的第二典型相关变量为:,来自运动能力的第二典型相关变量为:,在第二对典型变量中,在体质指标中,X2(纵跳高度)和X5(踏台升降指数)的系数较大;在运动能力指标中,X8(50米跑)、X9(1000米长跑)和X12(持久走)的系数较大,所以第二对典型变量可以解释为腿部能力的关系,表示跑和跳的能力.,典型结构分析,典型结构分析即分析原始变量和典型变量之间的相关程度.,Canonical Loadings 表示一组原始变量与其相应的典型变量之间的关系,如体质情况的指标原始变量与表示体质的典型变量V 之间的变系.,Cross Loadings 表示一组原始变量与其对立的典型变量之间的关系,如表示运动能力的原始变量与表示体质的典型变量V之间的关系.,Cross Loadings 表示一组原始变量与其对立的典型变量之间的关系,可以用于判断一个原始变量指标是否可以用其对立的典型变量进行预测. 本例中比较有用的是判断表示体质的典型变量V1是否可以预测运动能力的各原始指标X8X12.,第一对典型变量和原始变量的典型结构示意图,典型冗余分析,典型冗余分析用来表示各典型变量对原始变量组整体的变差解释的程度,分为组内变差解释和组间变差解释.以下输出即为典型冗余分析的结果.,体质指标的第一典型变量V1可以解释相应的体质变量组23.7的组内变差,第二典型变量V2可以解释体质变量组15.5的组内变差.,运动指标的第一典型变量W1可以解释对立的体质变量组17.1的组间变差,第二典型变量W2可以解释体质变量组8的变差.,运动指标的第一典型变量W1可以解释相应的运动变量组47.9的组内变差,第二典型变量W2可以解释运动变量组11.2的变差.,体质指标的第一典型变量V1可以解释对立的运动变量组34.6的变差,第二典型变量V2可以解释运动变量组5.8的变差.,现在已经了解了典型相关分析的所有关键输出.最 后,用一个形象的类比加深大家对该方法各种结果的理解.进行典型相关分析好比是研究北京和上海两地在运输交通方面的联系强度,人员、货物种类、邮件等就是研究中的原始变量,每一对典型变量就如同一种运输方式,如第一对代表两地的火车运输,第二对代表两地的航空运输,依次类推.而这些典型变量所求出的典型相关系数则相当于具体运输方式的运力大小.那么运输的是什么呢?人员可能主要通过火车、航空来进行,而货物可能主要通过火车、汽车来进行,这种对具体每一个原始变量是通过那些典型相关系数和对方进行联系的分析就是典型结构分析.最后,通过对研究中包括的各种运输方式的汇总,我们可以发现整个研究框架是否基本包括了两地间的所有运输需求,如果有明显的差异,则有可能还有一些比较重要的运输方式没有被包括,甚至于可能提示两地间存在着非法的地下运输渠道,有必要展开一次大检查,这实际上就是典型冗余分析的贡献.,

    注意事项

    本文(第10章典型相关分析.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开