《典则相关.ppt》由会员分享,可在线阅读,更多相关《典则相关.ppt(53页珍藏版)》请在三一文库上搜索。
1、典则相关分析,由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia,Kent, and Bibby (1979) 推动了它的应用。 一般要求两个变量组之间要有较强的关联性,但组内变量之间的差异应尽可能大。,两个随机变量Y与X:简单相关系数 一个随机变量Y与一组随机变量X1,X2, Xp:多重相关(复相关系数) 一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp:典则相关系数 典则相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典则相关系数的特例。,基本思想,目的:
2、分析一组p个指标和另一组q个指标的相关关系。 考虑每组变量的线性组合,从这两族线性组合中找出最相关的组合变量,通过少数几个综合变量来反映两组变量间的相关关系。,定义,首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。 然后在和最初挑选的这对线性组合不相关的线性组合配对中,选取相关系数最大的一对。 如此继续下去,直到两组变量之间的相关性被提取完毕为此。 被选出的线性组合配对称为典则变量,它们的相关系数称为典则相关系数。典则相关系数度量了这两组变量之间联系的强度。,U1与U2是三个X变项的线性组合。 V1与V2代表两个Y变项的线性组合。,典则相关分析示意图,步骤,求两组
3、变量的相关系数矩阵 求矩阵A和B, A=(R11)-1R12(R22)-1R21 B=(R22)-1R21(R11)-1R12 可证明A和B具有相同的非0特征根 求矩阵A和B的非0特征根i及对应的特征向量,则这些特征向量即所求的典则系数,特征根的平方即为两典则变量的典则相关系数。,典则相关系数的假设检验,典则相关系数的假设检验包括对全部总体典则相关系数的检验和对部分总体典则相关系数的检验。 对数据的要求: 两个变量组均应服从多维正态分布: (X,Y)Np+q(,2) n p + q,H0:CanRi = 0,i = 1,m H1:至少有一个CanRi 0 检验的似然比统计量为 对于充分大的n,
4、当H0成立时,统计量 近似服从自由度为pq的2分布。,(1) 全部总体典则相关系数为0,仅对较小的典则相关作检验: H0:CanRi = 0,i = s,m, 2 s m H1:至少有一个CanRi 0 其检验的统计量为 对于充分大的n,当H0成立时,统计量 近似服从自由度为(p k)(q k)的2分布。,(2) 部分总体典则相关系数为0,典则结构分析,原变量与自已的典则变量的相关系数-为解释典则变量的意义提供依据 原变量与对方的典则变量的相关系数-利用对方的典则变量来预测原变量(回归)提供依据 。,冗余度分析,在进行典则相关分析时,我们也想了解每组变量提取出的典则变量所能解释的样本总方差的比
5、例,从而定量测度典则变量所包含的原始信息量的大小,这就是典则变量的冗余度分析。,SAS中的CANCORR过程,PROC CANCORR CORR RED WITH 变量表 列出被分析的两组变量中的第二组变量,必须为数值型变量。 VAR 变量表 列出被分析的两组变量中的第一组变量,必须为数值型变量。,实例1,康乐俱乐部队20名中年人测量三个生理指标:weight体重,waist腰围,pulse脉搏。以及三个训练指标:chins引体向上,situps仰卧起坐,jumps跳跃次数。请分析这两组变量间的相关性。 表1 康复俱乐部数据,续表1 康复俱乐部数据,程序,data fit; input wei
6、ght waist pulse chins situps jumps; cards; 191 36 50 5 162 60 189 37 52 2 110 60 193 38 58 12 101 101 162 35 62 12 105 37 189 35 46 13 155 58 182 36 56 4 101 42 211 38 56 8 101 38 167 34 60 6 125 40 176 31 74 15 200 40 154 33 56 17 251 250 169 34 50 17 120 38 166 33 52 13 210 115 154 34 64 14 215 10
7、5 247 46 50 1 50 50 193 36 46 6 70 31 202 37 62 12 210 120 176 37 54 4 60 25 157 32 52 11 230 80 156 33 54 15 225 73 138 33 68 2 110 43,proc cancorr data=fit corr red; var weight waist pulse; with chins situps jumps; run;,结果1:原始变量间的关联性分析,结果2:典则相关分析的一般结果,第一典则相关系数,第一对典则变量所能解释的变异占总变异的97.34%,对所有典则相关系数是否
8、为0的检验,结果3:原始数据的典则变量的系数,结果4:标准化的数据的典则变量系数,(1)来自生理指标的第一典则变量V1: V1=-0.7754weight+1.5793waist-0.0591pulse 它近似的是waist和weight的加权差,在waist上的权数更大些,在pulse上系数近似为0。 (2)来自训练指标的第一典则变量W1: W1=-0.3495chins-1.0540situps+0.7164jumps 它在situps上的系数最大。 因此这对典则变量主要反映了腰围和仰卧起坐的相关关系。,结果5:典则结构分析 用于观察典则变量的意义,V1主要反映了体重和腰围。,W1主要反映
9、了引起向上和仰卧起坐。,结果6:典则冗余分析,第一对典则变量解释两组变量组的累积方差比例分别为23.49%和26.02%。因此均不能很好的全面预测对应的那组变量。,结果6:典则冗余分析,来自生理指标的标准方差被对方的第一个典则变量解释的方差比例为0.2854,而来自训练指标的标准方差被对方第一个典则变量解释的方差比例为0.2584,第二和第三典则变量实际上没有附加上多少东西,三个典则变量的累积比例分别为0.2969和0.2767。,结果6:典则冗余分析,由多重相关的平方(各原始变量和配对组的典则变量间的复相关系数(Multiple Correlations)的平方,即原始变量与典则变量的判定系
10、数)看出,生理指标的第一典则变量对chins和situps有一些预测能力,分别为0.3351和0.4233,但对jumps几乎没有预测能力。而来自训练指标的第一典则变量对waist有较好的预测能力(0.5421),而对weight则较差,对pulse则几乎没有预测能力。,作业 1,测量15名受试者的身体形态以及健康情况指标,如表2。第一组是身体形态变量,有年龄、体重、胸围和日抽烟量;第二组是健康状况变量,有脉搏、收缩压和舒张压。要求测量身体形态以及健康状况这两组变量之间的关系。,表2 两组身体素质的典则变量,续表2 两组身体素质的典则变量,作业 2,C.R.Rao(1952)收集了一个经典例子
11、:25个家庭的成年长子和次子的头长和头宽。请利用典则相关分析法分析长子和次子头型的相关性。,表3 长子和次子的头长与头宽,续表3长子和次子的头长与头宽,对应分析,简介,对应分析,又称相应分析,法国数学家JP Beozecri1970年提出,主要用于分析二维列联表中行因素和列因素间的对应关系的低维图形表示法。 对数据的要求非常灵活,只要进入分析的变量没有负数或0即可。,计算步骤,设有一个R*C的列联表X = (xij)nm ,行列分别表示两个不同因素的R个水平和C个水平: 对原始列联表数据进行变换,计算过渡矩阵Z = (zij)nm 其中,Xi.为第i行的合计、X.j为第j列的合计、X为全部数据
12、的合计。,计算步骤,利用变换后的过渡矩阵Z,计算每两行的“相关系数”,可得一个相关系数矩阵A,再计算每两列的“相关系数”得到相关系数矩阵B。 已有证明发现A和B具有相同的非0特征根,但特征向量不同。,计算步骤,基于A作一次因子分析,得到行因素各类别的因子负荷。 基于B作一次因子分析,得到列因素各类别的因子负荷。,计算步骤,由于A和B有相同的特征根,而这些特征根又表示各个公共因子所提供的方差。那么,在列因素的c维空间Rc中的第一公共因子,第二公共因子直到第m个公共因子与行因素的r维空间Rr中相对于的各个主因子在总方差中所占的百分比就完全相同。这样就可以用相同的因子轴同时描述两个因素各个水平的情况
13、,把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上。一般情形,我们取两个公共因子,这样就可以在一张二维平面图上绘出两个因素各个水平的情况,即可以直观地描述两个因素A和因素B以及各个水平之间的相关关系。,行变量的不同类别,如果具有相同特点,那么其在对应图上的分布就会彼此靠近,距离越短说明差别越小,相似程度越明显,列变量不同类别的分布状况也一样。 如果行变量和列变量的某些类别间的关系密切的画,它们在分布图上的分布也会彼此靠近,彼此的距离越近,说明这两个类别的对应关系就越强,反之就越弱。,基本概念,基本概念,2、奇异值(Singular Value) 奇异值代表某一维度行分值与列分值的
14、相关关系,相当于相关分析里的相关系数。行分值指的是行变量每一类别在坐标图上的坐标,列分值亦如此。 分值的大小(在坐标上的距离)受每一类别所占比重(Marginal Profile)的影响,是每一类别到重心点(Centroid)的加权结果,各坐标点之间的距离就是卡方距离。当标准化方式改变时,分值也会随之改变。,使用CORRESP过程实现对应分析,PROC CORRESP : VAR ; TABLES ,; RUN; VAR和TABLES必需选其一,实例,探讨苏格兰北部的5837名小学生眼睛颜色与头发颜色的对应关系。,程序,data a; input eye$ fair red medium da
15、rk black; cards; lighteye 688 118 584 188 4 blueeye 326 38 241 110 3 mediumeye 343 84 909 412 26 darkeye 98 48 403 681 85 proc corresp out=result; var fair red medium dark black; id eye; run; proc plot data=result; where eye ne; plot dim2*dim1=* $ eye/box; run;,结果1:惯量和卡方的分解,第1列为奇异值;第2列为主惯量,用于说明各个维度能
16、够解释列联表中两变量联系的程度。,由于第一个特征值的累积贡献率已达86.52%,因此可以认为只要用一个维度就可以解释行列变量之间所有的关系,但为了说明分析过程,仍然保留两个维度。,结果2:行变量点坐标,Lighteye=0.4408dim1+0.0886dim2 Blueeye=0.4000dim1+0.1649dim2 Mediumey=-0.0339dim1-0.2452dim2 Darkeye=-0.7030dim1+0.1340dim2 在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个变量就是1个点,如Lighteye(浅色眼睛)点的坐标为(0.4408,0.0886)。显然,
17、浅色眼睛、蓝色眼睛两个点在第1象限内;棕色眼睛点在第3象限内、深色眼睛点在第2象限内。,结果2:列变量点的坐标,结果3:行点的概括统计量,Quality反映的是每个变量上两个公因子的贡献率之和。Mass表示原始数据中各列数据之和占总合计的百分比,Inertia表示每个变量对于总的特征根的贡献的百分比。,结果4:列点对惯量的贡献率,此部分为列变量对惯量的贡献率,表示每个列变量对公因子的贡献率,各行数值之和为1。从表中可知,dark和fair对第一因子贡献最大,medium则主要对第二因子作用。,结果5:列点对惯量贡献最大的坐标标号,列点对惯量贡献最大的坐标标号,它把每个列变量的贡献依次用0, 1, 2表示出来。,结果6:列点的余弦的平方,列点的余弦的平方,表示公因子对各列变量的贡献率,各行数值之和为1,结果7:对应分析图(因子载荷图),说明,对应分析的结果输出虽有许多,但最主要的就是看第三部分各个维度以及各个维度解释的百分比(结果1) ,以及行变量和列变量各自的坐标(结果2)和对应分析图(结果7)。,练习,P316 第6题 搜索一篇关于典型相关或对应分析的文献,简要描述文献中的资料为何能够使用该方法,主要包含资料的特点、研究目的和重要结果。,
链接地址:https://www.31doc.com/p-2518339.html