典型相关分析及其应用实例(0617085314).pdf
《典型相关分析及其应用实例(0617085314).pdf》由会员分享,可在线阅读,更多相关《典型相关分析及其应用实例(0617085314).pdf(33页珍藏版)》请在三一文库上搜索。
1、. . 摘 要 典型相关分析是多元统计分析的一个重要研究课题. 它是研究两组变量之间 相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系. 它借助主成分分析降维的思想, 用少数几对综合变量来反映两组变量间的线性相 关性质 .目前它已经在众多领域的相关分析和预测分析中得到广泛应用. 本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型 相关系数,并简要概述了它们的求解思路, 然后深入对样本典型相关分析的几种 算法做了比较全面的论述. 根据典型相关分析的推理,归纳总结了它的一些重要 性质并给出了证明,接着推导了典型相关系数的显著性检验. 最后通过理论与实 例分析两个
2、层面论证了典型相关分析的应用于实际生活中的可行性与优越性. 【关键词】典型相关分析,样本典型相关,性质,实际应用 . . ABSTRACT The Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal t
3、he mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlat
4、ion analysis and forecasted analysis. This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up their solution method briefly. After it I go deep into discuss
5、 some algorithm of the sample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient.
6、According to the analysis from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life. 【Key words】Canonical Correlation Analysis,Sample canonical correlation, Character ,Practical applications . . 目 录 前 言. 1 第 1 章典型相关
7、分析的数学描述 2 第 2 章典型变量与典型相关系数 3 2.1 总体典型相关 3 2.2 样本典型相关 4 2.2.1 第一对典型相关变量的解法. 4 2.2.2 典型相关变量的一般解法 . 8 2.2.3 从相关矩阵出发计算典型相关. 9 第 3 章典型相关变量的性质 . 11 第 4 章典型相关系数的显著性检验. 15 第 5 章典型相关分析的计算步骤及应用实例. 18 5.1 典型相关分析的计算步骤. 18 5.2 实例分析 . 19 结 语 26 致 谢 27 参考文献 . 28 附 录 29 . . 前 言 典型相关分析 (Canonical Correlation Analysi
8、s ,CCA)作为多元统计学的 一个重要部分,是相关分析研究的一个主要内容. 典型相关分析不仅其方法本身 具有重要的理论意义, 而且它还可以作为其他分析方法,如多重回归、 判别分析 和相应分析的工具,因此在多元分析方法中占有特殊的地位. 典型相关的概念是在两个变量相关的基础上发展起来的. 我们知道,两个随 机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机 变量之间的相关关系可以用复相关系数来衡量. 但考虑 一组随机变量与另一组随 机变量的关系时 ,如果运用两个变量的相关关系, 分别考虑第一组每个变量和第 二组中每个变量的相关, 或者运用复相关关系, 考虑一组变量中的每个变
9、量和另 一组变量的相关,这样做比较繁琐,抓不住要领. 因此,为了用比较少的变量来 反映两组变量之间的相关关系, 一种考虑的思路就是类似主成分分析,考虑两组 变量的线性组合, 从这两个线性组合中找出最相关的综合变量,通过少数几个综 合变量来反映两组变量的相关性质,这样便引出了典型相关分析. 典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具 有最大相关性, 然后再在每组变量中找出第二对线性组合,使其分别与第一对线 性组合不相关, 而第二对本身具有最大的相关性,如此继续下去, 直到两组变量 之间的相关性被提取完毕为止. 有了这样线性组合的最大相关,则讨论两组变量 之间的相关, 就转
10、化为只研究这些线性组合的最大相关,从而减少研究变量的个 数. 典型相关分析是由Hotelling于 1936 年提出的 . 就目前而言,它的理论己经 比较完善,计算机的发展解决了典型相关分析在应用中计算方面的困难,成为普 遍应用的进行两组变量之间相关性分析技术. 如在生态环境方面,用典型相关理 论对预报场与因子场进行分析,实现了短期气象预测; 借助典型相关, 分析了植 被与环境的关系; 在社会生活领域, 应用典型相关分析了物价指标和影响物价因 素的相关关系等等 . . . 第 1 章典型相关分析的数学描述 一般地,假设有一组变量 p XXX, 21 与另一组变量 q YYY, 21 ,我们要研
11、 究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述. 当qp1 时,就是我们常见的研究两个变量X 与Y 之间的简单相关关系, 其相关系数是最常见的度量,定义为: )()( ),( YVarXVar YXCov xy 当1p,1q(或1, 1 pq)时, p 维随机向量 21 ),( p XXXX,设 ),( 1p N Y X , 2221 1211 ,其中, 11是第一组变量的协方差阵,12是 第 一 组 与 第 二组 变 量 的 协 方 差 阵 , 22 是 第 二 组变 量 的 协 方 差 阵 . 则 称 22 12 1 1121 R为Y与 p XXX, 21 的全相关系
12、数, 全相关系数用于度量一个随 机变量Y与另一组随机变量 p XXX, 21 的相关系数 . 当1,qp时,利用主成分分析的思想,可以把多个变量与多个变量之间的 相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即 XXXXU pp 2211 YYYYV qq 2211 其中, 21 ),( p 和 21 ),( q 为任意非零向量,于是我们把研 究两组变量之间的问题化为研究两个变量VU与之间的相关问题,希望寻求, 使U ,V 之间最大可能的相关, 我们称这种相关为典型相关, 基于这种原则的 分析方法就是典型相关分析. . . 第 2 章典型变量与典型相关系数 2.1 总体典型相关
13、 设有两组随机变量 21 ),( p XXXX, 21 ),( q YYYY,分别为维维和 qp 随机向量,根据典型相关分析的思想, 我们用 X 和Y 的线性组合X 和Y 之间 的相关性来研究两组随机变量X 和 Y 之间的相关性 . 我们希望找到和,使得 )( YX ,最大.由相关系数的定义 )()( ),( ),( YVarXVar YXCov YX 易得出对任意常数dcfe,,均有 ),()(,)( YXdYcfXe 这说明使得相关系数最大的YX ,并不唯一 .因此,为避免不必要的结果重复, 我们在求综合变量时常常限定 1)( XVar,1)( Y Var 于是,我们就有了下面的定义:设有
14、两组随机变量 21 ),( p XXXX, 21 ),( q YYYY,qp维随机向量 Y X 的均值向量为零,协方差阵0(不 妨设qp). 如果存在 1111 ),( p 和 1111 ),( q ,使得在约束条件 1)( XVar,1)( Y Var下, ),(max),( 1 1 YXYX 则称YX 1 1 ,是YX ,的典型相关变量,它们之间的相关系数称为典型相关系数; 其他典型相关变量定义如下: 定义了前1k对典型相关变量之后, 第k 对典型相 关变量定义为:如果存在 1 ),( pkkk 和 1 ),( qkkk ,使得 YX kk ,和前面的1k对典型相关变量都不相关; . .
15、1)( XVar k ,1)( YVar k ; YX kk 和的相关系数最大, 则称YX kk 和是YX ,的第 k 对(组)典型相关变量,它们之间的相关系数称为 第 k 个典型相关系数(pk,2). 2.2 样本典型相关 以上是根据总体情况已知的情形进行,而实际研究中, 总体均值向量和协 方差阵通常是未知的, 因而无法求得总体的典型相关变量和典型相关系数,首 先需要根据观测到的样本数据阵对进行估计 . 2.2.1 第一对典型相关变量的解法 设总体 11 ),( qp YYXXZ,已知总体的n次观测数据为: 1)( )( )( )( qp t t t Y X Z(nt,2 ,1) , 于是样
16、本数据阵为 )( 2121 2222122221 1121111211 qpn nqnnnpnn qp qp yyyxxx yyyxxx yyyxxx 若假定),( qp NZ则由参考文献【2】中定理 2.5.1 知协方差阵的最大似然 估计为 1 )()( )()( 1 n t tt ZZZZ n 其中 Z = n t t Z n 1 )( 1 ,样本协方差矩阵 S为: 2221 1211 SS SS S 式中 . . n j jj XXXX n S 1 11 )()( 1 1 12 )()( 1 YYXX n S j n j j 21 S n j jj XXYY n 1 )()( 1 1 2
17、2 )()( 1 YYYY n S j n j j n j j X n X 1 1 , n j j Y n Y 1 1 令 jj XU , jj YV ,则样本的相关系数为 n j j n j j j n j j jj VVUU VVUU VUr 1 2 1 2 1 )()( )( )( ),( 又因为:XX n X n U n U n j j n j j n j j 1 1 1 111 YY n Y n V n V n j j n j j n j j 1 1 1 111 12 1 1 )( )( 1 )( )( 1 SYYXX n VVUU n S j n j jj n j jVU jj 1
18、1 1 1 )( )( 1 )( )( 1 SXXXX n UUUU n S j n j jj n j jUU jj 22 1 1 )( )( 1 )( )( 1 SYYYY n VVVV n S j n j jj n j jVV jj 所以 22 11 12 ),( SS S VUr jj 由于 j U, j V乘以任意常数并不改变他们之间的相关系数,即不妨限定取标 准化的 j U与 j V,即限定 j U及 j V的样本方差为 1,故有: . . 1 jjjj VVUU SS(2.2.1 ) 则 12 ),(SVUr jj (2.2.2 ) 于是我们要求的问题就是在(2.2.1 )的约束条
19、件下,求 p R, q R,使得 式(2.2.2 )达到最大 . 这是条件极值的问题,由拉格朗日乘子法,此问题等价于 求,使 ) 1( 2 ) 1( 2 ),( 22 11 12 SSS(2.2.3 ) 达到最大 . 式中,为拉格朗日乘数因子 . 对上式分别关于,求偏导并令 其为 0,得方程组: 0 0 2221 1112 SS SS (2.2.4 ) 分别用 , 左乘方程( 2.2.4 )得 22 21 11 12 SS SS 又 12 )(S 21 S 所以 12 21 )(SS 也就是说,正好等于线性组合U与V 之间的相关系数,于是(2.2.4 )式可写 为: 0 0 2221 1112
20、 SS SS 或0 2221 1211 SS SS (2.2.5 ) 而式( 2.2.5 )有非零解的充要条件是: 0 2221 1211 SS SS (2.2.6 ) 该方程左端是的qp次多项式,因此有qp个根 . 求解的高次方程 . . (2.2.6 ) ,把求得的最大的代回方程组( 2.2.5 ) ,再求得和,从而得出第 一对典型相关变量 . 具体计算时,因的高次方程( 2.2.6 )不易解,将其代入方程组(2.2.5 ) 后还需求解qp阶方程组 . 为了计算上的方便,我们做如下变换: 用 1 2212S S左乘方程组( 2.2.5 )的第二式,则有 1 2212S S 21 S-0 2
21、2 1 2212 SSS 即 1 2212S S 21 S= 12 S 又由( 2.2.5 )的第一式,得 1112 SS 代入上式: 1 2212S S 21 S0 11 2 S (0) 11 2 21 1 2212 SSSS(2.2.7 ) 再用 1 11 S左乘式( 2.2.7 ) ,得 ( 1 11 S 1 2212S S0) 2 21p IS(2.2.8 ) 因此,对 2 有 p个解,设为 22 2 2 1p rrr,对也有 p 个解. 类似地,用 1 1121S S左乘式( 2.2.5 )中的第一式,则有 0 11 1 112112 1 1121 SSSSSS(2.2.9 ) 又由
22、( 2.2.5 )中的第二式,得 2221 SS 代入到( 2.2.8 )式,有 1 1121 (SS 12 S0) 22 2S 再以 1 22 S左乘上式,得 0)( 2 12 1 1121 1 22q ISSSS(2.2.10 ) 因此对 2 有 q个解,对也有 q 个解,因此 2 为 1 11S 1 2212SS21S的特征根,是 对应于 2 的特征向量 . 同时 2 也是 12 1 1121 1 22 SSSS的特征根,为相应特征向量 . . . 而式( 2.2.8 )和(2.2.10 )有非零解的充分必要条件为: 0 0 2 12 1 1121 1 22 2 21 1 2212 1
23、11 q p ISSSS ISSSS (2.2.11 ) 对于(2.2.11 )式的第一式,由于0 11 S,0 22 S,所以0 1 11 S,0 1 22 S,故 有: 21 1 2212 1 11 SSSS 21 21 22 21 2212 21 11 21 11 SSSSSS 而 21 21 22 21 2212 21 11 21 11 SSSSSS与 21 1121 21 22 21 2212 21 11 SSSSSS有相同的特征根 . 如果记 T 21 2212 21 11 SSS 则 21 1121 21 22 21 2212 21 11 SSSSSS= TT 类似的对式( 2.
24、2.11 )的第二式,可得 TTSSSSSS 21 2212 21 11 21 1121 21 22 而 TT与TT 有相同的非零特征根,从而推出(2.2.8 )和( 2.2.10 )的非零特 征根是相同的 . 设已求得 TT的 p 个特征根依次为: 0 22 2 2 1p 则TT 的 q个特征根中,除了上面的p 个外,其余的pq个都为零 . 故 p 个 特征根排列是0 21p ,, 121 0 pp ,因此, 只要取最大的 1,代入方程组( 2.2.5 )即可求得相应的 1,1 . 令 U =X 1 与YV 1 为第一对典型相关变量, 而 1 112 1 ),(SVUr为第一典型 相关系数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 典型 相关 分析 及其 应用 实例 0617085314
链接地址:https://www.31doc.com/p-5601852.html