《数学建模主成分分析.ppt》由会员分享,可在线阅读,更多相关《数学建模主成分分析.ppt(76页珍藏版)》请在三一文库上搜索。
1、主成分分析,Principal component analysis,主成分分析的基本思想 主成分数学模型与几何解释 主成分的推导 主成分分析的应用 主成分回归,主成分分析,是一种通过降维来简化数据结构的方法: 把多个变量化为少数几个综合变量(综合指标) , 而这几个综合变量可以反映原来多个变量的大部分信息,(85%以上),所含的信息又互不重叠,即各个指标它们之间要相互独立,互不相关。 主成分分析主要起着降维和简化数据结构的作用。 这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量,只是几个指标的综合。,1 基本思想,例:小学各科成绩的评估可以用下面的综合成绩来体现: a1语文a
2、2数学a3自然a4社会科学 确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量主成分,主成分分析法是一种常用的基于变量协方差矩阵 对信息进行处理、压缩和抽提的有效方法。,为什么要根据方差确定主成分?,情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息,对主成分的要求,上例可见,用总分 有时可以反映原分数表的情况,保留原有信息; 有时则把信息丢尽,不能反映原理的情况和差异。 根据总分所对应的方差可以确定其代表了多大 比例的原始数据(分数)信息。 一般来说,我们希望能用一个或少数几
3、个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。,2 数学模型与几何解释,假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为 X1,X2,Xp, 主成分分析就是要把这p个指标的问题,转变为讨论 m 个新的指标 F1,F2,Fm (mp), 按照保留主要信息量的原则充分反映原指标的信息,并且新的指标之间相互独立、互不相关。,假设有n个样品,每个样品有两个观测变量x l和x 2,在由变量x l和x 2所确定的二维平面中,n个样本点所散布的情况如椭圆状。如图所示:,一、几何解释,平移、旋转坐标轴,由图可以看出这
4、n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。 如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。,Fl轴方向上的离散程度最大,即Fl的方差最大。说明变量Fl代表了原始数据的绝大部分信息,即使不考虑变量F2也无损大局。,根据旋转变换的公式:,其中,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,
5、二、数学模型,这就是正交旋转变换矩阵,满足如下的条件:,主成分之间相互独立,即无重叠的信息。即,主成分的方差依次递减,重要性依次递减,即,每个主成分的系数平方和为1。即,假设p个原始变量的协方差阵为:,这是个什么矩阵?,对角线外的元素不为0意味着什么?,对角线外的元素不全为0,意味着原始变量 x1,x2, ,xp存在相关关系。 如何运用主成分分析将这些具有相关关系的变量转化为没有相关关系的新变量(主成分)呢? 新变量之间没有相关关系,则意味着它的方差协方差阵为对角矩阵:,如何将 x 转化为并计算出新变量(主成分)?,因为x 为正定对称矩阵,依据线性代数的知识可知有正交矩阵 A 将x 旋转变换为
6、:,为协方差阵x的特征根 A为协方差阵x的特征根所对应的特征向量。,如何计算x的特征根和特征向量A?,x的特征根 1, 2, p 分别代表主成分F1, F2, FP的方差; 且1 2 p 正交变换矩阵A是 原始变量协方差阵x的特征根对应的特征向量,且满足 AA=1.,3主成分的推导,(一) 第一主成分,寻找合适的单位向量 ,使F1的方差最大。,表明: 应为 的特征值,而 为与 对应的单位特征向量。,而且,可见 应取 的最大特征根。,如果第一主成分的信息不够,则需要寻找第二主成分。,(二) 第二主成分,寻找合适的单位向量 ,使F2的方差最大。,用 左乘上式,,0,0,因而,表明: 应为 的特征值
7、,而 为与 对应的单位特征向量。,而且,这时 能再取 了,应取 。,结论:X的协方差矩阵S 的最大特征根 所对应的单位特征向量 即为 并且 就是F1的方差。,X的协方差矩阵S 的第二大特征根 所对应的单位特征向量 即为 。并且 就是F2的方差。,4 确定主成分个数 (1)根据累积贡献率 当 大于某个阈值时(85%以上),可认为主成分数目为m。 (2)根据其它准则 * 特征值大于1.0的因子数定为主成分数。 * (公共因子碎石图)利用特征值与因子数目的曲线,到某一因子数后,特征值减小幅度变化不大,此转折点的因子数即为主成分数m。,例1 下面是8 个学生两门课程的成绩表,对此进行主成分分析。,1.
8、 求样本均值和样本协方差矩阵,2. 求解特征方程 0,解得:,3.求特征值所对应的单位特征向量,解得:,4. 得到主成分的表达式,5.主成分的含义,通过分析主成分的表达式中原变量前的系数来解释各主成分的含义。,第一主成分F1是 和 的加权和,表示该生成绩的好坏。,第二主成分F2表示学生两科成绩的均衡性,6. 比较主成分重要性,第一主成分F1的方差为,第二主成分F2的方差为,方差贡献率,方差贡献率为,主成分F1和F2的方差总和为,总方差保持不变,的数据。,对此进行主成分分析。,1. 求样本均值和样本协方差矩阵,2. 求解协方差矩阵的特征方程,3.解得三个特征值,和对应的单位特征向量:,4. 由此
9、我们可以写出三个主成分的表达式:,5. 主成分的含义,F1表示学生身材大小。,F2反映学生的体形特征,三个主成分的方差贡献率分别为:,前两个主成分的累积方差贡献率为:,二、主成分分析的计算步骤,(一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为,(1),(2),(二)计算特征值与特征向量 解特征方程 ,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ;, 分别求出对应于特征值 的特征向量 ,要求 =1,即 ,其中 表示向量 的第j个分量。, 计算主成分贡献率及累计贡献率 贡献率,累计贡献率,一般取累计贡献率达85%95
10、%的特征值 所对应的第1、第2、第m(mp)个主成分。, 计算主成分载荷 计算各主成分得分,(4),计算所选出的k个主成分的得分。将原始数据的中心化值: 代入前k个主成分的表达式,分别计算出各样本k个主成分的得分。,例3 对88个学生5 门不同课程的考试成绩进行分析,要求用合适的方法对这5 门课程成绩进行平均,以对88个学生的成绩进行评比。这5门课程是:Mechanics Vectors (闭),Algebra Analysis Statistics (开)。,经计算,得到5个主成分的表达式如下:,这5个主成分的方差分别为679.2,199.8,102.6, 83.7和31.8。前两个主成分各
11、自的贡献率和累积贡献率为,5 用主成分图解样品和变量,主成分分析后,若能以两个主成分代表原变量大部分的信息,则我们可以在平面上分析每一个样品点。步骤如下: 1、对每个样品分别求第一主成分F1和第二主成分F2的得分。 2、建立以F1和F2 为轴的直角坐标系。以 F1为横坐标, F2为纵坐标,在坐标系中描出各个样品点(画散点图)。 3、解释坐标系的各个象限。,一、图解样品(对样品分类),二、图解变量(对变量分类),主成分分析后,若能以两个主成分代表原变量大部分的信息,则对应每个原变量 ,只剩下 和 。 以 为横轴, 为纵轴,建立直角坐标系。然后以为 横坐标,以 为纵坐标,在坐标系中描出各变量对应的
12、点。,6 主成分分析用于系统评估,通过主成分分析得到综合指标 利用 F1作为评估指标,根据F1得分对样本点进行 排序比较。但有两个前提条件: 1. F1与全体原变量都正相关, 即 (i=1,2,p)。 2. 各 (i=1,2,p)在数值上的分布较为均匀。,反映地区社会经济发展的指标体系 X1:国内生产总值(GDP) X2:人均GDP X3:第三产业产值占GDP比重 X4:人均出口额 X5:工业企业劳动生产率 X6:人均社会消费品零售额 X7:每万人拥有卫生技术人员数 X8:每万人高等学校在校生数 X9:教育经费投入占GDP比重 X10:人均货运总量 X11:人均邮电业务总量 X12:每万人电话
13、机装机数 X13:人均固定资产投资 X14:人均实际利用外资 X15:地方财政收入占GDP比重 X16:每万人科研机构数 X17:科研经费占GDP比重,对全国31个地区上述17项指标的数据进行主成分分析,,1、 求相关系数矩阵R 2、 计算R的特征值,3、 求特征根所对应的单位特征向量,0.513225 0.203116 -0.182858 0.193618 0.217290 0.113642 -0.164527 -0.114637 -0.509240 -0.025832 0.083471 0.132592 0.105402 0.199407 -0.181330 -0.261367 -0.29
14、5756,0.038466 0.276020 0.243654 0.263487 0.180546 0.290834 0.259842 0.280523 0.094233 0.215946 0.292016 0.288268 0.282016 0.259006 0.216793 0.259962 0.212293,X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17,Y2,Y1,特征向量,4、主成分的表达式及其含义解释 5、计算主成分得分,主成分回归,居民消费水平指常住住户对货物和服务的全部最终消费支出,居民消费除了直接以货币形式
15、购买货物和服务的消费之外,还包括以其他方式获得的货币和服务的消费支出。 居民消费水平受许多因素的影响,主要有居民收入、消费观念、消费环境、国家政策等等。由于资料的可得性和代表性,选择以下变量。,一、提出问题,居民消费水平的多因素分析,:金融机构个人人民币储蓄存款一年期存款利率(%),数据见sasuser.vregex01,影响人们外出旅游的因素有居民收入、交通、闲暇时间、旅游目的地治安状况、旅游目的地的环境卫生以及接待能力等等。,由于资料的可得性和代表性,选择以下变量。,数据见sasuser.tourmx,例2 国内旅游人数模型,二、主成分回归方法,主成分回归:,由主成分分析法构造回归模型。即
16、把各主成分作为新自变量代替原来自变量x做回归分析。,1、经济分析数据 X1 :GDP X2 :积累总额 X3:消费总额 Y:进口总额 求进口总额与GDP、积累总额和消费总额之间的回归方程。,三、主成分回归的实例,数据见sasuser.vregl01,Parameter Estimates,Summary of Fit,Eigenvectors,Eigenvalues of the Correlation Matrix,F1=0.7063x1+0.0435x2+0.7065x3,F2=-0.0357x1+0.9990x2-0.0258x3,Obs x1 x2 x3 y* F1 F2 F3 1 -
17、1.50972 0.54571 -1.53319 -1.31852 -2.12589 0.63866 0.020722 2 -1.11305 0.48507 -1.20848 -1.20848 -1.61893 0.55554 0.071113 3 -0.76971 -0.12127 -0.80140 -0.63625 -1.11517 -0.07298 0.021730 4 -0.63637 -0.12127 -0.62209 -0.61424 -0.89430 -0.08237 -0.010813 5 -0.45970 -1.33395 -0.37008 -0.68027 -0.64421
18、 -1.30669 -0.072582 6 -0.12970 -0.66697 -0.09869 -0.32813 -0.19035 -0.65915 -0.026553 7 0.25031 -0.72761 0.30355 0.17807 0.35962 -0.74367 -0.042781 8 0.59365 1.39458 0.69610 1.01440 0.97180 1.35406 -0.062863 9 1.05032 1.03078 1.09350 1.36654 1.55932 0.96405 -0.023574 10 1.24366 1.09141 1.19042 1.256
19、49 1.76700 1.01522 0.044988 11 1.48033 -1.57648 1.35035 0.97038 1.93110 -1.66266 0.080613,Analysis of Variance,Parameter Estimates,标准化后的变量,把标准化变量还原,代入得:,影响人们外出旅游的因素有居民收入、交通、闲暇时间、旅游目的地治安状况、旅游目的地的环境卫生以及接待能力等等。,由于资料的可得性和代表性,选择以下变量。,数据见sasuser.tourmx,例2 国内旅游人数模型,Parameter Estimates,Summary of Fit,Eigenv
20、ectors,Eigenvalues of the Correlation Matrix,F1=0.5810x1+0.5918x2+0.5588x3,F2=-0.5167x1-0.2623x2+0.8150x3,Analysis of Variance,Parameter Estimates,标准化后的变量,把标准化变量还原,代入得:,主成分的改进,1、无量纲化的改进,从标准化的数据提取的主成分,实际上只包含了各指标间相互影响这一部分信息,不能准确反映原始数据所包含的全部信息。,改进原始数据的无量纲化方法,均值化方法,均值化后,数据的协方差矩阵S 中的元素,均值化后,数据的协方差矩阵,对角线上
21、是原变量标准差系数的平方,其他位置上是变量两两之间的相互关系。,均值化处理后的协方差矩阵不仅消除了指标量纲与数量级的影响,还能包含原始数据的全部信息。,2、广义主成分分析 非线性主成分,有许多实际问题,其观测数据阵并非线性结构,而呈现非线性结构。对于非线性结构的观测阵,应根据指标变量的具体的非线性结构,选用适当的曲面作坐标平面。采用原指标的非线性函数构造综合指标。,由Grandesikan(1966)和Wilkinson(1968)提出。,他们提议用原变量 的广义线性式,其中,为X的已知函数形式,对于给定的观测数据阵,若采用线性主成分分析效果很差(S或R的特征值取值分散,指标压缩很少或分析结果严重违反客观实际),可采用非线性主成分分析。,计算Y的观测数据阵 .,根据已给定的函数关系式,对Y求线性主成分,求得 k 个线性主成分,广义主成分分析的关键在于确定非线性函数,成分向量的广义主成分分析,设随机向量 满足下列条件:,从而每一分量可视为某一成分的含量,则称X为 成分向量。,“对数-线性比”主成分,Aitchison教授(1981年)提出用“对数-比”变换,为成分向量X的任一恒正函数。,一般可取,相应的Y的观测数据阵为,称之为“对数-中心化”变换,
链接地址:https://www.31doc.com/p-3183635.html