主成分分析.ppt
主成分分析,国际商学院 统计与技术经济学系 许晓娟,主要内容,主成分分析的基本思想 主成分分析的基本理论 主成分分析的几何意义 主成分的性质,引言,例子,如何评价一个学生在大学期间的表现 课程考试成绩 社会工作 科研 为了尽可能全面地评价,我们会引入很多变量,目的是通过这些变量将学生的差异显示出来 最终需要提供一种方法能够简单地概括学生的特点和相对排名,例子,常用的方法 加权平均:人为确定权重 可能的问题 变量之间的相关性会影响评价结果,主成分分析法,主成分分析(principal components analysis)也称主分量分析,是由霍特林(Hotelling)于1933年首先提出的。 主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。 通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。 这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。,主成分分析的基本思想,人们为了避免遗漏重要的信息而考虑尽可能多的指标 随着考虑指标的增多增加了问题的复杂性 由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。 希望在定量研究中涉及的变量较少,而得到的信息量又较多。 主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。,既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。,一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系: 每一个主成分都是各原始变量的线性组合; 主成分的数目大大少于原始变量的数目 主成分保留了原始变量绝大多数信息 各主成分之间互不相关,主成分分析的几何意义,主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此,主成分分析在二维空间中有明显的几何意义。假设共有n个样品,每个样品都测量了两个指标(X1, X2),它们大致分布在一个椭圆内如图6.1所示。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系x1Ox2中,单独 看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有 较大的离散性,其离散的程度可以分别用的X1方差和X2的方 差测定。如果仅考虑X1或X2中的任何一个分量,那么包含在 另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。,图6.1 主成分的几何意义,易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它 们为原始变量X1和X2的综合变量,n个点y1在轴上的方差达 到最大,即在此方向上包含了有关n个样品的最大量信息。 因此,欲将二维空间的点投影到某个一维方向上,则选择y1 轴方向能使信息的损失最小。我们称Y1为第一主成分,称Y2 为第二主成分。第一主成分的效果与椭圆的形状有很大的关 系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2 轴上的方差就相对越小,用第一主成分代替所有样品所造成 的信息损失也就越小。,考虑两种极端的情形: 一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50的信息,这显然是不可取的。造成它的原因是,原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含的信息几乎不重迭,因此无法用一个一维的综合变量来代替。 另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成分包含有二维空间点的全部信息,仅用这一个综合变量代替原始数据不会有任何的信息损失,此时的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍弃它当然没有信息损失。,主成分分析的基本理论,主成分的性质,一、主成分的一般性质,二、主成分的方差贡献率,案例分析,学生成绩,分析100个学生数学、物理、化学、语文、历史、英语成绩,原始变量方差提取比例,特征根、方差贡献率和累计贡献率,碎石图,主成分载荷矩阵,载荷图,主成分载荷,