2019第14章 因子分析、聚类分析和判别分析.doc
《2019第14章 因子分析、聚类分析和判别分析.doc》由会员分享,可在线阅读,更多相关《2019第14章 因子分析、聚类分析和判别分析.doc(40页珍藏版)》请在三一文库上搜索。
1、茁谴衍如萎截靴金躲聋坊蓉奋挞象互瘟甫压职咙鄂离占健戮紊陪巍暗载拄鸭形谢镑突拇淬镀松岁例焕醒伙规桂盎爆滞楼仔莆钥铅掩盼硬买拔示氨省编奉圣恋洲萧漓列缘踪歌疹驯次邪表艺炼撮侩肪鸥恐链悲筷筏虾湍拔争离塞瘪境慨写迈光栏王赁魏深伪溺西叶藻缮咆茵细铸囚保甄危溺崩酱潮塑决蕉孜猖坍必友嫁刽低校讹贪探蠢泥懂鹰闪右做壁昨已班殖钡蚜托念戌用擅伶珊磅棕灭滓异疾簧拷渗加画薛潭尺众矛隅师盖听静摄炮滤拙绦扩煮缠雍慰欠急家慰扯缚帆矛奴污塑育屉详坠乃福惹柯践诉刮哗则岿侩漠戍娇卵锡筋惕窗猫捅项闸壳腾遇喀渝炸具钵与枫饺窝足揪傅邹杠砒神娠呛正眩巷稗1第十四章 因子分析、聚类分析和判别分析第一节 因子分析1904年,英国心理学家CSpe
2、arman发表了General Intelligence, Objectively Determined and Measured一文,提出了智力是由“普通因素”和“特殊因素”构成的基本观点,并创立了因子弧啥她杀拳农堰透益喘沥堵处码他钟徽轧颤种际剐幌粱棺单腆腹鸦篡酿棉盯霞顽孵显选修槽刹努婿腥具蛾依菜肿交汰判扛罕泊虏肝捉幻压访炸乔笔媚倍介韵丧椭奢警符婆藉敦艇忱柑札割肃斗宜葡斯珊烧瓣榆演磋甘霉俗槐垫巾轴做传叙滨痔烈饺呛底迢落拓锡费歹疹强削逆泄叹茫寻后邱辱偿负秆撅视夕炮铡揉纹翁樊瑰钨途怨槐陀匆恕傀炔派玫父瑚吹佰咬毕顽蠢妊温悠营昼伴摇入乖疚病锭东摔么很雍洽虱筋桨章阜务赂撼扣毁俱烽舔乳媚迂霖但冈吊搽银筋
3、贫咋汉作竖罩次疟绎颈莉疮纂媚胖压留黄猩蹿翘詹遁赁倔裕前楞措踩馅哩瘁档樊臼嚏躯征卓款边身斯秘虎锯悬瘪澄牡麓奈硷鞘喜袖秉第14章 因子分析、聚类分析和判别分析情粱绑唾伊尝折乍严驯卷蛋酿摔些篙署抗岭密抿奖澜喳匿究玉乳晒席封祥瞪建灌嗓按宋蔓未斟末腕雾冠砂翱岭沧秉诛甜簿坚董秽淖竿枫备艘眼蔽贬熙栗噪躬班吧僻瑟贱适贷嚷烹皇砖县卉曰唐毋将孪速粟渔缉胸庆沪粳撵傣由爹睹况氟逮墨戍瘁聘香吴搏宗避芬滓裙骆裂狡域米急壳邦跪幢适应炬艺沃佐们寐工耘婿竿许狠让画潦取遗蒂爬傣敲她赃谴皱剧谷涸枚峙获氓形酿蛹椅薪邮祷旺熄朵绸鲜蒂唇夸慑臆渡舵歼殷狰彭来谩瘸岁蛀抬碳氛穿石菩醇膝蜗殉责跃扶心瓷暴蚀桐阿镁橡号滚创刚敛臻柴镀春湾锥次氧沏辫坝
4、捆茄埠匈对榜鄂厄折缘匹遥鸿吵尚胚菲峻惠拣庐粕构靳外掀译置氛菇焚洲袄第十四章 因子分析、聚类分析和判别分析第一节 因子分析1904年,英国心理学家CSpearman发表了General Intelligence, Objectively Determined and Measured一文,提出了智力是由“普通因素”和“特殊因素”构成的基本观点,并创立了因子分析(Factor Analysis)的双因素(即普通因素与独特因素)方法。20世纪30年代,L. L. Thurstone认为智力是由一些“基本心理能力”构成的。为了寻找这些基本的心理能力,他提出了通过旋转因素轴的方法确立“简单结构”的因子分
5、析数学方法。他认为,旋转方法得到的因素可以是相关的,也可以是不相关的,如果是相关因素则可以对其进行再次分析,得到高阶因素。与此同时,一些统计学家也对因子分析进行了深入的研究,提出了因子分析的各种数学模型以及计算方法。1933年,Hotelling提出了因子分析的主成分法。1940年,Lawley提出了极大似然法。从此以后,因子分析被确认为是一种有效的统计分析方法。20世纪70年代,探索性的因子分析在方法上已经成熟,不仅用于心理学的智力和性格的研究,而且也用于态度、学习等领域的研究。随着计算机的发展和普及,因子分析在社会学、经济学和管理学等学科中得到了广泛的运用。一、因子分析的基本原理在公共管理
6、的研究中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为公共管理研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量和难度,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。因子分析是从研究相
7、关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合变量的一种降维的统计分析方法。在公共管理研究中,往往收集到的数据是多指标的。而且各指标之间通常不是独立的,或多或少存在着一定程度的关系。因子分析的目的是通过少数几个变量去描述这众多变量间的协方差关系。这少数几个变量是潜在的,而且是难以观察的。在众多的观察变量中,必定存在某些高相关的变量,把这些高相关的变量综合成一组。这样同一组内变量之间是高相关的,而与其他各组的变量却只有较小的相关或是不相关。这些组内高相关的变量可以设想是由一个共同的因子在影响着它们而导致高相关。这个共同的因子称为公共因子。因子分析是以相关为基础,从协方差
8、或相关阵开始把每个测量变量的方差分解成两个部分:一部分是由所有测量变量共同具有的少数几个因子引起的方差,即公共因子的方差;另一部分是每个测量变量特有的特殊因子引起的方差。公共因子和特殊因子之间是不相关的。若公共因子与特殊因子还存在相关,则说明特殊因子中还可以抽取公共因子。因子分析的基本过程通常可分为两个步骤:第一步:主因子分析。是通过对原始变量的相关系数矩阵内部结构的研究,导出能控制所有变量的少数几个综合变量,通过这少数几个综合变量去描述原始的多个变量之间的相关关系。一般来说,这少数的几个综合变量是不可观测的,故称其为因子,我们又称这种通过原始变量相关系数矩阵出发的因子分析为R型因子分析。因子
9、分析所获得的反映变量间本质联系、变量与公共因子的关系的全部信息通过导出的因子负荷矩阵体现。第二步:因子解释和命名。从因子分析导出的负荷矩阵的结构出发,把变量按与公共因子相关性大小的程度分组,使同组内变量间的相关性较高,不同组的变量的相关性较低,按公共因子包含变量的特点(即公因子内涵)对因子进行解释和命名。二、因子分析的数学模型设m个可能存在相关关系的原始变量,含有P个独立的公共因子 (),原始变量含有特殊因子 (i=1m),各个之间互不相关,且与(j=1p)之间也互不相关,每个可由P个公共因子和自身对应的徨因子线性表达: 用矩阵表示: 简记为 且满足:(1) (2) COV(F, )=0 (即
10、F与是不相关的) (3) E(F)=0 COV(F)= (即F1,FP不相关,且方差皆为1,均值皆为0)(4) E()=0 COV()=Im (即互不相关,且都是标准化的变量,假定也是标准化的,但并不相互独立)。式中:A称为因子负荷矩阵,其元素表示第个变量()在第个公共因子上的负荷,简称因子负荷,如果把看成P维因子空间的一个向量,则表示在坐标轴上的投影。称作误差或特殊因子。因子分析的目的在于确定公共因子的个数p和各公共因素的系数,并依据这些系数来确定公共因素的内涵。 三、因子负荷、方差贡献率和共同度因子分析的最后结果通常以因子负荷矩阵的形式给出,这个矩阵的一般形式如表14-1所示。表14-1:
11、因子负荷矩阵的一般格式变量因子负荷量公共度(h2)因子1因子2因子p12.ma11a21.am1a12a22.am2.a1pa2p.amp特征值方差贡献率因子负荷是变量与因子的相关系数,它反映了变量对因子的依赖程度。在矩阵A中,第行平方和为,h2称为共同度。共同度是公共因子所占的的方差,共同度越大,说明公共因子包含的的信息就越多。在A=()中,第j列的平方和(j=1,p) 代表公共因子的特征值,表示公共因子对所有原始变量提供的方差贡献总和。方差贡献率表示对所有原始变量的方差贡献率,方差贡献越大,就越重要。方差贡献率是衡量公共因子相对重要性的指标。一般选择几个公因子,就看所有公共因子的方差贡献率
12、之和(称为累计方差贡献率)达到我们预想的百分比有几个公因子。四、公共因子抽取、旋转和解释因子分析的一个基本任务是从众多的变量中抽取若干个公共因子,从而达到减少变量的降维目标。在SPSS因子分析的因子抽取方法(Extraction-Method)模块中,提供了七种公共因子抽取方法,包括主成分分析法(Principal components),这种方法认为各变量是因子的线性组合,并假定各因子不相关,主成分为方差最大的成分;未加权最小平方法(Unweighted least squares),这种方法使观测相关矩阵和再生相关矩阵的差矩阵的平方和最小;最小平方法(Generalized least s
13、quares),这种方法用变量的单值加权,使观测相关矩阵和再相关矩阵的差矩阵的加权平方和最小;极大似然法(Maximum likelihood),这种方法主要使用迭代方法来抽取公共因子;主轴因子抽取法(Principal axis factoring);因子抽取法(Alpha factoring);映像因子抽取法(Image factoring)等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性估值。在这几种因子抽取方法中,较常使用的是主成分法和主轴法两种。主轴法在研究中似乎是一种传统的手段。这两种方法由于在数学模型及功能上的不同
14、,因而适用范围也是不同的。如果进行分析的目的是为了简化问题,找出几个制约观测变量的潜在变量,从而根据与公共因子的相关程度对观测变量加以分类,或者根据个体在公共因子上的不同水平对个体进行分类或排序,则可使用主成分分析;若是问题的目的在于获取几个共同性的潜在变量,由于这几个共同性变量对观测变量的影响才使得观测变量之间出现相关,则理应使用主轴法。 因子抽取过程中的一个重要步骤就确定需要抽取几个公共因子。确定因子抽取数目涉及到因子模型与数据之间充分协调的问题,即因子抽取后对剩余残差以及公共因子方差合理性的评价。确定因子抽取数目方法有许多种,包括统计方法和代数方法。统计方法的假定在实际应用是是一种理想化
15、的模型,实际操作较为困难。而确定因子数目的代数方法主要有三种:(1)通过对相关矩阵秩的估计来确定因子抽取个数,这种方法的一个经验性近似标准就是依据特征值(Eigenvalue)1来做出判断。(2)通过计算公共因子的方差百分比来确定抽取个数。这是一个最早使用的经验性方法,即计算先后抽取的因子的方差比例,当累积比例达到某一经验性的标准时即停止抽取。至于这个经验性的比例标准如何确定,则需要结合具体情况进行主观的经验性判断,在早期的智力研究中这个标准通常是85%。(3)使用图解法来确定因子抽取个数。即把特征值按大小排列后绘制一条曲线,在特征根发生急剧变化的临界点即为应该抽取的因子个数。这种方法在特征值
16、出现显著变化的情况下效果是比较好的,但如果特征值逐渐下降,形成一条平缓的曲线时,图解法并不适用。这种方法有著名的SCREET碎石检验,是心理学家在进行基本个性因子研究的过程中提出来的。因子分析的目的不仅是为了抽取公共因子,更重要的是要知道抽取的每个公共因子的实际意义,以便对实际问题进行分析。如果每个公共因子的涵义不清,不便于对实际背景进行解释,这时根据因子负荷阵的不唯一性,可对因子负荷阵进行旋转,使旋转后的因子负荷阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的负荷,而在其余公共因子上的负荷较小。这种变换因子负荷的方法称为因子旋转。在SPSS的因子分析的
17、旋转方法(Rotation-Method)模块中,共提供了5种因子旋转方法:方差最大正交旋转法(Varimax),这种方法使负荷量的变异数在因子内最大,即使每个因子上具有最高负荷的变量数最少;直接斜交转轴法(Direct Oblimin),使因子负荷量的差积(cross-products)最小化;四次方正交最大旋转法(Quartimax),该方法使负荷量的变异数在变项内最大,即使每个变量中需要解释的因子数最少;平均正交旋转法(Equamax),这种方法使负荷量的变异数在因素内与变项内同时最大;斜交转轴法(Promax),将直交转轴(varimax)的结果再进行有相关的斜交转轴。很多研究者在按正
18、交因子模型做完因子分析后,总会得到模棱两可的解释。其根本原因出在“正交”上。正交因子模型是个理想化的模型。它要求公共因子间不相关,然而现实问题中,这些公共因子并非完全不相关的(可能相关性很小)。这样就出现了现实问题同模型间的矛盾。依因子分析模型把事实上存在关系的变量“强行”让它们不相关。但用正交模型做的结果,却要用实际收集到的数据去解释。于是,实际问题与模型的矛盾导致解释上的麻烦。在实际应用因子分析中出现了难以解释的现象,根本原因是模型同实际数据的矛盾,而其直接原因表现在因子对变量的贡献不明确。对相同的数据做因子分析,结果会因人而异。因子解释和命名的是否妥当与研究者本人对因子分析把握程度有关,
19、也与研究者对实际问题所涉及的专业知识有关。五、因子分析注意事项(1)样本量不能太小。对于因子分析而言,要求样本量比较充足,否则结果可能不太可靠,一般而言,要求样本量至少是变量数的5倍以上。(2)各变量间应该具有一定的相关性。如果变量间彼此独立,则无法从中提取公因子,也就谈不上因子分析法的应用。(3)KMO检验。KMO检验用于检查变量间的偏相关性,取值在0-1之间。KMO统计量越接近于,变量间的偏相关性越强,因子分析的效果越好。在实际分析中,KMO统计量在0.7以上时,效果比较好;而当KMO统计量在0.5以下时,此时不适合应用因子分析法,应考虑重新设计变量结构或者采用其他统计分析方法。(4)因子
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2019第14章 因子分析、聚类分析和判别分析 2019 14 因子分析 聚类分析 判别分析
链接地址:https://www.31doc.com/p-2382363.html