欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第八部分因子分析.ppt

    • 资源ID:3167600       资源大小:762.32KB        全文页数:56页
    • 资源格式: PPT        下载积分:8
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要8
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第八部分因子分析.ppt

    第八章 因子分析 v§8.1 引言 v§8.2 正交因子模型 v§8.3 参数估计 v§8.4 因子旋转 v§8.5 因子得分 1 §8.1 引言 v(本身作为目的的)主成分分析的成功需满足如下两 点: (1)前(少数)几个主成分具有较高的累计贡献率; (通常较易得到满足) (2)对主成分给出符合实际背景和意义的解释 。 (往往正是主成分分析的困难之处) v因子分析的目的和用途与主成分分析类似,它也是一 种降维方法。由于因子往往比主成分更易得到解释, 故因子分析比主成分分析更容易成功,从而有更广泛 的应用。 2 v因子分析起源于20世纪初,K.皮尔逊(Pearson)和C. 斯皮尔曼(Spearman)等学者为定义和测定智力所作 的努力,主要是由对心理测量学有兴趣的科学家们 培育和发展了因子分析。 v因子分析与主成分分析主要有如下一些区别: Ø(1)主成分分析涉及的只是一般的变量变换,它不能 作为一个模型来描述,本质上几乎不需要任何假定 ;而因子分析需要构造一个因子模型,并伴有几个 关键性的假定。 Ø(2)主成分是原始变量的线性组合;而在因子分析中 ,原始变量是因子的线性组合,但因子却一般不能 表示为原始变量的线性组合。 3 4 Ø(3)在主成分分析中,强调的是用少数几个主成分解 释总方差;而在因子分析中,强调的是用少数几个 因子去描述协方差或相关关系。 Ø(4)主成分的解是惟一的(除非含有相同的特征值或 特征向量为相反符号);而因子的解可以有很多, 表现得较为灵活(主要体现在因子旋转上),这种 灵活性使得变量在降维之后更易得到解释,这是因 子分析比主成分分析有更广泛应用的一个重要原因 。 Ø(5)主成分不会因其提取个数的改变而变化,但因子 往往会随模型中因子个数的不同而变化。 5 v例8.1.1 林登(Linden)根据他收集的来自139名运动员的比赛 数据,对第二次世界大战以来奥林匹克十项全能比赛的得分 作了因子分析研究。这十个全能项目是: x1:100米跑 x6:11米跨栏 x2:跳远 x7:铁饼 x3:铅球 x8:撑杆跳高 x4:跳高 x9:标枪 x5:400米跑 x10:1500米跑 Ø经标准化后所作的因子分析表明,十项得分基本上可归结于 他们的爆发性臂力强度、短跑速度、爆发性腿部强度和跑的 耐力这四个方面,每一方面都称为一个因子。十项得分与这 四个因子之间的关系可以描述为如下的因子模型: xi=i+ai1f1+ai2f2+ai3f3+ai4f4+i, i=1,2,10 其中f1, f2, f3, f4表示四个因子,称为公共因子(common factor), 6 aij称为xi在因子fj上的载荷(loading),i是xi的均值,i是xi不能 被四个公共因子解释的部分,称之为特殊因子(specific factor)。 v例8.1.3 公司老板对48名应聘者进行面试,并给出他们在15 个方面所得的分数,这15个方面是: x1:申请书的形式 x9:经验 x2:外貌 x10:积极性 x3:专业能力 x11:抱负 x4:讨人喜欢 x12:理解能力 x5:自信心 x13:潜力 x6:精明 x14:交际能力 x7:诚实 x15:适应性 x8:推销能力 Ø通过因子分析,这15个方面可以归结为应聘者的进取能干、 经验、讨人喜欢的程度、专业能力和外貌这五个因子。 7 §8.2 正交因子模型 v一、数学模型 v二、正交因子模型的性质 v三、因子载荷矩阵的统计意义 8 一、数学模型 v设有p维可观测的随机向量 ,其均值 为 ,协差阵为=(ij)。因子分析的 一般模型为 其中f1, f2, fm为公共因子,1, 2, p为特殊因子, 它们都是不可观测的随机变量。公共因子出现在每 一个原始变量的表达式中,可理解为原始变量共同 具有的公共因素。上式可用矩阵表示为 x=+Af+ 9 式中 为公共因子向量, 为特殊因子向量, 称为因子载荷矩 阵。通常假定 v该假定和上述关系式构成了正交因子模型。由上述 假定可以看出,公共因子彼此不相关且具有单位方 差,特殊因子也彼此不相关且和公共因子也不相 关。 10 二、正交因子模型的性质 v1. x的协差阵的分解 v2.模型不受单位的影响 v3.因子载荷是不惟一的 11 1. x的协差阵的分解 v=V(Af+)=V(Af )+V()= AV( f )A+V()=AA+D v如果A只有少数几列,则上述分解式揭示了的一个 简单结构。由于D是对角矩阵,故的非对角线元素 可由A的元素确定,即因子载荷完全决定了原始变 量之间的协方差。 v如果x为各分量已标准化了的随机向量,则就是相 关阵R,即有 R =AA+D 12 v例8.2.1 设随机向量x=(x1,x2,x3,x4)的协方差矩阵为 则可分解为 =AA+D 其中 13 v若取A= 1/2,D=0,则有分解式 =1/21/2+0 此时m=p,没有达到降维目的,故所作的因子分析 没有意义。 v出于降维的需要,我们常常希望m要比p小得多,这 样前述的分解式通常只能近似成立,即有 =AA+D 近似程度越好,表明因子模型拟合得越佳。一般来 说,m选取得越小,上述近似效果就越差,即因子 模型拟合得越不理想。拟合得太差的因子模型是没 有什么实际意义的,故实践中m也不应选得过小。 14 2.模型不受单位的影响 v将x的单位作变化,通常是作一变换x*=Cx,这里 C=diag(c1,c2,cp), ci0, i=1,2,p,于是 x*=C+CAf+C 令*=C,A*=CA,*=C,则有 x*=*+A*f+* 这个模型能满足类似于前述因子模型的假定,即 15 其中 因此,单位变换后新的模型仍为正交因子模型。 16 3.因子载荷是不惟一的 v设T为任一m×m正交矩阵,令A*=AT,f*=Tf,则模型能表示 为 x=+A*f*+ 因为 E(f*)=TE(f)=0 V(f*)=TV(f)T=TT=I Cov(f*,)=E(f*)=TE(f)=0 所以仍满足模型条件。也可分解为 =A*A*+D v因此,因子载荷矩阵A不是惟一的,在实际应用中常常利用 这一点,通过因子的旋转(见稍后的§8.4),使得新的因子 有更好的实际意义。 17 三、因子载荷矩阵的统计意义 v1.A的元素aij v2.A的行元素平方和 v3.A的列元素平方和 18 1.A的元素aij v xi=i+ai1f1+ai2f2+aimfm+i 即aij是xi与fj之间的协方差。 v若x为各分量已标准化了的随机向量,则xi与fj的相 关系数 此时aij表示xi与fj之间的相关系数。 19 2.A的行元素平方和 v xi=i+ai1f1+ai2f2+aimfm+i 令 于是 20 v 反映了公共因子对xi的影响,可以看成是公共因 子f1,f2,fm对xi的方差贡献,称为共性方差 (communality);而 是特殊因子i对xi的方差贡献, 称为特殊方差(specific variance)。 v当x为各分量已标准化了的随机向量时,ii=1,此时 有 21 3.A的列元素平方和 v 其中 反映了公共因子fj对x1,x2,xp的影响,是衡量公共因子fj重 要性的一个尺度,可视为公共因子fj对x1,x2,xp的总方差贡献 。 v v 22 §8.3 参数估计 v一、主成分法 v二、主因子法 v三、极大似然法 23 一、主成分法 v设样本协方差矩阵S的特征值依次为 ,相应 的正交单位特征向量为。选取相对较小的因子数m ,并使得累计贡献率 达到一个较高的百分比,则 S可近似分解如下: 其中 为p×m矩阵, ,i=1,2,p。这里的 和 就是因子模型的一个 主成分解。 24 v对主成分解,当因子数增加时,原来因子的估计载荷并不变 ,第j个因子fj对x的总方差贡献仍为 。 v主成分法与主成分分析有着很相似的名称,两者很容易混淆 。虽然第j个因子与第j个主成分的解释完全相同,但主成分 法与主成分分析本质上却是两个不同的概念。主成分法是因 子分析中的一种参数估计方法,它并不计算任何主成分,且 旋转后的因子解释一般就与主成分明显不同了。 v称 为残差矩阵, v对于主成分解,有 v当p个原始变量的单位不同,或虽单位相同,但各变量的数 值变异性相差较大时,我们应首先对原始变量作标准化变换 。 25 v例8.3.1 在例7.3.2中,分别取m=1和m=2,用主成分法估计 的因子载荷和共性方差列于表8.3.1。 表8.3.1当m=1和m=2时的主成分解 变 量 m=1m=2 因子载荷共性方差因子载荷共性方差 f1 f2f1 f2 :100米0.8170.6680.8170.5310.950 :200米0.8670.7520.8670.4320.939 :400米0.9150.8380.9150.2330.892 :800米0.9490.9000.9490.0120.900 :1500米0.9590.9200.959-0.1310.938 :5000米0.9380.8790.938-0.2920.965 :10000米0.9440.8910.944-0.2870.973 :马拉松0.8800.7740.880-0.4110.943 所解释的总方 差的累计比例 0.8280.8280.938 26 主成分解的近似关系式 Ø主成分解的因子解释与主成分的解释完全相同。因子f1代表 在径赛项目上的总体实力,可称为强弱因子;因子f2反映了 速度与耐力的对比。 27 二、主因子法 v假定原始向量x的各分量已作了标准化变换。如果随 机向量x满足正交因子模型,则有 R=AA+D 其中R为x的相关矩阵,令 R*=RD=AA 则称R*为x的约相关矩阵(reduced correlation matrix)。 vR*中的对角线元素是 ,而不是1,非对角线元素 和R中是完全一样的,并且R*也是一个非负定矩阵 。 28 v设 是特殊方差 的一个合适的初始估计,则约相 关矩阵可估计为 其中 是 的初始估计。又设 的前m个特征值依次为 ,相应的正交单位特征向量为 ,则A的主因子解为 29 由此我们可以重新估计特殊方差, 的最终估计为 v如果我们希望求得拟合程度更好的解,则可以采用 迭代的方法,即利用上式中的 再作为特殊方差的 初始估计,重复上述步骤,直至解稳定为止。该估 计方法称为迭代主因子法。 30 特殊(或共性)方差的常用初始估计方法 v(1)取 ,其中rii是 的第i个对角线元素,此 时共性方差的估计为 ,它是xi和其他p1个 变量间样本复相关系数的平方,该初始估计方法最 为常用,但一般要求 满秩。 v(2)取 ,此时 。 v(3)取 ,此时 ,得到的 是一个主成分 解。 31 v例8.3.2 在例7.3.2中,取m=2,为求得主因子解,选用xi与其 他七个变量的复相关系数平方作为 的初始估计值。计算得 于是约相关矩阵为 32 的特征值为 从 起特征值已接近于0,故取m=2,相应的计算结 果列于表8.3.2。 33 表8.3.2 当m=2时的主因子解 变 量 因子载荷共性方差 f1f2 :100米0.8070.4960.897 :200米0.8580.4120.906 :400米0.8900.2160.856 :800米0.9390.0240.881 :1500米0.9560.1140.926 :5000米0.9380.2820.960 :10000米0.9460.2810.974 :马拉松0.8740.3780.907 所解释的总方差的累计比例0.8160.914 34 三、极大似然法 v设fNm(0,I),Np(0,D),且相互独立,则必有 xNp(,)。由样本x1,x2,xn计算得到的似然函数是 和的函数L(,)。由于=AA+D,故似然函数可更 清楚地表示为L(,A,D)。记(,A,D)的极大似然估计 为( ),即有 v可以证明, ,而 满足以下方程组: 35 其中 。由于A的解是不惟一 的,故为了得到惟一解,可附加计算上方便的惟一 性条件: AD1A是对角矩阵 上述方程组中的 一般可用迭代方法解得。 v对极大似然解,各因子所解释的总方差的比例未必 像主成分解及主因子解那样依次递减。还有,当因 子数增加时,原来因子的估计载荷及对x的贡献将发 生变化,这也与主成分解及主因子解不同。 v例8.3.3 在例7.3.2中,取m=2,极大似然法的计算结 果列于表8.3.3。 的初始估计值与例8.3.2相同。 36 表8.3.3 当m=2时的极大似然解 变 量 因子载荷共性方差 f1f2 :100米0.7310.6200.919 :200米0.7920.5450.924 :400米0.8550.3430.849 :800米0.9160.1610.865 :1500米0.9580.0260.918 :5000米0.9720.1440.966 :10000米0.9810.1430.982 :马拉松0.9230.2490.914 所解释的总方差的累计比例0.8010.917 37 §8.4 因子旋转 v因子的解释带有一定的主观性,我们常常通过旋转因子的方 法来减少这种主观性且使之更易解释。 v因子是否易于解释,很大程度上取决于因子载荷矩阵A的元 素结构。假设A是从R出发求得的,则有|aij|1。 v如果A的所有元素都接近0或±1,则模型的因子就易于解释。 这时可将x1,x2,xp分成m个部分,分别对应f1, fm,这是一种 使因子解释大为简化的理想情形,称之为简单结构。 v反之,如果A的元素多数居中,不大不小,则对模型的因子 往往就不易作出解释,此时应考虑进行因子旋转,使得旋转 之后的载荷矩阵在每一列上元素的绝对值尽量地大小拉开, 也就是尽可能多地使其中的一些元素接近于0,另一些元素 接近于±1。 38 v因子旋转方法有正交旋转和斜交旋转两类,本章只讨论正交 旋转。 v对公共因子作正交旋转f*=Tf的同时,载荷矩阵也相应地变 为A*=AT。记,于是 v几何上,考虑由在m个因子f1, f2, fm上的载荷构成的m维坐标 系,于是ai是xi在该坐标系下的一个坐标点。p个坐标点 a1,a2,ap经正交旋转后转换为新坐标点 ,显然这p个点 的几何结构仍保持不变。 v 可见,因子正交旋转不改变共性方差,且共性方差为上述坐 标点到原点的平方(欧氏)距离。 vA*A*=ATTA=AA,故因子正交旋转也不改变残差矩阵。 39 v如果旋转后的因子载荷具有前述的简单结构,则每一变量的 坐标点将接近于其中的一个新坐标轴,即它只在该轴对应的 因子上有高的载荷,而在其余因子上仅有小的载荷。并且, 此时的因子分析也能够很好地用于对变量的聚类,即可将p 个原始变量清晰地聚成m个因子所分别对应的m组变量。 v通常因子旋转未必能达到这种简单结构,但旋转的目标一般 应是让坐标轴接近于尽可能多的点。 v正交矩阵T的不同选取法构成了正交旋转的各种不同方法, 在这些方法中使用最普遍的是最大方差旋转法(varimax),本 节仅介绍这一种正交旋转法。 v例8.4.1 在例8.3.1至例8.3.3中分别使用最大方差旋转法,旋 转后的因子载荷矩阵列于表8.4.1。 40 表8.4.1旋转后的因子载荷估计 变 量 主成分主因子极大似然 :100米0.2740.9350.2870.9030.2880.914 :200米0.3760.8930.3810.8720.3790.883 :400米0.5430.7730.5410.7510.5410.746 :800米0.7120.6270.6950.6310.6890.624 :1500米0.8130.5250.7990.5370.7970.532 :5000米0.9020.3890.8950.3990.8990.397 :10000米0.9030.3970.9000.4050.9060.402 :马拉松0.9360.2610.9090.2840.9140.281 所解释的总方 差的累计比例 0.5230.9380.5100.9140.5120.917 41 Ø三种方法的因子载荷估计经因子旋转之后给出了大 致相同的结果, 在因子 上的载荷依次增大,在因 子 上的载荷依次减小,可称 为耐力因子,称 为(短跑)速度因子。 Ø将主成分解的在图8.4.1中用点表示,在点上 标出相应变量的序号。使用最大方差旋转法后,因 子按顺时针方向旋转了=40.6°,点i在新坐标系下的 坐标为旋转后的因子载荷配对。从图中容 易直接看出旋转后因子的实际意义。 42 图8.4.1 主成分解的因子旋转 43 v当只有两个因子(m=2)时,实际上,我们也可以 通过目测因子载荷图的方法,主观地给出一个恰当 的坐标轴按逆时针旋转的角度(如其值为负,则实 为按顺时针),以使新坐标轴都尽可能地穿过或接 近变量点群。旋转后的因子载荷可计算如下: 44 v例8.4.2 沪市604家上市公司2001年财务报表中有这 样十个主要财务指标(数据可从前言中提及的作者网 页上下载): x1:主营业务收入(元)x6:每股净资产(元) x2:主营业务利润(元)x7:净资产收益率(%) x3:利润总额(元)x8:总资产收益率(%) x4:净利润(元)x9:资产总计(元) x5:每股收益(元)x10:股本 上述十个指标的样本相关矩阵列于表8.4.2。 45 Ø从相关矩阵出发,选择主成分法,相关阵的前三个特征值为 累计贡献率为83.82%,取因子数m=3,相应结果列于表8.4.3。 表8.4.2 十个财务指标的样本相关矩阵 x1x2x3x4x5x6x7x8x9x10 x11.000 x20.7231.000 x30.4270.7431.000 x40.4070.6970.9821.000 x50.1710.3250.5390.5591.000 x60.1490.2280.2840.2740.5851.000 x70.0960.1770.3620.4020.7760.2181.000 x80.0660.2040.4550.5000.8490.2900.8331.000 x90.7480.7680.5740.5670.1250.1380.0670.0581.000 x100.6220.6190.4850.5000.002-0.0660.0330.0510.8611.000 46 表8.4.3 m=3时的主成分解 变量 因子载荷共性方差 f1f2f3 :主营业务收入0.6590.4720.1210.672 :主营业务利润0.8350.3460.0970.826 :利润总额0.8860.0030.0370.786 :净利润0.8880.0370.0820.796 :每股收益0.6660.6920.1090.934 :每股净资产0.3910.3670.8140.951 :净资产收益率0.5270.6700.3250.832 :总资产收益率0.5810.7030.2600.899 :资产总计0.7470.5640.0190.877 :股本0.6360.5960.2190.808 所解释的总方 差的累计比例 0.4880.7450.838 47 表8.4.4 旋转后的因子载荷估计 变量 因子载荷共性方差 :主营业务收入0.809-0.0290.1290.672 :主营业务利润0.8740.1710.1820.826 :利润总额0.7060.5090.1670.786 :净利润0.6880.5520.1350.796 :每股收益0.1150.8490.4470.934 :每股净资产0.0820.1990.9510.951 :净资产收益率0.0220.9120.0040.832 :总资产收益率0.0450.9430.0870.899 :资产总计0.936-0.0120.0280.877 :股本0.869-0.013-0.2280.808 所解释的总方 差的累计比例 0.4040.7120.838 48 §8.5 因子得分 v一、加权最小二乘法 v二、回归法 v*三、两种因子得分方法的比较 49 一、加权最小二乘法 v采用类似于回归分析中加权最小二乘估计的想法将 估计为 称为巴特莱特(Bartlett,1937)因子得分。 v在实际应用中,用估计值 分别代替上述公 式中的, A和D,并将样品xj的数据代入,便可得到 相应的因子得分 50 二、回归法 v在正交因子模型中,假设 服从(m+p)元正态分布 , 用回归预测方法可将 估计为 称为汤姆森(Thompson,1951)因子得分。 v 在实际应用中,可用 分别代替上式中的, A 和 来得到因子得分。样品xj的因子得分 51 v例8.5.1 在例8.4.2中,用回归法得到的因子得分为 其中 为xi的标准化值,i=1,2,p ,经计算: 52 序号股票名称序号股票名称 1上海石化8.580-2.704-2.168 2东方航空7.446-2.089-1.861595康美药业-0.7010.2311.624 3兖州煤碳6.9241.513-0.044596潜江制药-0.706-0.4302.085 4马钢股份6.175-1.251-2.804597浏阳花炮-0.7090.1460.655 5宁沪高速5.3410.835-2.220598浪潮软件-0.7131.625-1.313 6广州控股4.1012.5960.640599兆维科技-0.7282.511-1.366 7青岛海尔4.0220.9543.160600PT农商社-0.7510.5160.510 8四川长虹3.996-2.0271.907601三佳模具-0.7760.5270.385 9仪征化工3.873-0.964-1.598602雄震集团-0.8171.175-1.407 10上海汽车3.8341.293-0.666603中软股份-1.0232.715-1.685 604天地科技-1.0232.355-0.946 表8.5.1 按规模因子得分 的排序 53 序号股票名称序号股票名称 1中软股份-1.0232.715-1.685 2广州控股4.1012.5960.640595东方电机-0.246-3.212-0.385 3广汇股份0.5172.534-1.608596ST嘉陵-0.144-3.570-0.284 4兆维科技-0.7282.511-1.366597ST海药-0.089-3.7090.225 5长江通讯-0.6572.3691.899598鼎天科技0.034-4.230-0.209 6天地科技-1.0232.355-0.946599大元股份0.111-4.5590.284 7申能股份3.2482.158-0.498600新城B股-0.080-4.687-0.086 8上港集箱2.9922.1121.624601银鸽投资-0.063-4.869-0.086 9中远航运-0.5881.957-1.449602济南百货0.083-4.9680.012 10创业环保0.7971.755-2.099603ST东锅0.263-5.9790.272 604国嘉实业0.491-7.7301.055 表8.5.2 按盈利因子得分 的排序 54 序号股票名称序号股票名称 1贵州茅台0.8771.3665.750 2用友软件-0.581-0.0615.165595PT宝信-0.5711.145-1.760 3亿阳信通-0.5230.1244.059596东方航空7.446-2.089-1.861 4华泰股份-0.2240.0613.420597ST成量-0.5250.042-1.873 5太太药业0.0470.7473.234598ST自仪-0.185-0.012-1.905 6赣粤高速0.2060.1003.178599创业环保0.7971.755-2.099 7青岛海尔4.0220.9543.160600上海石化8.580-2.704-2.168 8美克股份-0.6990.0882.752601山东基建2.2750.797-2.180 9宇通客车-0.2640.6042.619602ST中纺机-0.3900.278-2.182 10东方通讯2.401-0.7502.593603宁沪高速5.3410.835-2.220 604马钢股份 6.175-1.251-2.804 表8.5.3 按每股价值因子得分 的排序 55 *三、两种因子得分方法的比较 v1.无偏性 v2.有效性 56

    注意事项

    本文(第八部分因子分析.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开