多元统计分析课件西安交通大学严明义.ppt
《多元统计分析课件西安交通大学严明义.ppt》由会员分享,可在线阅读,更多相关《多元统计分析课件西安交通大学严明义.ppt(700页珍藏版)》请在三一文库上搜索。
1、轮廓图,轮廓图2例题,轮廓图3,雷达图1,雷达图2,雷达图3,调和曲线图1,调和曲线图2,调和曲线图3,调和曲线图4,星座图,星座图2,星座图3,星座图4,星座图5,星座图6,星座图7,星座图8,第三章 随机向量 Random Vector,1 一元分布,一、 一元随机变量与概率分布函数 二、概率分布函数的类型 三、随机变量的数字特征 四、一些重要的一元分布,2 多元分布,一、多元概率分布,1、多元概率分布函数,随机向量 的概率分布函数定义为,2、分布函数的性质, 非 降的右连续函数;, 分布函数的取值范围为0,1,即, 分布函数当变量取值为无穷大时,函数值收敛到1,即,二、两个常用的离散多元
2、分布,1、多项分布,则称 服从多项分布。,2、多元超几何分布,则 服从多元超几何。,三、多元概率密度,1、定义,随机向量 的分布函数可以表示为,则称 为连续型随机向量。称 为的多元概率密度函数。,若 在点 连续,则,四、边际分布,设有连续随机向量,不妨设 是 的q个分 量组成。则 的分布为,所以 的边际密度为,例 有概率密度函数,试分别求 的边际密度。,五、条件分布,1、问题的引入,若A和B是任意两个事件,且 ,则称 为在B事件发生的条件下,事件A发生的条件概率。,考虑随机向量 ,其中 表示人的身高(单 位:米), 表示人的体重(单位:公斤),在 身高为1.9米的人群中,体重 的分布就再也不是
3、 原来的分布了。而是在 的条件分布。,2、条件分布 连续随机向量,不妨设 是 的q个分量组成。 是余下的p-q个分量组成。,是 条件下, 的分 条件密度函数。,例 设X=(x1,x2)有概率密度函数,试求条件密度函数f(x1/x2)和f(x2/x1)。,所以先求,六、 独立性,1、定义 设 和 是两个随机向量,若 对一切 、成立,则称 和 相互独立。,2、设 和 是两个连续随机向量, 和 相互 独立,当且仅当 或 对一切 、 成立。,3、设 是 个随机向量,若 对一切 成立,则 相互独立。,例 设X=(x1,x2,x3)有概率密度函数,试证 x1,x2,x3相互独立。,3 矩,一、数学期望,1
4、、定义,是有随机变量构成的随机矩阵,定义X的数学期望为,特别当时 ,便可得到随机向量 的数学期望为,2、性质,1) 设为常数,则 ;,2)设 分别为常数矩阵,则,3)设 为 个同阶矩阵,则,二、协方差矩阵,1、定义:设 和 分别为 维和 维随机向量,则其协方差矩阵为,2、性质,1)若(x1,x2,,xp) 和(y1,y2,,yp)相互独 立。则,若(x1,x2,,xp)的分量相互独立, 则协方差 矩阵, 除主对角线上的元素外均为零,即,2)随机向量X的协方差矩阵是非负定矩阵。 证:设a为任意与X有相同维数的常数向量,则,3)设A是常数矩阵,b为常数向量,则V(AX+b)=AV(X)A ;,4、
5、若(x1,x2,,xp) 和(y1,y2,,yp)分别是p和q维随机向量,A和B为常数矩阵,则,5、若(k1,k2,,kp)是n个不全为零的常数, (x1,x2,,xp) 是相互独立的p维随机向量,则,三、相关系数矩阵 若(x1,x2,,xp) 和(y1,y2,,yp)分别是p和q维随机向量,则其相关系数矩阵为,4 随机向量的变换,一、一元随机变量的变换,设x具有概率密度函数fx(x),函数y=(x)严格单调,其反函数x=(x)有连续导数,则y的概率密度函数为,其中y的取值范围与x的取值范围相对应。,例 设随机变量x服从均匀分布U(0,1),即密度函数,y的取值范围为(0,),则,二、多元随机
6、向量的变换,若(x1,x2,xp) 有密度函数f (x1,x2,xp),有函数组,其逆变换存在,则 的概率密度函数为,特别:若 ,其中 为 阶可逆常数矩阵, 为 维常数向量,则,第五章 抽样分布 Sampling Distributions,1 样本的联合概率密度函数,则总体的密度函数为,X1,X2,Xn是从总体中抽取的一个简单随机样本,满足X1,X2,Xn相互独立,且同正态分布,称为样本数据矩阵。,为样本联合密度函数。,2 样本分布,一、维希特(Wishart),1、定义随机矩阵的分布,矩阵中的每一个元素均为随机变量,则矩阵X的分布是其列 向量拉长,组成一个长向量,定义 维希特(Wishar
7、t)分布的统计量,设 个随机向量,独立同分布于 ,则随机矩阵,服从自由度为 的非中心维斯特分布,记为 。,特别当 是 阶对称阵,则 的分布为的下三角部分组成的长向量,在一元正态随机变量中,我们曾经讨论了 分布,在多元 正态随机变量也有类似的样本分布。维希特分布(Wishart)相当 于一元统计中的 分布。,定理1:若 ,且 , ,则 的分布密度为 特别,当 和 时, 服从 分布。,维希特( Wishart)分布的密度函数,二、维斯特(Wishart)分布有如下的性质:,(1)若A1和A2独立,其分布分别 和 ,则 的分布为 ,即维斯特(Wishart)分布有可加性。,(2) ,C为mp阶的矩阵
8、,则 的分布为 分布。,三、 抽样分布,定理1:设X1,X2,Xn是来自多元正态总体Np(,)的简单随机样本,有,则有,证明:,当 , 时,由卡方分布的定义可知,可见维希特分布是由卡方分布在多元下的推广。,服从自由度为 的卡方分布。,定理2 设 独立同正态分布,则统计量,证:,由于样本均值,相互独立的标准正态分布的平方和为自由度为 的卡方分布。,在一元正态的情形下,我们有样本的统计量 当总体的方差未知时,我们必须用样本的方差 来代替总体的方差,则 那么在多元正态的情形下,是否有相同的问题呢?回答时肯定的。,定义:,称T2服从参数为P和n的非中心霍特林(Hotelling)分布,当。,定理:,当
9、 时, 服从自由度为n的中心霍特林分布,记为 。,定理:设 是来自多元正态总体 的简单随机样本,有,定理:设 是来自多元正态总体 的简单随机样本,,设 是来自多元正态总体 的简单随机样本,,(1)Wilks分布,定义:设 和 ,且 相互独立, 和 , ,则称 服从Wilks分布,记 。 可以证明,当 和 时,Wilks分布可以用 分布近似。,四、基于维斯特(Wishart)分布的统计量,在一元方差分析中,常常遇到基于独立的 分布随机变量比值的 统计量。在多元统计分析中,起到相同作用的是统计量 和 分布。,2、统计量和分布,设k个总体 ,它们服从 。分别抽出如下的样本:,W=E+B,当K个总体的
10、均值相等时 ,服从Wilks 分布。,第六章 多元正态分布 的统计推断,2 单个总体均值向量的推断,设 是取自多元正态总体的一个样本,这里,现欲检验,3 单个总体均值分量间结构关系的检验,是取自该总体的样本。检验:,一、问题引入,例 设,与上面的假设等价的是,寻找常数矩阵,注:矩阵C不是唯一的,,在例4.2.1中,假定人类的体形有这样一个一般规律的身高、胸围和上臂围平均尺寸比例为6:4:1。检验比例是否符合这一规律。检验:,则上面的假设可以表达为,二、统计量及方法,其中C为一已知的kp阶矩阵,kp,rank(C)=K,为已知的K维向量。根据多元正态分布的性质可知,检验:,当 为真时,,故可以将
11、霍特林分布的统计量换算成F统计量。,对给定的显著性水平,检验的规则,某地区农村男婴的体格测量数据如下,检验三个指标的均值是否有关系,proc iml; s= 31.600 8.040 0.500, 8.040 3.172 1.310, 0.500 1.310 1.900; mu=82.00 60.20 14.50; c=2 -3 0, 1 0 -6; a=c*t(mu); d=c*S*t(c); g=inv(d); T=6#(t(a)*g*a); print;,T47.143,4 两个总体均值的检验,一、两个独立样本的情形,与一元随机变量的情形相同,常常我们需要检验两个总体的均值是否相等。,设
12、从总体 ,中各自独立地抽取样本 和 , 。,考虑假设,根据两个样本可得1和2的无偏估计量为,其中,当原假设为真的条件下,,检验的规则为:,例:中小企业的破产模型,为了研究中小企业的破产模型,首先选定了X1总负债率(现金收益/总负债),X2收益性指标(纯收入/总财产),X3短期支付能力(流动资产/流动负债)和X4生产效率性指标(流动资产/纯销售额)4个经济指标,对17个破产企业为(1)和21正常运行企业(2)进行了调查,得资料,检验所选择的指标在不同类型企业之间是否有显著的差异。,多元假设检验 Statistic Value F Value Num DF Den DF Pr F Wilks La
13、mbda 0.54561620 6.87 4 33 0.0004 Pillais Trace 0.45438380 6.87 4 33 0.0004 Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004 Roys Greatest Root 0.83279015 6.87 4 33 0.0004,思考:拒绝原假设是否说明两个总体的所有的变量之间 都是不相等的,Dependent Variable: x1 Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.87466791 0.8
14、7466791 16.90 0.0002 Error 36 1.86300840 0.05175023 Corrected Total 37 2.73767632 两类企业间有显著性差异。,Dependent Variable: x2 Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.08312077 0.08312077 1.95 0.1710 Error 36 1.53370028 0.04260279 Corrected Total 37 1.61682105 两类企业间有无显著性差异。,Dependent Varia
15、ble: x3 Sum of Source DF Squares Mean Square F Value Pr F Model 1 16.46958443 16.46958443 21.45 .0001 Error 36 27.64080504 0.76780014 Corrected Total 37 44.11038947,Dependent Variable: x4 Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.00112694 0.00112694 0.03 0.8643 Error 36 1.36978095
16、0.03804947 Corrected Total 37 1.37090789,二、成对试验的T2统计量,前面我们讨论的是两个独立样本的检验问题,但是不少的实际问题中,两个样本的数据是成对出现的。例如当讨论男女职工的工资收入是否存在差异;一种新药的疗效等。,思考:两独立样本和成对样本的观测值有何不同。,设(xi,yi),i=1,2,3,n,时成对的试验数据,由于总体X和Y均服从p维正态分布,且协方差相等。,假设检验,检验的统计量为,其中,当原假设为真时,例1 一组学生共5人,采用两种不同的方式进行教学, 然后对5个学生进行测验,得如下得分数:,分析不同的教学方式是否有差异。,data a;
17、input x1 x2 y1 y2; cards; 89 90 82 85 98 88 80 83 75 69 61 70 76 70 67 66 90 76 63 65 ; data d; set a; x12=x1-y1; y12=x2-y2; proc corr cov; var x12 y12; run; proc iml; s= 63.50 21.000, 21.00 18.200; mu= 15.00, 4.800; g=inv(s); r=t(mu)*g*mu; print r; run;,5 两个总体均值分量间结构关系的检验,一、问题提出,设从总体 ,中各自独立地抽取样本 和
18、, 。他们的均值向量差为:,例 在爱情和婚姻的调查中,对一个由若干名丈夫和妻子组成的样本进行了问卷调查,请他们回答以下几个问题: (1)你对伴侣的爱情的“热度”感觉如何? (2)伴侣对你的爱情的“热度”感觉如何? (3)你对伴侣的爱情的“可结伴”水平感觉如何? (4)伴侣对你的爱情的“可结伴”水平感觉如何? 回答采用没有、很小、有些、很大和非常大5个等级,得到结果如表。,现在我们关心均值分量间的差异是否满足某种结构关系。比如每个指标均值间的差异是否相等。 1、丈夫对妻子以及妻子对丈夫的回答在0.05显著水平上没有差异。 2、在四个指标上他们是否会有相同的分数。即检验四个分数的平均值是否相等。,
19、二、统计量与检验,检验,在原假设为真的条件下,检验的统计量为:,data a; input x1 x2 x3 x4 class; cards; 数据行省略 ; run; proc anova; class class; model x1-x4=class; manova h=class m=(1 -1 0 0 , 1 0 -1 0 , 1 0 0 -1); run;,H = Anova SSCP Matrix for class E = Error SSCP Matrix S=1 M=0.5 N=27 Statistic Value F Value Num DF Den DF Pr F Wil
20、ks Lambda 0.87857261 2.58 3 56 0.0626 Pillais Trace 0.12142739 2.58 3 56 0.0626 Hotelling-Lawley Trace 0.13820985 2.58 3 56 0.0626 Roys Greatest Root 0.13820985 2.58 3 56 0.0626,proc iml; sigma1=0.5758620690 0.3758620690 -.1034482759 -.1655172414, 0.3758620690 0.5850574713 -.0919540230 -.1586206897,
21、 -.1034482759 -.0919540230 0.4367816092 0.4137931034, -.1655172414 -.1586206897 0.4137931034 0.4551724138; mu1= 3.90000, 3.96667, 4.33333, 4.40000; sigma2= 0.4885057471 -.0172413793 0.0402298851 0.0229885057, -.0172413793 0.4379310345 0.0724137931 0.1172413793, 0.0402298851 0.0724137931 0.2402298851
22、 0.2022988506, 0.0229885057 0.1172413793 0.2022988506 0.2574712644; mu2= 3.83333, 4.10000, 4.63333, 4.53333; c=1 -1 0 0 , 1 0 -1 0 , 1 0 0 -1; mu=(mu1+mu2)/2; a=c*mu; sigma=29#(sigma1+sigma2)/58; t2=60#t(a)*inv(c*sigma*t(c)*a; print t2;,第一节 单因素方差分析,问题的提出 统计的模型及检验方法 多重比较检验,问题的提出,某工厂实行早、中、晚三班工作制。工厂管理部
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 课件 西安交通大学 严明
链接地址:https://www.31doc.com/p-2985023.html