多元分析ppt课件.ppt
《多元分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《多元分析ppt课件.ppt(174页珍藏版)》请在三一文库上搜索。
1、多因素分析,多因素分析(multivariate analysis)是多变量资料的统计分析,与单因素分析相比,它可以在错综复杂的多因素中寻求事物内部的规律性及相互之间的联系。,第一节 多元线性回归与相关,相关分析,相关分析是研究多个变量之间线性关系的一种方法,各个变量之间地位相同、相互依赖。,例15.1 现有20个家庭调查资料的部分变量,见表15.1,试对父母身高与儿子身高进行相关分析。,表15.1 父母身高与儿子身高,(一)协方差阵与相关系数阵,1. 样本协方差 两个随机变量X与Y的协方差(covariance)度量的是X与Y的共同变异,它反映了二者之间的线性依存关系,对于n对观察值的样本
2、, , ,来说,其协方差的公式为,由上述公式可以看出,两随机变量间的协方差可正可负。 若一个随机变量的取值与另一随机变量的取值增加的方向一致(相反),则协方差为正(负)。,2. 样本方差与协方差阵 随机变量两两之间的协方差通常以矩阵的形式表示,例15.1中, 、 、 及 之间的方差与协方差阵为,矩阵中,对角元素 或 为相应变量的方差,同时 , 。 从矩阵中各元素的取值可看出,各变量间存在着正的线性协同关系。,如果要考察各变量间协同程度的大小,必须消除量纲的影响,因此需要进一步分析各随机变量间的相关系数。,3. 样本相关系数矩阵 通常各变量间的样本相关系数以矩阵的形式表示,例15.1中各变量间的
3、相关系数矩阵为,4. 统计推断 通过例15.1的相关系数矩阵可以看出:各变量间的相关系数都比较大。那么,能否断定各变量之间必有相关性呢?答案是“未必”。 由于样本相关系数只是对总体相关系数的估计,因此必须对总体相关系数是否为零进行假设检验。,(二)偏相关,两个随机变量之间的相关系数,有时虽然经过假设检验具有统计学意义,但也不能轻易地断定它们具有相关关系。 要想得出较确切的结论,还需要排除其他因素的干扰,而偏相关系数(partial correlation coefficient)就具有这样的功能。,三重数据的偏相关系数的计算方法: 设X、Y、Z为随机变量,记 为X与Y去掉Z的线性效应后二者之间
4、的偏相关系数,例15.2 20名糖尿病人的血糖(Y,mmol/L)、胰岛素(X1,mU/L)及生长素(X2,g/L)的测定值列于表15.2中,试分析血糖与胰岛素及生长素之间的线性关系。,表15.2 糖尿病人的血糖(Y,mmol/L)、胰岛素(X1,mU/L)及生长素(X2,g/L)的含量,血糖与胰岛素及生长素之间的简单相关系数分别为 ,,虽经检验两个相关系数均有统计学意义,但如果扣除掉另外一个自变量的影响,则X1及X2与Y的偏相关系数分别为 ,,经检验,胰岛素与血糖之间存在的负相关具有统计学意义,而生长素与血糖之间的相关性无统计学意义。 此例说明在解释变量间的相关关系上,偏相关系数比简单相关系
5、数更可靠些。,确定型回归与概率型回归,线性回归与非线性回归,多重线性回归,回归分析是定量研究应变量对自变量的依赖程度、分析变量之间的关联性并进行预测、预报的基本方法。 它是多元统计方法中的一个重要分支,随着计算机统计软件的普及,在医疗卫生领域的应用日益广泛。,多重线性回归研究的是一个应变量Y和S个自变量 , , , 之间的线性依存关系。 构造多重线性回归模型需要有四个基本假定: 线性、独立、正态、等方差。,建立回归方程后,还需考虑: 第一,这一方程是否符合资料特点?第二,各个自变量对应变量的影响是否具有统计学意义? 第三,每一观察点是否都能用这一方程得到很好的预报。,仍利用例15.1中的数据,
6、以儿子身高为因变量,其它变量为自变量进行多重回归分析,所得回归模型为,模型中, 前边的系数0.303表示:在父亲那一代人中,如果父亲比同一代人的平均身高多出一厘米,则他的儿子将比儿子那一代人的平均身高多出0.303厘米; 前边的系数解释仿此; 前边的系数表明:参加体育活动的次数和身高之间存在正相关;常数项一般来说没有与其相对应的实际意义上的解释。,在比较各自变量对应变量相对贡献的大小时,由于各自变量的单位不同,不能直接用偏回归系数的大小作比较,须用所谓的标准化偏回归系数(standardized partial regression coefficient)来作比较。,对例15.1中的各变量标
7、准化后所得的回归方程为,上式中,对儿子身高的贡献从大到小依次为: 母亲身高,父亲身高,参加体育活动的次数。,回归方程的配合适度检验,建立回归方程后,必须分析这一回归方程是否符合资料的特点,以及能否恰当地反映出应变量 与这p个自变量的数量依存关系。 此处介绍方差分析方法与确定系数分析方法。,方差分析法 确定系数分析法,F=,确定系数 R2,复相关系数 R,0R1,自变量的检验,在多元线性回归分析中,可能有的自变量对应变量的影响很强,而有的影响很弱,甚至完全没有作用。 这样就有必要对自变量进行选择,使回归方程中只包含对应变量有统计学意义的自变量,所谓的“最优”方程。,t检验法,偏回归平方和法,筛选
8、自变量的方法,向后法 backward 向前法 forward 逐步法 stepwise,(1)向后剔除法(backward selection): 先建立一个包含全部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除时为止,此法的计算量大。,(2)向前引入法(forward selection): 回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无具有统计学意义的自变量可以引入为止。 用此法建立的方程有时不够精炼。,(3)逐步筛选法(stepwise selection): 取上述两种方法的优点,在向前引入每
9、一个新自变量之后,都应重新对前面已选入的自变量进行检查,以评价其有无继续保留在方程中的价值。 为此,引入和剔除交替进行,直到无具有统计学意义的新变量可以引入,同时,方程中也无失去其统计学意义的自变量可以剔除为止。,在自变量的筛选中,选择自变量的标准很多,如可用校正确定系数(adjusted determinant) 作为判断标准,选择校正确定系数大者为“最优”方程。其计算公式为: (11.12) 式中n为样本含量,p为方程中包含的自变量个数。,三、协方差分析,协方差分析(covariance analysis)是利用线性回归方法消除混杂因素的影响后所进行的方差分析。 例如,考虑药物对患者某个生
10、化指标的影响时,欲比较实验组和对照组中该指标的变化均值是否有差异,就应消除一些难以控制的混杂因素的影响,如患者的病程长短、年龄大小等。,假设有三组变量X,Y,Z,其中Y是因变量,Z是分类变量(Z=1,2,k ),欲比较k 类中Y 的均值是否有差异,如果Y和X存在线性关系,则可通过协方差分析消除X的影响。 因此,在作协方差分析前首先要检验这种线性关系。,其基本步骤是: 检验各类中Y和X是否存在线性关系; (2) 检验各类中回归系数是否相同; (3) 检验各类回归模型中截距是否相同; (4) 检验以组内均值为新变量的线性回归模型 是否成立,并比较回归系数是否和前面第 二步中得到的相同; (5) 检
11、验总回归系数是否为0。理论上讲,以 上步骤中只要有一项被拒绝,就不宜作协 方差分析。,例15.3 某医生欲了解成年人体重正常者与超重者的血清胆固醇是否不同。而胆固醇含量与年龄有关,资料见表15.3。,表15.3 体重正常者与超重者的血清胆固醇(mmol/L)及年龄(岁),1本例研究目的是要了解正常人和超重者的胆固醇含量是否相同,即比较两组均数5.0923和6.7846之差1.6923有无统计学意义。如按两样本均数比较的t检验,t=-3.14,v=24,0.01P0.005,按=0.05水准拒绝H0,接受H1,认为两组胆固醇差别有统计学意义。,由专业知识得知年龄与胆固醇含量有关,通常年龄较大者胆
12、固醇含量较高。本例中,两组的 、 分别为46.0000、56.4615, 大于 ,即超重组的平均年龄大于正常组。若控制了年龄因素的干扰,则两组胆固醇含量的均数 之差应小于1.6923,所以应把年龄作为一个协变量进行协方差分析。,2若胆固醇含量与年龄的线性关系在正常组和超重组均成立且总体回归系数相等,即 ,且 ,则两条回归线平行。,此时就可以估计两组胆固醇的修正均值 ,此两条回归线具有公共斜率 。 (15.9),本例组内 ,组内 ,,3为扣除年龄对胆固醇比较的影响,令 ,求得修正的平均胆固醇值。,两条回归方程之差为 (15.10),需注意的是: 协方差分析还要求比较组间的协变量X的观察值相差不宜
13、太大,否则修正均数的差值可能落位于回归直线的延长线上。 由于不知道回归线外推后是否仍然满足平行性和线性关系的条件,因此,由协方差分析所得的结论可能不正确。,logistic回归,logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。 适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。 在医学研究中经常需探讨疾病的发生与否和暴露因素之间的关系,此类问题可用logistic回归来进行分析。,Y分类变量(0,1) X连续或分类变量,筛选自变量,和多元线性回归分析一样,在logistic回归分析中也须对自变量
14、进行筛选,只保留对回归方程具有统计学意义的自变量。 筛选自变量的方法也和多元线性回归中采用的方法一样,有向后剔除法、向前引入法及逐步筛选法三种。,在logistic回归中,筛选自变量的方法有似然比检验(likelihood ratio test)、计分检验(score test)、Wald检验(Wald test)三种。 其中似然比检验较为常用。,似然比检验 计分检验 Wald检验,表15.4 视力状况及相关因素调查表,采用强制自变量进入回归模型的方法,筛选出以下6个专业上认为有意义的因素,结果见表15.5。,由于上述模型中绝大部分变量无统计学意义,为了较准确地找出危险因素,可采取逐步回归法进
15、一步对变量进行筛选。下面分别列出了两种逐步回归方法得到的结果,见表15.6和表15.7。,Cox回归分析,第十四章介绍的生存时间资料几种非参数分析方法,一般仅用于单因素分析。 但在医学研究中,观察对象生存时间的长短往往与多种因素有关系,如宫颈癌患者术后的生存期、白血病患者化疗后的缓解期等,除了与治疗方案有关外,还可能与患者年龄、体质、病情轻重及营养状况等因素有关。 医学上将这些因素统称为预后因素,统计学上将它们称为协变量或伴随变量。,由于生存时间资料常存在截尾值,生存时间 t 往往不满足正态分布和方差齐性的要求,不适宜用第一节介绍的多元线性回归来分析生存时间与预后因素之间的关系; 如果不考虑生
16、存时间仅考虑事件结局(“发生”和“未发生”),或将生存时间离散化为二项分类变量,显然会损失部分信息。 此外,有时生存时间的分布完全不明确,采用其他生存分析模型来拟合也会感到困难。,英国生物统计学家 D.R. Cox于1972年提出,采用比例风险回归模型(proportional hazard regression model)来分析带有协变量的生存时间资料。 由于这一模型以时间顺序统计量为基础,对生存时间的分布形式无具体要求,因而适用范围广泛。 医学上主要用于探讨恶性肿瘤和其他慢性病的预后因素,也可用于临床疗效评价和病因探索。,式中h0(t)为基准风险函数(baseline hazard fu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 分析 ppt 课件
链接地址:https://www.31doc.com/p-3112412.html