多层统计分析模型.ppt

上传人：本田雅阁

文档编号：2242683

上传时间：2019-03-09

格式：PPT

页数：70

大小：897.51KB

《多层统计分析模型.ppt》由会员分享，可在线阅读，更多相关《多层统计分析模型.ppt（70页珍藏版）》请在三一文库上搜索。

1、多层统计分析模型陶庄中国CDC卫生统计研究室绪论青蛙与池塘（“Frog-pond theory”） n青蛙学生个体； n池塘学校环境； n学生的成绩好坏不仅受到个体本身的影响，也受到学校环境的影响！多层数据 n低一层（低水平）单位（个体）的数据嵌套（nested）于高一层（高水平）的单位（组群）之中。 n结局变量，个体解释变量，场景变量（ contextual variables）组内观察相关（within-group observation dependence） n同一组内的个体，较不同组的个体而言，在观念、行为等很多方面更为接近或相似；即便不是刻意分组，也是如此。

2、 n组内同质（within-group homogeneity），组间异质（between-group heterogeneity） n很小的相关将导致很大的I类错误。多层数据的常见来源 n复杂抽样； n多中心临床试验； n纵向研究（longitudinal studies）与重复测量（repeated measures）； n“高低搭配”； nMeta分析； n 多层统计模型的研究内容 n哪些个体解释变量会影响结局变量； n哪些场景变量会影响结局变量； n个体解释变量对结局变量的影响是否会受到场景变量的影响。多层统计模型出现前对多层数据进行分析的探索探索（1）分别估计 n在个

3、体水平和组群水平分别进行分析； n试图用单一的个体水平模型的分析结果来推论另一水平的统计结果。探索（2）传统回归 n用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层（cross-level）交互作用。探索（3）两步模型（two-stage model） n第一步模型，对各组分别进行同一回归模型估计，获得一系列的系数； n对这些系数的恒定性进行检验； n如果不恒定，则进行第二步模型，以组变量为因变量，系数为自变量进行回归。探索（3）两步模型的问题 n无论哪一步均使用OLS，并不适用； n当组群过多，则十分麻烦； n某些组内样本量很少时，进行回归不稳定； n将每个组群认

4、为是不相关的，忽略了其为从一大样本中抽取的事实。多层统计模型的出现 n研究的学者很多； n系统的主要为两； n研究的理论没有根本上的分歧； n双方研究成果的发布时间基本相同（上世纪80年代末90年代初）； n分别有各自分析的成熟的软件； n目前，大家基本上接受两组人分别独立开发出同一模型的结果。 S. Raudenbush与A. Bryk n模型称为：hierarchical linear model； n软件为：HLM H. Goldstein n模型称为：multilevel models； n软件为：MLwiN（早期版本称ML3，MLn）多层统计模型的名称 nmultileve

5、l models nhierarchical linear model nrandom-effect model nrandom coefficient model nvarious component model nmixed-effect model nempirical Bayes model 多层统计模型的优点 n同时分析组效应和个体效应； n不需有独立性假设； n对稀疏（sparse）数据，即每组样本很少的数据，特别有效； n特别适合对发展模型（GM）的分析。多层统计模型的局限性（1） n模型复杂，不够简约； n需较大样本以保证稳定性； n组群数量较少，会出现偏倚； n高水平单位

6、并非严格抽样获得； n某些场景变量通常是各组个体的聚集性测量，而不是总体内个体的聚集性测量；多层统计模型的局限性（2） n研究对象一般具有流动性，即受到群组影响的程度不同，虽可用出入时间进行控制，但此信息一般不可知； n依然存在自变量带有测量误差的问题，必需借助于结构方程模型（SEM）； n完全嵌套假设，即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。用于多层统计模型的软件 n专门软件：HLM；MLwiN；SuperMIX； aML；EGRET；LISREL；Mplus等。 n通用统计学软件：SAS；SPSS；stata；S- plus/R等。线性多层统计模型基础知识组内

7、相关系数（Intra-Class Correlation Coefficient, ICC） n组间方差占总方差的比例。 n可使用对“空模型”的拟合获得； n值域在0到1之间，越接近1，说明相关越明显； n对ICC的检验是是否选择多层模型的依据。两水平模型的公式表达空模型（又称截距模型）两个水平1自变量、一个水平2自变量一般模型 SAS中的公式表达模型假设模型假设SAS的表达固定和随机回归系数模型估计方法最大似然法（ML） n包括普通最大似然法（ML）和限制性最大似然法（REML）； n两者用于估计的残差基础不同，后者的残差包括所有的随机变异； nREML是SAS的MI

8、XED过程和HLM的默认算法； nREML通常用于组数量较少的模型； nML可以用于模型比较，而REML不行； nREML估计较优，而ML较快。最小二乘法（LS） n包括迭代广义最小二乘法（IGLS）和限制性迭代广义最小二乘法（RIGLS） n都以普通最小二乘估计（OLS）为初始值进行迭代； n地位及相对关系大致等同于ML和REML； n是MLwiN使用的算法。经验Bayes方法（EB） n“收缩估计（shrinkage estimator）” n以可靠性权重确定最后的估计值； n对于某些样本量很小的组，则更多的使用总样本的信息，进行“借力（borrow strength）” 空模型

9、的可靠性权重对模型拟合的评价 nSAS给出：-2LL，AIC，AICC，BIC等统计量，其值越小越好； n但只在比较模型时有用； n模型收敛的速度可以说明拟合的好坏。假设检验 n全局检验：F检验； n局部检验：对方差-协方差估计使用Wald Z 检验；对系数使用t检验； n单测检验，P值需除2； n其它可使用LR等。模型比较 n对于嵌套模型，使用LR检验； n对于非嵌套模型，使用AIC，AICC和BIC检验； n无论何种，均需使用ML进行估计。对变异的解释程度（RB）对变异的解释程度（SB）示例与SAS实现例1：对医生满意度调查 nPatid：病人编号； nPhys：医生编号

10、； nAge：病人年龄； nSat：满意度分数； nPractice：执业时间；空模型空模型 n2步迭代完成； n所有随机系数的检验均高于检验水准； nICC=0.00292/（0.00292+1.291）=0.23% n不用进一步拟合多水平模型例2：SNA角度测量值 nid：观察对象编号； nocca：每次观察编号； nAge：病人年龄； nSNA：角度； nagg：场景变量；空模型 n3步迭代完成； n所有随机系数的检验部分低于检验水准； nICC=0.4296/（0.4296+0.5629）=43.28% n应进一步拟合多水平模型空模型加入场景变量空模型加入场景变量 n3步迭

11、代完成，随机截距有意义； n所有随机系数的检验部分低于检验水准； n该模型-2LL=345.8，空模型-2LL=352.2，则LR2=6.4，p=0.0114； nRB=1-0.3330/0.4296=0.2248; 加入水平1变量（固定效应）加入水平1变量（固定效应） n3步迭代完成，随机截距有意义； n所有随机系数的检验部分低于检验水准； n该模型-2LL=199.1，前模型-2LL=345.8，则LR2=146.7，p=0.000；检验水平1的随机性检验水平1的随机性 n4步迭代完成，2个随机系数均有意义； n所有随机系数的检验部分低于检验水准； n该模型-2LL=185.6，

12、前模型-2LL=199.1，则LR2=3.5，p=0.1738；跨层交互作用评估跨层交互作用评估 n5步迭代完成，随机截距有意义，但交互项没意义； n-2LL等都对前模型有所增加； n跨层交互作用不显著。建模一般步骤 n运行空模型以获得ICC，判断是否进行多层模型拟合； n加入水平2解释变量； n加入水平1解释变量； n检验水平1随机斜率； n检验跨水平交互作用（全模型）。发展模型传统纵向数据分析方法的局限性 n重复测量的方差分析； n假设残差方差在各时间点上相等； n或，假设任何时点之间的残差方差的差异相等（即所谓“球面（sphericity）”假设或称 “环形（circu

13、larity）”假设）； n要求完整均衡数据，即等时距，无缺失。发展模型的优点 n可处理缺失和不完整数据； n可处理不等时距问题； n不要求对象内独立即其它的限制性假设； n可以容易的加入时间依赖自变量。发展模型与一般多层模型的区别 SAS程序 nproc mixed covtest ic; nclass id timec; nmodel y=trt | time / s ddfm=KR notest; nrandom int time / subject=id G type=UN; nrepeated timec / subject=id R type=AR(1); nrun; 离散型结

14、局变量的多层统计模型广义线性模型 n随机成分（random components）：指的是分布，一般为指数族分布； n系统成分（systematic component）：即传统回归模型形态； n链接函数（link function）广义线性混合效应模型 n对广义线性模型和多层统计模型的结合和扩展。广义线性混合效应模型的估计方法 n线性化法（linearization methods） n数值法积分近似法（integral approximation with numerical methods）线性化法 n使用泰勒展开式等技术来近似估计该积分似然函数； n不使用原始数据，而

15、是按原始数据产生伪数据（pseudo-data）进行估计； nSAS中的GLMMIX过程。线性化法的优点和局限性 n模型的联合分布难于确定，也可以胜任； n可拟合较多随机效应； n允许不同结构的R矩阵； n可以使用REML等； n由于使用伪数据进行拟合，不能使用LR进行模型比较； nSAS提供的随机效应的标准误有偏，不能用于假设检验。数值法积分近似法 n使用原始数据估算边际积分似然函数的近似值； n默认的是适应性高斯求积法； n并可使用多种优化技术，默认的是二元准牛顿算法； nSAS中的NLMIXED过程。数值法积分近似法的优点和局限性 n使用原始数据进行拟合，可以使用LR进行模型比较； nSAS提供显著性检验； n非常耗时，且不易收敛； n不能随意设定R的结构； n只能使用ML。各种离散型结局变量模型 n多层logistic回归模型多层累积logistic回归模型；多层多项logistic回归模型； n多层poisson回归模型； n 谢谢大家！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 多层统计分析模型

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：多层统计分析模型.ppt
链接地址：https://www.31doc.com/p-2242683.html