《多层统计分析模型.ppt》由会员分享,可在线阅读,更多相关《多层统计分析模型.ppt(70页珍藏版)》请在三一文库上搜索。
1、多层统计分析模型 陶庄 中国CDC卫生统计研究室 绪论 青蛙与池塘(“Frog-pond theory”) n青蛙学生个体; n池塘学校环境; n学生的成绩好坏不仅受到个体本身的影响 ,也受到学校环境的影响! 多层数据 n低一层(低水平)单位(个体)的数据嵌 套(nested)于高一层(高水平)的单位 (组群)之中。 n结局变量,个体解释变量,场景变量( contextual variables) 组内观察相关 (within-group observation dependence) n同一组内的个体,较不同组的个体而言, 在观念、行为等很多方面更为接近或相似 ;即便不是刻意分组,也是如此。
2、 n组内同质(within-group homogeneity), 组间异质(between-group heterogeneity) n很小的相关将导致很大的I类错误。 多层数据的常见来源 n复杂抽样; n多中心临床试验; n纵向研究(longitudinal studies)与重复测 量(repeated measures); n“高低搭配”; nMeta分析; n 多层统计模型的研究内容 n哪些个体解释变量会影响结局变量; n哪些场景变量会影响结局变量; n个体解释变量对结局变量的影响是否会受 到场景变量的影响。 多层统计模型出现前 对多层数据进行分析 的探索 探索(1)分别估计 n在个
3、体水平和组群水平分别进行分析; n试图用单一的个体水平模型的分析结果来推论另 一水平的统计结果。 探索(2)传统回归 n用传统的固定效应回归模型中一般的交互项理解 多层数据中的跨层(cross-level)交互作用。 探索(3)两步模型 (two-stage model) n第一步模型,对各组分别进行同一回归模 型估计,获得一系列的系数; n对这些系数的恒定性进行检验; n如果不恒定,则进行第二步模型,以组变 量为因变量,系数为自变量进行回归。 探索(3)两步模型的问题 n无论哪一步均使用OLS,并不适用; n当组群过多,则十分麻烦; n某些组内样本量很少时,进行回归不稳定 ; n将每个组群认
4、为是不相关的,忽略了其为 从一大样本中抽取的事实。 多层统计模型的出现 n研究的学者很多; n系统的主要为两; n研究的理论没有根本上的分歧; n双方研究成果的发布时间基本相同(上世纪80年 代末90年代初); n分别有各自分析的成熟的软件; n目前,大家基本上接受两组人分别独立开发出同 一模型的结果。 S. Raudenbush与A. Bryk n模型称为:hierarchical linear model; n软件为:HLM H. Goldstein n模型称为:multilevel models; n软件为:MLwiN(早期版本称ML3,MLn) 多层统计模型的名称 nmultileve
5、l models nhierarchical linear model nrandom-effect model nrandom coefficient model nvarious component model nmixed-effect model nempirical Bayes model 多层统计模型的优点 n同时分析组效应和个体效应; n不需有独立性假设; n对稀疏(sparse)数据,即每组样本很少 的数据,特别有效; n特别适合对发展模型(GM)的分析。 多层统计模型的局限性(1) n模型复杂,不够简约; n需较大样本以保证稳定性; n组群数量较少,会出现偏倚; n高水平单位
6、并非严格抽样获得; n某些场景变量通常是各组个体的聚集性测 量,而不是总体内个体的聚集性测量; 多层统计模型的局限性(2) n研究对象一般具有流动性,即受到群组影 响的程度不同,虽可用出入时间进行控制 ,但此信息一般不可知; n依然存在自变量带有测量误差的问题,必 需借助于结构方程模型(SEM); n完全嵌套假设,即每一个低水平单位嵌套 、且仅嵌套于一个高水平单位。 用于多层统计模型的软件 n专门软件:HLM;MLwiN;SuperMIX; aML;EGRET;LISREL;Mplus等。 n通用统计学软件:SAS;SPSS;stata;S- plus/R等。 线性多层统计模型 基础知识 组内
7、相关系数 (Intra-Class Correlation Coefficient, ICC) n组间方差占总方差的比例。 n可使用对“空模型”的拟合获得; n值域在0到1之间,越接近1,说明相关越明显; n对ICC的检验是是否选择多层模型的依据。 两水平模型的公式表达 空模型(又称截距模型) 两个水平1自变量、一个水平2自变量 一般模型 SAS中的公式表达 模型假设 模型假设SAS的表达 固定和随机回归系数 模型估计方法 最大似然法(ML) n包括普通最大似然法(ML)和限制性最大似然法 (REML); n两者用于估计的残差基础不同,后者的残差包括 所有的随机变异; nREML是SAS的MI
8、XED过程和HLM的默认算法; nREML通常用于组数量较少的模型; nML可以用于模型比较,而REML不行; nREML估计较优,而ML较快。 最小二乘法(LS) n包括迭代广义最小二乘法(IGLS)和限制 性迭代广义最小二乘法(RIGLS) n都以普通最小二乘估计(OLS)为初始值 进行迭代; n地位及相对关系大致等同于ML和REML; n是MLwiN使用的算法。 经验Bayes方法(EB) n“收缩估计(shrinkage estimator)” n以可靠性权重确定最后的估计值; n对于某些样本量很小的组,则更多的使用总样本 的信息,进行“借力(borrow strength)” 空模型
9、的可靠性权重 对模型拟合的评价 nSAS给出:-2LL,AIC,AICC,BIC等统计 量,其值越小越好; n但只在比较模型时有用; n模型收敛的速度可以说明拟合的好坏。 假设检验 n全局检验:F检验; n局部检验:对方差-协方差估计使用Wald Z 检验;对系数使用t检验; n单测检验,P值需除2; n其它可使用LR等。 模型比较 n对于嵌套模型,使用LR检验; n对于非嵌套模型,使用AIC,AICC和BIC检 验; n无论何种,均需使用ML进行估计。 对变异的解释程度(RB) 对变异的解释程度(SB) 示例与SAS实现 例1:对医生满意度调查 nPatid:病人编号; nPhys:医生编号
10、; nAge:病人年龄; nSat:满意度分数; nPractice:执业时间; 空模型 空模型 n2步迭代完成; n所有随机系数的检验均高于检验水准; nICC=0.00292/(0.00292+1.291)=0.23% n不用进一步拟合多水平模型 例2:SNA角度测量值 nid:观察对象编号; nocca:每次观察编号; nAge:病人年龄; nSNA:角度; nagg:场景变量; 空模型 n3步迭代完成; n所有随机系数的检验部分低于检验水准; nICC=0.4296/(0.4296+0.5629)=43.28% n应进一步拟合多水平模型 空模型加入场景变量 空模型加入场景变量 n3步迭
11、代完成,随机截距有意义; n所有随机系数的检验部分低于检验水准; n该模型-2LL=345.8,空模型-2LL=352.2, 则LR2=6.4,p=0.0114; nRB=1-0.3330/0.4296=0.2248; 加入水平1变量(固定效应) 加入水平1变量(固定效应) n3步迭代完成,随机截距有意义; n所有随机系数的检验部分低于检验水准; n该模型-2LL=199.1,前模型-2LL=345.8, 则LR2=146.7,p=0.000; 检验水平1的随机性 检验水平1的随机性 n4步迭代完成,2个随机系数均有意义; n所有随机系数的检验部分低于检验水准; n该模型-2LL=185.6,
12、前模型-2LL=199.1, 则LR2=3.5,p=0.1738; 跨层交互作用评估 跨层交互作用评估 n5步迭代完成,随机截距有意义,但交互项 没意义; n-2LL等都对前模型有所增加; n跨层交互作用不显著。 建模一般步骤 n运行空模型以获得ICC,判断是否进行多层 模型拟合; n加入水平2解释变量; n加入水平1解释变量; n检验水平1随机斜率; n检验跨水平交互作用(全模型)。 发展模型 传统纵向数据分析方法的局限性 n重复测量的方差分析; n假设残差方差在各时间点上相等; n或,假设任何时点之间的残差方差的差异 相等(即所谓“球面(sphericity)”假设或称 “环形(circu
13、larity)”假设); n要求完整均衡数据,即等时距,无缺失。 发展模型的优点 n可处理缺失和不完整数据; n可处理不等时距问题; n不要求对象内独立即其它的限制性假设; n可以容易的加入时间依赖自变量。 发展模型与一般多层模型的区别 SAS程序 nproc mixed covtest ic; nclass id timec; nmodel y=trt | time / s ddfm=KR notest; nrandom int time / subject=id G type=UN; nrepeated timec / subject=id R type=AR(1); nrun; 离散型结
14、局变量的多 层统计模型 广义线性模型 n随机成分(random components):指的 是分布,一般为指数族分布; n系统成分(systematic component):即传 统回归模型形态; n链接函数(link function) 广义线性混合效应模型 n对广义线性模型和多层统计模型的结合和 扩展。 广义线性混合效应模型的估计方法 n线性化法(linearization methods) n数值法积分近似法(integral approximation with numerical methods) 线性化法 n使用泰勒展开式等技术来近似估计该积分 似然函数; n不使用原始数据,而
15、是按原始数据产生伪 数据(pseudo-data)进行估计; nSAS中的GLMMIX过程。 线性化法的优点和局限性 n模型的联合分布难于确定,也可以胜任; n可拟合较多随机效应; n允许不同结构的R矩阵; n可以使用REML等; n由于使用伪数据进行拟合,不能使用LR进行模型 比较; nSAS提供的随机效应的标准误有偏,不能用于假 设检验。 数值法积分近似法 n使用原始数据估算边际积分似然函数的近 似值; n默认的是适应性高斯求积法; n并可使用多种优化技术,默认的是二元准 牛顿算法; nSAS中的NLMIXED过程。 数值法积分近似法的优点和局限性 n使用原始数据进行拟合,可以使用LR进行 模型比较; nSAS提供显著性检验; n非常耗时,且不易收敛; n不能随意设定R的结构; n只能使用ML。 各种离散型结局变量模型 n多层logistic回归模型 多层累积logistic回归模型; 多层多项logistic回归模型; n多层poisson回归模型; n 谢谢大家!
链接地址:https://www.31doc.com/p-2242683.html