SPSS如何进行线性回归分析操作.doc

资源ID：3313021 资源大小：1.22MB 全文页数：45页
资源格式： DOC 下载积分：6元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要6元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

SPSS如何进行线性回归分析操作.doc

SPSS如何进行线性回归分析操作本节内容主要介绍如何确定并建立线性回归方程。包括只有一个自变量的一元线性回归和和含有多个自变量的多元线性回归。为了确保所建立的回归方程符合线性标准，在进行回归分析之前，我们往往需要对因变量与自变量进行线性检验。也就是类似于相关分析一章中讲过的借助于散点图对变量间的关系进行粗略的线性检验，这里不再重复。另外，通过散点图还可以发现数据中的奇异值，对散点图中表示的可能的奇异值需要认真检查这一数据的合理性。一、一元线性回归分析用SPSS进行回归分析，实例操作如下：1. 单击主菜单Analyze / Regression / Linear，进入设置对话框如图7-9所示。从左边变量表列中把因变量y选入到因变量（Dependent）框中，把自变量x选入到自变量（Independent）框中。在方法即Method一项上请注意保持系统默认的选项Enter，选择该项表示要求系统在建立回归方程时把所选中的全部自变量都保留在方程中。所以该方法可命名为强制进入法（在多元回归分析中再具体介绍这一选项的应用）。具体如下图所示：2. 请单击Statistics按钮，可以选择需要输出的一些统计量。如Regression Coefficients(回归系数)中的Estimates，可以输出回归系数及相关统计量，包括回归系数B、标准误、标准化回归系数BETA、T值及显著性水平等。Model fit项可输出相关系数R，测定系数R2，调整系数、估计标准误及方差分析表。上述两项为默认选项，请注意保持选中。设置如图7-10所示。设置完成后点击Continue返回主对话框。回归方程建立后，除了需要对方程的显著性进行检验外，还需要检验所建立的方程是否违反回归分析的假定，为此需进行多项残差分析。由于此部分内容较复杂而且理论性较强，所以不在此详细介绍，读者如有兴趣，可参阅有关资料。3. 用户在进行回归分析时，还可以选择是否输出方程常数。单击Options按钮，打开它的对话框，可以看到中间有一项Include constant in equation可选项。选中该项可输出对常数的检验。在Options对话框中，还可以定义处理缺失值的方法和设置多元逐步回归中变量进入和排除方程的准则，这里我们采用系统的默认设置，如图7-11所示。设置完成后点击Continue返回主对话框。4. 在主对话框点击OK得到程序运行结果。如题。我选择的是线性回归，得出了一堆表格和图标。我做的是生物学方面的统计。我的目标是得出模拟方程，再根据已有的自变量来计算因变量。我是spss新手，而且我对逐步回归也不了解。但由于工作原因，必须得到模拟方程。请高手告诉我我的这个统计符不符合线性关系，如果符合，怎么写模拟方程，谢谢！以下是部分截图。分享到：2013-11-16 19:52提问者采纳x1,x2.x5是5个自变量，1个y因变量。系数a图中是将x1与y建立一个线性回归模型，常量为1.956E-6，sig. 也即P值=1> 0.05，无统计学意义，x1的斜率为-0.504，P=0.000<0.05，具有显著意义，常量和斜率看非标准化系数，得方程为y= -0.504x1+1.956E-6，这其实是个一元线性回归方程；然后逐渐的加入x2,x3,x4,x5进行二元线性回归，三元线性回归等。一旦有一个变量,如x3的P值>0.05也就说明这个变量对模型的建立无统计学意义，在多元线性回归中也就可以无情的剔除掉。而由系数a图可知，x1, x2,x3,x4,x5的斜率P值都是0.000<0.05，也就是说都有意义，5个变量一个也不能剔除，全保留，也即要5个变量都有的模型6了。由模型汇总图也可知，模型1到6的调整R方是越来越大的，也即拟合的越来越好了。那么最终的线性方程就看模型6啦，常量0.002，x1斜率-0.860，x2斜率-0.713.后面看不到了。也即y=0.002-0.860x1-0.713x2.常量P值=0.974>0.05无显著性意义，说明拟合的线过原点，也即常量值应为0，但是否能改为0这个我也不确定，但0或0.002差别不会太大的。追问厉害，一看就是高手。不好意思，系数那个表里缺一块，我现在补上，再把另外几个表补上。还有点问题想请指教。1.你说的那个常量为1.965E-6，这个E是什么意思？2.自变量一共有6个，从x1到x6,可能是我那个表缺一块的原因吧，抱歉了。系数表缺的部分：其它表：能否将最终的模拟方程式写出来，不胜感激！回答1.965E-6是指1.965乘10的-6次方。已排除的变量表对应系数a表，模型1对应模型1，也即前一个表是进入，相对的后一个就排除。模型1进入了x1，排除的x2,x3,x4,x5,x6中的x2的P值<0.05还不能排除，还要进入分析，模型2，3等依次类推，一个也排除不掉。全部进入回归方程。另，如果两变量间存在共线性的话，是不能都进入回归方程的。判断依据为膨胀因子VIF10，倒数即容差01，已排除变量图上可知各变量间不存在共线性，都不用排除。常量P值>0.05可以去掉，各变量的斜率选用模型6的标准系数。因而最终回归方程为：y=-0.860x1-0.713x2-0.567x3-0.414x4-0.254x5-0.130x6回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领域中，此类问题很普遍，如人头发中某种金属元素的含量与血液中该元素的含量有关系，人的体表面积与身高、体重有关系；等等。回归分析就是用于说明这种依存变化的数学关系。第一节 Linear过程 8.1.1 主要功能调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中，用户还可根据需要，选用不同筛选自变量的方法（如：逐步法、向前法、向后法，等）。8.1.2 实例操作例8.1某医师测得10名3岁儿童的身高（cm）、体重（kg）和体表面积（cm2）资料如下。试用多元回归方法确定以身高、体重为自变量，体表面积为应变量的回归方程。儿童编号体表面积（Y）身高（X1）体重（X2）123456789105.3825.2995.3585.2925.6026.0145.8306.1026.0756.41188.087.688.589.087.789.588.890.490.691.211.011.812.012.313.113.714.414.915.216.0 8.1.2.1 数据准备激活数据管理窗口，定义变量名：体表面积为Y，保留3位小数；身高、体重分别为X1、X2，1位小数。输入原始数据，结果如图8.1所示。图8.1 原始数据的输入 8.1.2.2 统计分析激活Statistics菜单选Regression中的Linear.项，弹出Linear Regression对话框（如图8.2示）。从对话框左侧的变量列表中选y，点击Ø钮使之进入Dependent框，选x1、x2，点击Ø钮使之进入Indepentdent(s)框；在Method处下拉菜单，共有5个选项：Enter（全部入选法）、Stepwise（逐步法）、Remove（强制剔除法）、Backward（向后法）、Forward（向前法）。本例选用Enter法。点击OK钮即完成分析。用户还可点击Statistics.钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析；点击Plots.钮选择是否作变量分布图（本例要求对标准化Y预测值作变量分布图）；点击Save.钮选择对回归分析的有关结果是否作保存（本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存）；点击Options.钮选择变量入选与剔除的、值和缺失值的处理方法。 8.1.2.3 结果解释在结果输出窗口中将看到如下统计数据： * * * * M U L T I P L E R E G R E S S I O N * * * * Listwise Deletion of Missing DataEquation Number 1 Dependent Variable. YBlock Number 1. Method: Enter X1 X2 Variable(s) Entered on Step Number 1. X2 2. X1 Multiple R .94964R Square .90181Adjusted R Square .87376Standard Error .14335Analysis of Variance DF Sum of Squares Mean SquareRegression 2 1.32104 .66052Residual 7 .14384 .02055F = 32.14499 Signif F = .0003 - Variables in the Equation -Variable B SE B Beta T Sig TX1 .068701 .074768 .215256 .919 .3887X2 .183756 .056816 .757660 3.234 .0144(Constant) -2.856476 6.017776 -.475 .6495 End Block Number 1 All requested variables entered. 结果显示，本例以X1、X2为自变量，Y为应变量，采用全部入选法建立回归方程。回归方程的复相关系数为0.94964，决定系数（即r2）为0.90181，经方差分析，F=34.14499，P=0.0003，回归方程有效。回归方程为Y=0.0687101X1+0.183756X2-2.856476。本例要求按所建立的回归方程计算Y预测值和标准化Y预测值（所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值）并将计算结果保存入原数据库。系统将原始的X1、X2值代入方程求Y值预测值（即库中pre_1栏）和标准化Y预测值（即库中zpr_1栏），详见图8.3。图8.3 计算结果的保存本例还要求对标准化Y预测值作变量分布图，系统将绘制的统计图送向Chart Carousel窗口，双击该窗口可见下图显示结果。图8.4 对标准化Y预测值所作的正态分布图第二节 Curve Estimation过程 8.2.1 主要功能调用此过程可完成下列有关曲线拟合的功能： 1、Linear：拟合直线方程（实际上与Linear过程的二元直线回归相同，即Y = b0+ b1X）； 2、Quadratic：拟合二次方程（Y = b0+ b1X+b2X2）； 3、Compound：拟合复合曲线模型（Y = b0×b1X）； 4、Growth：拟合等比级数曲线模型（Y = e(b0+b1X)）； 5、Logarithmic：拟合对数方程（Y = b0+b1lnX） 6、Cubic：拟合三次方程（Y = b0+ b1X+b2X2+b3X3）； 7、S：拟合S形曲线（Y = e(b0+b1/X)）； 8、Exponential：拟合指数方程（Y = b0 eb1X）； 9、Inverse：数据按Y = b0+b1/X进行变换； 10、Power：拟合乘幂曲线模型（Y = b0X b1）； 11、Logistic：拟合Logistic曲线模型（Y = 1/（1/u + b0×b1X）。 8.2.2 实例操作例8.2某地1963年调查得儿童年龄（岁）X与锡克试验阴性率（%）Y的资料如下，试拟合对数曲线。年龄（岁）X锡克试验阴性率（%）Y123456757.176.090.993.096.795.696.2 8.2.2.1 数据准备激活数据管理窗口，定义变量名：锡克试验阴性率为Y，年龄为X，输入原始数据。 8.2.2.2 统计分析激活Statistics菜单选Regression中的Curve Estimation.项，弹出Curve Estimation对话框（如图8.5示）。从对话框左侧的变量列表中选y，点击Ø钮使之进入Dependent框，选x，点击Ø钮使之进入Indepentdent(s)框；在Model框内选择所需的曲线模型，本例选择Logarithmic模型（即对数曲线）；选Plot models项要求绘制曲线拟合图；点击Save.钮，弹出Curve Estimation:Save对话框，选择Predicted value项，要求在原始数据库中保存根据对数方程求出的Y预测值，点击Continue钮返回Curve Estimation对话框，再点击OK钮即可。 8.2.2.3 结果解释在结果输出窗口中将看到如下统计数据： ndependent: X Dependent Mth Rsq d.f. F Sigf b0 b1 Y LOG .913 5 52.32 .001 61.3259 20.6704 在以X为自变量、Y为应变量，采用对数曲线拟合方法建立的方程，决定系数R2=0.913（接近于1），作拟合优度检验，方差分析表明：F=52.32，P=0.001，拟合度很好，对数方程为：Y=61.3259+20.6704lnX。本例要求绘制曲线拟合图，结果如图8.6所示。图8.6 对数曲线拟合情形根据方程Y=61.3259+20.6704lnX，将原始数据X值代入，求得Y预测值（变量名为fit_1）存入数据库中，参见图8.7。图8.7 计算结果的保存第三节 Logistic过程 8.3.1 主要功能调用此过程可完成Logistic回归的运算。所谓Logistic回归，是指应变量为二级计分或二类评定的回归分析，这在医学研究中经常遇到，如：死亡与否（即生、死二类评定）的概率跟病人自身生理状况和所患疾病的严重程度有关；对某种疾病的易感性的概率（患病、不患病二类评定）与个体性别、年龄、免疫水平等有关。此类问题的解决均可借助逻辑回归来完成。特别指出，本节介绍的Logistic过程，应与日常所说的Logistic曲线模型（即S或倒S形曲线）相区别。用户如果要拟合Logistic曲线模型，可调用本章第二节Curve Estimation过程，系统提供11种曲线模型，其中含有Logistic曲线模型（参见上节）。在一般的多元回归中，若以P（概率）为应变量，则方程为P=b0+b1X1+b2X2+bkXk,但用该方程计算时，常会出现P>1或P<0的不合理情形。为此，对P作对数单位转换，即logitP=ln(P/1-P)，于是，可得到Logistic回归方程为： eb0+b1X1+b2X2+bkXk P = 1+ eb0+b1X1+b2X2+bkXk 8.3.2 实例操作例8.3某医师研究男性胃癌患者发生术后院内感染的影响因素，资料如下表，请通过Logistic回归统计方法对主要影响因素进行分析。术后感染（有无）Y年龄（岁）X1手术创伤程度（5等级）X2营养状态（3等级）X3术前预防性抗菌（有无）X4白细胞数（×109/L）X5癌肿病理分度（TNM得分总和）X6有有无无无有无有有无无无无无无697257413265585455596436424850453113342121341232113222121122无无无有有有有无有有无有有有有5.64.49.711.210.47.03.16.67.96.09.18.45.34.612.8964555667468654 8.3.2.1 数据准备激活数据管理窗口，定义变量名：术后感染为Y（字符变量，有输入Y、无输入N），年龄为X1，手术创伤程度为X2，营养状态为X3，术前预防性抗菌为X4（字符变量，有输入Y、无输入N），白细胞数为X5，癌肿病理分度为X6。按要求输入原始数据。 8.3.2.2 统计分析激活Statistics菜单选Regression中的Logistic.项，弹出Logistic Regression对话框（如图8.8示）。从对话框左侧的变量列表中选y，点击Ø钮使之进入Dependent框，选x1、x2、x3、x4、x5和x6，点击Ø钮使之进入Covariates框；点击Method处的下拉按钮，系统提供7种方法： 1、Enter：所有自变量强制进入回归方程； 2、Forward: Conditional：以假定参数为基础作似然比概率检验，向前逐步选择自变量； 3、Forward: LR：以最大局部似然为基础作似然比概率检验，向前逐步选择自变量； 4、Forward: Wald：作Wald概率统计法，向前逐步选择自变量； 5、Backward: Conditional：以假定参数为基础作似然比概率检验，向后逐步选择自变量； 6、Backward: LR：以最大局部似然为基础作似然比概率检验，向后逐步选择自变量； 7、Backward: Wald：作Wald概率统计法，向后逐步选择自变量。本例选用Forward: Conditional法，以便选择有主要作用的影响因素；点击Options.钮，弹出Logistic Regression:Options对话框，在Display框中选取At last step项，要求只显示最终计算结果，点击Continue钮返回Logistic Regression对话框，再点击OK钮即可。 8.3.2.3 结果解释在结果输出窗口中将看到如下统计数据： Dependent Variable Encoding:Original InternalValue Valuey 0n 1 Parameter Value Freq Coding (1)X4 n 5 1.000 y 10 -1.000 系统先对字符变量进行重新赋值，对于应变量Y，回答是（Y）的赋值为0，回答否（X）的赋值为1；对于应变量X4，回答是（Y）的赋值为-1，回答否（X）的赋值为1。 Dependent Variable. YBeginning Block Number 0. Initial Log Likelihood Function-2 Log Likelihood 19.095425* Constant is included in the model. Beginning Block Number 1. Method: Forward Stepwise (COND) Improv. Model CorrectStep Chi-Sq. df sig Chi-Sq. df sig Class % Variable 1 8.510 1 .004 8.510 1 .004 80.00 IN: X3 2 6.766 1 .009 15.276 2 .000 93.33 IN: X6 No more variables can be deleted or added. End Block Number 1 PIN = .0500 Limits reached.Final Equation for Block 1 Estimation terminated at iteration number 12 becauseLog Likelihood decreased by less than .01 percent.-2 Log Likelihood 3.819Goodness of Fit 3.000 Chi-Square df Significance Model Chi-Square 15.276 2 .0005 Improvement 6.766 1 .0093 Classification Table for Y Predicted y n Percent Correct y | nObserved + y y | 4 | 1 | 80.00% + n n | 0 | 10 | 100.00% + Overall 93.33% - Variables in the Equation -Variable B S.E. Wald df Sig R Exp(B)X3 -30.5171 298.0526 .0105 1 .9184 .0000 .0000X6 -10.2797 107.9559 .0091 1 .9241 .0000 .0000Constant 123.4053 1155.1065 .0114 1 .9149 结果表明，第一步自变量X3入选，方程分类能力达80.00%；第二步自变量X6入选，方程分类能力达93.33%（参见结果中的分类分析表）；方程有效性经2检验，2=15.276，P=0.0005。 Logistic回归的分类概率方程为： e123.4053-30.5171X3-10.2797X6 P = 1+ e123.4053-30.5171X3-10.2797X6 根据该方程，若一胃癌患者营养状态评分（X3）为3，癌肿病理分度（X6）为9，则其P=4.5×10-270，这意味着术后将发生院内感染；另一胃癌患者营养状态评分（X3）为1，癌肿病理分度（X6）为4，则其P=0.981051，这意味着术后将不会发生院内感染。第四节 Probit过程 8.4.1 主要功能调用此过程可完成剂量-效应关系的分析。通过概率单位使剂量-效应的S型曲线关系转化成直线，从而利用回归方程推算各效应水平的相应剂量值。 8.4.2 实例操作例8.4研究抗疟药环氯胍对小白鼠的毒性，试验结果如下表所示。试计算环氯胍的半数致死剂量。剂量（mg/kg）动物数死亡数12976543571934381255611171220 8.4.2.1 数据准备激活数据管理窗口，定义变量名：剂量为DOSE、试验动物数为OBSERVE、死亡动物数为DEATH。然后输入原始数据。 8.4.2.2 统计分析激活Statistics菜单选Regression中的Probit.项，弹出Probit Analysis对话框（如图8.9示）。从对话框左侧的变量列表中选death，点击Ø钮使之进入Response Frequency框；选observe，点击Ø钮使之进入Total Observed框；选dose，点击Ø钮使之进入Covariate(s)框，并下拉Transform菜单，选Log base 10项（即要求对剂量进行以10为底的对数转换）。系统在Model栏中提供两种模型，一是概率单位模型（Probit），另一是比数比自然对数模型（Logit）。本例选用概率单位模型。点击Options.钮，弹出Probit Analysis:Options对话框，在Natural Response Rate栏选Calculate from data项，要求计算各剂量组的实际反应率。之后点击Continue钮返回Probit Analysis对话框，再点击OK钮即可。 8.4.2.3 结果解释在结果输出窗口中将看到如下统计数据：系统首先显示，共有7组原始数据采概率单位模型进行分析。回归方程的各参数在经过14次叠代运算后确定，即PROBIT = 5.95215 - 4.66313X 。该方程拟合优度2检验结果，2 = 0.833，P=0.934，拟合良好。 DATA Information 7 unweighted cases accepted. 0 cases rejected because of missing data. 0 cases are in the control group. 0 cases rejected because LOG-transform can't be done.MODEL Information ONLY Normal Sigmoid is requested. Natural Response rate to be estimated CONTROL group is not provided. Parameter estimates converged after 14 iterations. Optimal solution found. Parameter Estimates (PROBIT model: (PROBIT(p) = Intercept + BX): Regression Coeff. Standard Error Coeff./S.E. DOSE 5.95215 2.39832 2.48180 Intercept Standard Error Intercept/S.E. -4.66313 2.19942 -2.12017 Estimate of Natural Response Rate = .000000 with S.E. = .26448 Pearson Goodness-of-Fit Chi Square = .833 DF = 4 P = .934 Since Goodness-of-Fit Chi square is NOT significant, no heterogeneity factor is used in the calculation of confidence limits. Covariance(below) and Correlation(above) Matrices of Parameter Estimates DOSE NAT RESP DOSE 5.75192 .82927 NAT RESP .52601 .06995 接着，系统显示剂量对数值（DOSE）、实际观察例数（Number of Subjects）、试验动物反应数（Observed Responses）、预期反应数（Expected Responses）、残差（ Residual）和效应的概率（Prob）。之后，显示各效应概率水平的剂量值及其95%可信区间值，按本例要求，环氯胍的半数致死剂量（即Prob = 0.50时）为6.07347，其95%可信区间为1.863057.54282。 Observed and Expected Frequencies Number of Observed Expected DOSE Subjects Responses Responses Residual Prob 1.08 5.0 5.0 4.804 .196 .96082 .95 7.0 6.0 5.917 .083 .84534 .85 19.0 11.0 12.221 -1.221 .64320 .78 34.0 17.0 16.573 .427 .48745 .70 38.0 12.0 11.688 .312 .30757 .60 12.0 2.0 1.682 .318 .14016 .48 5.0 .0 .171 -.171 .03413 Confidence Limits for Effective DOSE 95% Confidence Limits Prob DOSE Lower Upper .01 2.46942 .02752 4.27407 .02 2.74406 .04534 4.54351 .03 2.93394 .06223 4.72430 .04 3.08539 .07895 4.86574 .05 3.21433 .09580 4.98445 .06 3.32832 .11294 5.08821 .07 3.43158 .13047 5.18134 .08 3.52676 .14845 5.26651 .09 3.61561 .16694 5.34550 .10 3.69937 .18597 5.41954 .15 4.06733 .29060 5.74092 .20 4.38570 .41395

注意事项

本文（SPSS如何进行线性回归分析操作.doc）为本站会员（李主任）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。