直线回归与相关PPT课件.ppt
《直线回归与相关PPT课件.ppt》由会员分享,可在线阅读,更多相关《直线回归与相关PPT课件.ppt(53页珍藏版)》请在三一文库上搜索。
1、直线相关与回归直线相关与回归主讲教师主讲教师 熊伟熊伟1教学大纲教学大纲l了解最小二乘法原理,回归系数、相关了解最小二乘法原理,回归系数、相关系数的计算,直线回归方程的应用。系数的计算,直线回归方程的应用。l掌握直线回归、直线相关的概念,回归掌握直线回归、直线相关的概念,回归系数、相关系数的意义及其假设检验方系数、相关系数的意义及其假设检验方法。法。l重点是回归系数、相关系数的意义。重点是回归系数、相关系数的意义。l难点是直线回归与直线相关的区别和联难点是直线回归与直线相关的区别和联系。系。2复习复习 已学过的基本统计推断方法:已学过的基本统计推断方法:t检验、检验、u检验、检验、2检验、检验
2、秩和检验秩和检验l请思考:以上的统计方法研究了几个变请思考:以上的统计方法研究了几个变量?(在确定的总体之后,研究者则应量?(在确定的总体之后,研究者则应对每个研究单位的某项特征进行测量和对每个研究单位的某项特征进行测量和观察,这种特征称为变量)观察,这种特征称为变量)3l19861986年某市抽样调查了市区年某市抽样调查了市区309309名名1616岁健康男孩的身高。均数岁健康男孩的身高。均数162.28162.28厘米,厘米,标准差标准差6.396.39厘米,该人群身高呈正态厘米,该人群身高呈正态分布。分布。19761976年该市年该市1616岁男孩身高的岁男孩身高的总体均数为总体均数为
3、161.10161.10厘米,试问厘米,试问19861986年年该市区该市区1616岁男孩身高是否比岁男孩身高是否比19761976年有年有所增高?所增高?l请问此题有几个变量?假如我们要研请问此题有几个变量?假如我们要研究究1616岁健康男孩的身高与体重的关系岁健康男孩的身高与体重的关系情况,则有几个变量?情况,则有几个变量?4单变量分析单变量分析(univariate analysis):t检检验、验、u检验、检验、2检验检验、秩和检验、方差分、秩和检验、方差分析析 双变量分析双变量分析(multivariate analysis):人人的身高与体重,体温与脉搏次数,年龄的身高与体重,体温
4、与脉搏次数,年龄与血压,药剂量与疗效,体表面积与肺与血压,药剂量与疗效,体表面积与肺活量,身高与臂长活量,身高与臂长 5双变量有双变量有2种情况种情况两个变量都是随机变量,以两个变量都是随机变量,以X和和Y表示。常见的表示。常见的是(是(X,Y)服从双变量正态分布,即任意)服从双变量正态分布,即任意X处处Y服从正态分布,任意服从正态分布,任意Y 处处X服从正态分布。比服从正态分布。比如某个人群的身高和体重之间的关系。如某个人群的身高和体重之间的关系。一个变量为选定变量,以一个变量为选定变量,以X表示,其表示,其X值为选定值为选定的;一个变量是随机变量,以的;一个变量是随机变量,以Y表示,其表示
5、其Y值值是随机变化的。最常见的是各是随机变化的。最常见的是各X处,处,Y服从正服从正态分布。例如选定变量为年龄态分布。例如选定变量为年龄X,用,用1岁作间距,岁作间距,随机变量为各岁处人群的身高随机变量为各岁处人群的身高Y,则各,则各X处处Y服服从正态分布。从正态分布。6两个变量间的数量关系就研究目的来两个变量间的数量关系就研究目的来说有两种说有两种互依关系互依关系:两个:两个X 和和Y变量都为随机变量,研究变量都为随机变量,研究X和和Y的彼此关系或彼此影响,用的彼此关系或彼此影响,用相关关系相关关系。依存关系依存关系:一个为自变量,用:一个为自变量,用 X表示;一个为应表示;一个为应变量,
6、用变量,用Y表示。研究表示。研究X对对Y的作用,或的作用,或Y对对X的的依赖,用依赖,用回归分析。回归分析。7单变量分析单变量分析 身高、体重、体温等各自的分布特征。身高、体重、体温等各自的分布特征。双变量分析:双变量分析:身高与体重的关系身高与体重的关系 体温与脉搏次数的关系体温与脉搏次数的关系 体表面积与肺活量的关系体表面积与肺活量的关系多变量分析:多变量分析:学习成绩与试题难度、学习成绩与试题难度、IQ、学习态度、学习态度、缺席情况、上课认真程度等的关系缺席情况、上课认真程度等的关系8变量间的相互关系变量间的相互关系l确定性关系:函数关系确定性关系:函数关系l非确定性关系:相关与回归非确
7、定性关系:相关与回归l简单相关与回归简单相关与回归l多元相关与回归多元相关与回归l直线相关与回归直线相关与回归l曲线相关与回归曲线相关与回归9第一节第一节 直线相关直线相关(linear correlation)10一、直线相关的概念一、直线相关的概念l相关:两个相关:两个(或多个或多个)变量之间存在变量之间存在相互关系相互关系及及关系紧密程度关系紧密程度。l直线相关:用来描述具有直线关系的两变量直线相关:用来描述具有直线关系的两变量X、Y间的相互关系。间的相互关系。11研究直线相关的目的研究直线相关的目的 研究两个随机变量研究两个随机变量X与与Y之间的之间的相相互关系互关系及其及其密切程度密
8、切程度。12直线相关的适用条件直线相关的适用条件随机变量随机变量X与与Y必须都服从正态分布必须都服从正态分布1314l怎样衡量有无直线相关关系?怎样衡量有无直线相关关系?l可见我们得引入新的研究指标,可见我们得引入新的研究指标,用来判断两变量是否有直线相关用来判断两变量是否有直线相关以及关系的密切程度。以及关系的密切程度。l该指标为该指标为相关系数相关系数15二、相关系数的意义和计算二、相关系数的意义和计算1 1、相关系数的意义:相关系数的意义:r的绝对值大小表示两变量之间的关系密的绝对值大小表示两变量之间的关系密切程度。切程度。r的范围:的范围:-1 r 1 。当当|r|=1时,为完全相关;
9、时,为完全相关;当当0r1时,为正相关;时,为正相关;当当-1r时,为负相关;时,为负相关;当当r时,为完全无关或无线性相关。时,为完全无关或无线性相关。1617l2 2、相关系数、相关系数的计算的计算18例例12.1 在脑血管疾病的诊断治疗中,脑脊液白细胞介素在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6(IL-6)水平是影响诊断与预后分析的一项重要指标,水平是影响诊断与预后分析的一项重要指标,但脑脊液在临床上有时又不容易采集到。某医生欲了但脑脊液在临床上有时又不容易采集到。某医生欲了解急性脑血管病病人血清与脑脊液解急性脑血管病病人血清与脑脊液IL-6水平,随机抽水平,随机抽取了某医院确诊的
10、取了某医院确诊的10例例蛛网膜下腔出血蛛网膜下腔出血(SAH)患者患者24小小时内血清时内血清IL-6(pg/ml)和脑脊液和脑脊液IL-6(pg/ml)数据如下,数据如下,问问SAH患者血清患者血清IL-6和脑脊液和脑脊液IL-6间是否有直线相关间是否有直线相关关系存在?关系存在?SAH患者第一天血清和脑脊液患者第一天血清和脑脊液IL-6(mg/ml)检测结果检测结果 患者号患者号 1 2 3 4 5 6 7 8 9 10 血清血清IL-6 22.4 51.6 58.1 25.1 65.9 79.7 75.3 32.4 96.4 85.7 脑脊液脑脊液IL-6 134.0 167.0 132
11、3 80.2 100.0 139.1 187.2 97.2 192.3 199.4193、直线相关分析步骤、直线相关分析步骤(1)、绘制、绘制散点图散点图 观察两变量间是否有直线趋势。观察两变量间是否有直线趋势。2021223、直线相关分析步骤、直线相关分析步骤(1)、绘制、绘制散点图 观察两变量间是否有直线趋势。观察两变量间是否有直线趋势。(2)、计算、计算相关系数相关系数:应用计算器或统计软件可以求得。应用计算器或统计软件可以求得。(参见实习六参见实习六)2324问题:我们能否得出结论说明问题:我们能否得出结论说明SAH患者血清患者血清IL-6和脑脊液和脑脊液IL-6间是间是有直线相关有
12、直线相关,相关系数是相关系数是0.7232。为什么?为什么?25相关系数的假设检验相关系数的假设检验 l上例中的相关系数上例中的相关系数r等于等于0.7232,说明了,说明了10例样本中例样本中SAH患者血清患者血清IL-6和脑脊液和脑脊液IL-6间是有直线相关间是有直线相关,但是,这但是,这10例只是例只是总体总体总体总体中的中的一个样本一个样本一个样本一个样本,由此得到的相关,由此得到的相关系数会存在抽样误差。因为,总体相关系数系数会存在抽样误差。因为,总体相关系数()为零为零时,由于抽样误差,从总体抽出的时,由于抽样误差,从总体抽出的10例,其例,其r可能不等可能不等于零。所以,要判断该
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 直线 回归 相关 PPT 课件
