第8章相关与回归分析.ppt
《第8章相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《第8章相关与回归分析.ppt(66页珍藏版)》请在三一文库上搜索。
1、第8章 相关与回归分析,8.1 相关与回归的基本概念 8.2 简单线性相关与回归分析 8.3 多元线性相关与回归分析 8.4 非线性相关与回归分析,学习目标,1. 变量间的相关关系与相关系数的计算 2. 总体回归函数与样本回归函数 3. 线性回归的基本假定 4. 简单线性回归参数的估计与检验 5. 多元线性回归参数的估计与检验 6. 多个变量的线性相关关系:复相关系数和偏相 关系数 7. 常用的可以转换为线性回归的非线性函数 8. 非线性相关指数,实例1: 中国妇女生育水平的决定因素是什么?,妇女生育水平除了受计划生育政策影响以外,还可能 与社会、经济、文化等多种因素有关。 1. 影响中国妇女
2、生育率变动的因素有哪些? 2. 各种因素对生育率的作用方向和作用程度如何? 3. 哪些因素是影响妇女生育率主要的决定性因素? 4. 如何评价计划生育政策在生育水平变动中的作用? 5. 计划生育政策与经济因素比较,什么是影响生育率的 决定因素? 6. 如果某些地区的计划生育政策及社会、经济、文化 等因素发生重大变化,预期对这些地区的妇女生育 水平会产生怎样的影响?,据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 (引自光明日报刘军/文) 问
3、题: 肥胖症和体重超常与死亡人数真有显著 的数量关系吗? 这些类型的问题可以运用相关分析与回归分析的方法去解决。,实例2: 全球吃死的人比饿死的人多?,8.1 相关与回归的基本概念,一、变量间的相互关系 二、相关关系的类型 三、相关分析与回归分析,一、变量间的相互关系,确定性的函数关系 Y=f (X) 不确定性的统计关系相关关系 Y= f(X)+ (为随机变量) 没有关系 变量间关系的图形描述: 坐标图(散点图),相关关系的类型, 从涉及的变量数量看 简单相关 多重相关(复相关) 从变量相关关系的表现形式看 线性相关散布图接近一条直线(左图) 非线性相关散布图接近一条曲线(右图), 从变量相关
4、关系变化的方向看 正相关变量同方向变化 A 同增同减 (A) 负相关变量反方向变化 一增一减 (B) B 从变量相关的程度看 完全相关 (B) 不完全相关 (A) C 不相关 (C),相关关系的类型,相关分析与回归分析,回归的古典意义: 高尔顿遗传学的回归概念 父母身高与子女身高的关系: 无论高个子或低个子的子女 都有向人的平均身高回归的 趋势,回归的现代意义,一个因变量对若干解释变量依存关系的研究 回归的目的(实质): 由固定的自变量去估计因变量的平均值,相关分析与回归分析的联系,共同的研究对象:都是对变量间相关关系的分析 只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实
5、际意义 相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析 相关分析中相关系数的确定建立在回归分析的基础上,82 简单线性相关与回归分析,一、简单线性相关系数及检验 二、总体回归函数与样本回归函数 三、回归系数的估计 四、简单线性回归模型的检验 五、简单线性回归模型预测,一、简单线性相关系数及检验,总体相关系数 对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为: 总体相关系数反映总体两个变量X和Y的线性相关程度。 特点:对于特定的总体来说,X和Y的数值是既定的 总体相关系数是客观存在的特定数值。, 样本相关系数,通过X和Y 的样本观测值去估计
6、样本相关系数变量 X和Y的样本相关系数通常用 表示 特点:样本相关系数是根据从总体中抽取的随机样本 的观测值计算出来的,是对总体相关系数的估 计,它是个随机变量。,相关系数的特点:,相关系数的取值在-1与1之间。 当r=0时,表明X与Y没有线性相关关系。 当 时,表明X与Y存在一定的线性相关关系: 若 表明X与Y 为正相关; 若 表明X与Y 为负相关。 当 时,表明X与Y完全线性相关: 若r=1,称X与Y完全正相关; 若r=-1,称X与Y完全负相关。,使用相关系数的注意事项:,X和Y 都是相互对称的随机变量,所以 相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。 相关系数不能确定
7、变量的因果关系,也不能 说明相关关系具体接近于哪条直线。,相关系数的检验,为什么要检验? 样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。 检验的依据: 如果X和Y都服从正态分布,在总体相关系 数 的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布:,相关系数的检验方法,给定显著性水平 , 查自由度为 n-2 的临界值 若 ,表明相关系数 r 在统计上是显著 的,应否定 而接受 的假设; 反之,若 ,应接受 的假设。,二、总体回归函数与样本回归函数,若干基本概念 Y的条件分布: Y在X取某固定值条件下的分布。 对于X的每一个取值,都有Y的条件期
8、望与之对应,在坐标图上 Y的条件期望的点随X而变化的轨迹所形成的直线或曲线,称为回归线。 如果把Y的条件期望 表示为X的某种函数: , 这个函数称为回归函数。 如果其函数形式是只有一个自变量的线性函数,如 , 称为简单线性回归函数。,总体回归函数(PRF),概念:将总体因变量Y的条件均值表现为自变量X的某种函数,这个函数称为总体回归函数(简记为PRF)。 表现形式: (1)条件均值表现形式 (2)个别值表现形式(随机设定形式),样本回归函数(SRF),概念: Y的样本观测值的条件均值随自变量X而变动的轨迹,称为样本回归线。 如果把因变量Y的样本条件均值表示为自变量X的某种函数,这个函数称为样本
9、回归函数 (简记为SRF)。 表现形式:线性样本回归函数可表示为 或者,样本回归函数与总体回归函数的关系 相互联系, 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致 。 和 是对总体回归函数参数的估计。 是对总体条件期望 的估计 残差 e 在概念上类似总体回归函数中的随机 误差u。 回归分析的目的: 用样本回归函数去估计总体回归函数。,样本回归函数与总体回归函数的关系 相互区别,总体回归函数虽然未知,但它是确定的; 样本回归线随抽样波动而变化,可以有许多条。 样本回归线还不是总体回归线,至多只是未知总体 回归线的近似表现。 总体回归函数的参数虽未知,但是确定的常数; 样本回归函数的
10、参数可估计,但是随抽样而变化的随机变量。 总体回归函数中的 是不可直接观测的; 而样本回归函数中的 是只要估计出样本回归的参数就可以计算的数值。,三、回归系数的估计,回归系数估计的思想: 为什么只能对未知参数作估计? 参数是未知的、不可直接观测的、不能精确计算的 能够得到的只是变量的样本观测值 结论:只能通过变量样本观测值选择适当方法去近似 地估计回归系数。 前提: u是随机变量其分布性质不确定,必须作某些 假定,其估计才有良好性质,其检验才可进行。 原则: 使参数估计值“尽可能地接近”总体参数真实值,简单线性回归的基本假定,假定1:零均值假定。 假定2:同方差假定。 假定3:无自相关假定。
11、假定4:随机扰动 与自变量 不相关。 假定5:正态性假定,回归系数的最小二乘估计,基本思想: 希望所估计的 偏离实际观测值 的残差 越小越好。可以取残差平方和 作为衡量 与 偏离程度的标准最小二乘准则 估计式:,最小二乘估计的性质 高斯马尔可夫定理,前提: 在基本假定满足时 最小二乘估计是因变量的线性函数 最小二乘估计是无偏估计,即 在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。 结论: 回归系数的最小二乘估计是最佳线性无偏估计,最小二乘估计的概率分布性质,和 都是服从正态分布的随机变量,其期望为 方差和标准误差为 结论:,的无偏估计,为什么要估计 ? 确定所估计参数的方差需要 由
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 回归 分析
链接地址:https://www.31doc.com/p-2609116.html