《六章节相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《六章节相关与回归分析.ppt(51页珍藏版)》请在三一文库上搜索。
1、第六章 相关与回归分析,第一节 相关分析 第二节 一元线性回归分析 第三节 线性相关的显著性检验 第四节 可线性化的回归方程,第一节 相关分析,一、相关分析的意义 二、相关关系的测定,变量间的关系,变量间的关系有两种类型:函数关系和相关关系。 函数关系 是一一对应的确定关系。 设有两个变量 x 和 y ,变量 y 完全依赖于 x ,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量。 各观测点都严格落在一条线上。 例如: 圆的面积(S)与半径之间非关系可表示为S = R2 ; 某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为
2、单价),相关关系,变量间确实存在、但数量上不固定的相互依存。这种关系不能用函数关系精确表达; 一个变量的取值不能由另一个变量惟一地确定;当变量 x 取某个值时,与之相关的变量 y 的取值可能有若干个; 各观测点分布在一条直线或曲线周围.,相关关系的例子,商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 收入水平(y)与受教育程度之间的关系(x) 父亲身高(y)与子女身高(x)之间的关系 ,概念,上述定义将相关关系区别于: 函数关系 假 相 关没有本质联系,只是表面数字的偶然的
3、巧合; 如上证指数与气温的关系。 相关关系比因果关系包括的范围更广泛。 因果关系属于相关关系; 相关关系不一定是因果关系。,相关关系的类型,1、按相关关系涉及的因素多少分为: 单相关一元相关,两变量间的相关关系; 复相关多元相关,三个(或以上)变量间的相关关系; 2、按相关的表现形态分为: 直线相关观察点的分布大致呈现为一条直线; 曲线相关观察点的分布大致呈现为一条曲线,(续),3、按相关方向分为: 正相关两变量大体上呈同方向变化; 负相关两变量大体上呈反方向变化。,二、相关关系的测定,进行相关分析的一般程序:,定性分析 定量分析 相关表和相关图 计算相关系数与判定系数,(一)相关表和相关图,
4、相关表将一个变量按大小顺序排序,另一个变量对应排列而成的表格。 相关图也称为散点图。一对数据对应坐标图上一个点,将成对的观察数据表现为坐标图的散点而形成的图。 编制相关表、图的意义有助于分析者判断 相关的有无、方向、形态、密切程度。,相关关系的图示,(二)相关系数和判定系数,都是对变量之间关系密切程度的度量; 判定系数=相关系数的平方; 不同类型的相关,相关系数的计算方法也不同. 对两个变量之间线性相关程度的度量称为简单相关系数(也称直线相关系数),常简称相关系数. 此外还有复相关系数、非线性相关系数、偏相关系数 3. 有总体相关系数与样本相关系数之分: 总体相关系数根据总体数据计算的, 样本
5、相关系数 r 根据样本数据计算的。,相关关系的计算公式,或化简为,相关系数取值及其意义,r 的取值范围是 -1,1 |r|=1,为完全相关; r =1,为完全正相关 r =-1,为完全负正相关 r = 0,不存在线性相关关系相关; -1r 0,为负相关;0r 1,为正相关,(续),|r|越趋于1表示关系越密切;|r|越趋于1表示关系越不密切。 相关程度的三级划分法: |r|0.4, 低度线性相关 0.4|r|0.7, 显著线性相关 0.7|r|1, 高度线性相关,第二节 一元线性回归,一. 回归分析的意义 一元线性回归方程的确定 回归估计的标准差,一、回归分析的意义,从一组样本数据出发,确定变
6、量之间的数学关系式建立回归模型; 借助于数学模型来表达变量之间的平均数量关系 对这些关系式的可信程度进行各种统计检验并从某一特定变量的诸多影响因素(变量)中找出哪些变量的影响显著,哪些不显著; 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。,回归分析与相关分析的区别,相关分析中,变量 x、 变量 y 处于平等地位。 回归分析中, y 为因变量,处在被解释的地位;x 为自变量,用于解释和预测因变量的变化。 2. 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量y 是随机变量,自变量 x 可以是随机变量,也可以是非随
7、机的确定变量。 3. 相关分析主要描述两个变量之间相关关系的密切程度;回归分析揭示变量之间数量变动的统计规律性(不仅可以由回归方程揭示变量 x 对变量 y 的平均影响大小,还可以进行预测和控制 )。,回归模型的类型,回归模型(方程)来表达变量之间的平均数量关系的数学模型。该模型中包含: 1 个因变量(被解释变量,通常为数值型的) 1 个或多个自变量 (解释变量,通常为数值型的或分类的) 包含一个自变量的回归模型称为一元回归模型; 包含多个自变量的回归模型称为多元回归模型。 按模型形态分,有线性回归和非线性回归。,二、一元线性回归方程的确定,具有线性相关关系的两个变量的关系可表示为: y = +
8、 b x + e 线性部分反映了由于 x 的变化而引起的 y 的变化. 误差项 是随机变量; 反映了除 x 和 y 之间的线性关系之外的随机因素对y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 和 称为模型的两个待定参数。,一元线性回归模型的基本假定,E()=0,即误差项是一个期望值为0的随机变量。 从平均意义上,总体线性回归方程 E ( y ) = + x 的方差2 相同(对于所有的 x 值); 误差项是一个服从正态分布的随机变量,且相互独立,即N(0,2)。,(总体)回归方程,描述 y 的平均值或期望值如何依赖于 x 的方程称为(总体的)回归方程; 一元线性(总体)回归方程
9、的形式如下: E( y ) = + x,方程的图示是一条直线,因此也称为直线回归方程 是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值,是回归直线是起始值; 是直线的斜率,表示当 x 每变动一个单位时,y 的平均变动值。,样本(估计的、经验的)回归方程,总体回归参数和 是未知的,我们必须利用样本数据去估计它们; 用样本统计量 a、b代替回归方程中的未知参数和,就得到了样本回归方程(估计的回归方程):,拟合估计方程,就是要估计方程的参数a、b,估计参数的最小二乘法 最小平方法(L S ),用最小平方法拟合的直线来代表x与y之间的关系,所产生的估计值与实际值的误差要比其他任何直线的误差
10、都小。 可用于直线回归,也可用于曲线回归。,1. 最小平方法使因变量的观察值与估计值之间的离差平方和达到最小来求得 a和b的方法,即:,a 和 b 的计算公式,根据最小平方法的原则,利用微分求解极值(最优值)的原理,可得求解 a 和 b 的标准方程组如下:,说明:,2. 回归系数与相关系数同号(从二者的计算公式可推导它们之间的关系):,1. 样本回归直线必定经过各散点的中心 ;,三、回归估计标准误差 Se,(一)回归估计标准误差的概念 实际观察值与回归估计值离差平方的均方根; 计算公式为(6.5)和(6.6):,分母之所以是( n-2),而不是 n,是因为根据样本资料用最小平方法求参数和时,受
11、两个标准方程的约束,失去了两个自由度。,回归估计标准差的作用,回归估计标准差反映的是因变量各实际值与其回归估计值之间的平均差异程度; 表明其估计值对各实际值的代表性的强弱,其值越小,估计值(或回归方程)的代表性越强,用回归方程估计或预测的结果越准确。,反映实际观察值在回归直线周围的分散状况; 说明了回归直线的拟合程度(衡量回归方程的代表性,测定回归估计的精度);,回归估计标准误差 Se 与一般的标准差的异同,从计算公式可见: 同:都是离差的平方的平均数的平方根; 反映平均差异程度; 衡量代表性大小。 主要区别:与什么的离差、差异; 衡量谁的代表性。,(二)离差平方和的分解,因变量 y 的取值是
12、不同的,y 取值的这种波动称为变差或离差。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示。 变差来源于两个方面: 由于自变量 x 的取值不用造成的; 除 x 以外的其他因素(包括 x 对 y 的非线性影响、测量误差等)的影响。,离差的分解(图示),a + b x,离差平方和的分解,2. 两端平方后求和有:,从图上看有:总变差=回归变差+剩余变差,记为: SST = SSR + SSE 或 Lyy =U+Q,三个离差平方和的意义,总(离差)平方和(SST、Lyy) 反映因变量的 n 个观察值与其均值的总离差 回归平方和(SSR、U) 反映自变量 x 的变化对因变量 y
13、 取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化。 残差平方和(SSE、Q) 反映除 x 以外的其他因素对 y 取值的影响。,样本判定系数(决定系数r 2 ),判定系数=回归平方和占总离差平方和的比例,判定系数=相关系数的平方,即r2(r)2 反映回归直线的拟合程度,衡量变量之间的相关程度。 取值范围在 0 , 1 之间。 r2 1,说明回归方程拟合效果越好; r20,说明回归方程拟合得越差。,回归估计标准差与相关系数的关系,大样本条件下,近似地: 或:,第三节 线性相关的显著性检验,检验两个变量之间是否存在线性相关关系,包括两个方面的检验: 1. 对相关系数 r 的显著
14、性检验; 对回归系数 b 的显著性检验; 对于一元线性相关而言,二者等价。,一、相关系数的显著性检验 t 检验,检验的步骤为: 提出假设:H0: ;H1: 0,确定检验的统计量:,计算检验统计量的值或 P值,确定显著性水平,并作出决策: 若tt ,拒绝H0(即总体线性相关显著) 若tt,接受H0 (即总体线性相关不显著),二、回归问题的方差分析 (F检验 ),提出假设。H0:=0(线性关系不显著); H1 :0 (线性关系显著),2. 确定检验统计量,确定显著性水平,找出临界值F ( 1,n-2) 计算统计量的值; 作出决策:若FF ,拒绝H0;若FF ,接受H0,检验与检验的一致性: F=t
15、的平方,三、回归预测,回归预测是根据自变量 x 的取值来估计或预测因变量 y 的取值; 估计或预测的类型 点估计,给定x=xo,因变量y对应的点估计为: 区间估计:,预测区间,利用估计的回归方程,对于自变量 x 的一定值 x0 ,求出因变量 y 的取值y0的估计区间。 在1-置信水平下, y0的预测区间为:,影响区间宽度的因素,1. 置信水平 (1 - a) 区间宽度随置信水平的增大而增大 2. 回归估计标准差 (Se) 区间宽度随离散程度的增大而增大 3. 样本容量 区间宽度随样本容量的增大而减小 4. 用于预测的xo与x 的差异程度。 区间宽度随xo与x 的差异程度的增大而增大,预测区间(
16、图),xO,y,x,x,区间上限,区间下限,注意,应用回归估计(预测)时注意: 内插效果优于外推效果,不宜外推太远; n 不能太小,即用于拟合回归方程的数据不能太少。,第四节 可线性化的曲线回归方程(非线性回归),一、配合回归曲线的问题 通过定性分析或散点图判断变量之间的曲线相关形态,选择曲线模型; 2. 可通过变量代换将曲线模型转换成线性形式; 用最小二乘法求出线性模型中参数的估计值,再转换为原曲线模型的参数的估计值。 (注:并非所有的非线性模型都可以化为线性模型),可线性化的常用曲线模型,线性化方法:令:y = 1/y,x= 1/x, 则有y = + x,(一 )双曲线 1.基本形式: 1
17、/y= + /x,图,线性化方法:两端取对数 lg y = lg + lg x 令:y = lgy,x= lg x,则y = lg + x,(二)幂函数 基本形式:,图,(三) 指数函数,线性化方法:两端取对数得 lny = ln + x 令:y = lny,则有 y = ln + x,基本形式:,图,线性化方法 令:y = 1/y,x= e-x, 则有y = + x,(四)S型曲线 基本形式:,图,三、非线性判定系数与相关系数,(一)非线性判定系数 R2 值域:(0,1),越接近1表示非线性相关程度越强,所配合的曲线回归模型拟合效果越好。,(二)非线性相关系数(相关指数)R 非线性判定系数的平方根。 测定两变量间曲线相关的密切程度,衡量曲线回归模型的拟合效果 。 不能判明相关方向(用于直线时,通过其他方法确定相关系数的正负)。 注:衡量曲线回归模型的拟合效果还可以采用回归估计标准误差。,本章学习要求,弄清相关关系的概念、种类; 掌握相关系数的计算方法和应用; 掌握一元线性回归的基本原理和参数的最小二乘估计方法; 掌握相关系数或回归方程的显著性检验; 利用回归方程进行预测; 了解可化为线性回归的曲线回归 用 Excel 进行回归分析,
链接地址:https://www.31doc.com/p-2596706.html