岭回归和lasso.docx
《岭回归和lasso.docx》由会员分享,可在线阅读,更多相关《岭回归和lasso.docx(5页珍藏版)》请在三一文库上搜索。
1、一、普通最小二乘估计带来的问题当自变量间存在多重共线性时,回归系数估计的方差就很大,估计值就很不稳定。此时模型或数据的微小变化有可能造成系数估计的较大变化,对预测值产生较大影响。下面进一步用一个模拟的例子来说明这一点。例1假设与,孙与y的关系服从线性回归模型y=10+2x1+3x2+给定与,M的10个值,如下表:序号12345678910Xl1.11.41.71.71.81.81.92.02.32.4X21.11.51.81.71.91.81.82.12.42.5Ei0.8-0.50.4-0.50.21.91.90.6-1.5-1.5小16.316.819.218.019.520.921.12
2、0.920.322.0现在我们假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计值得:y0=l1.292,31=11,307,=-6.591而原模型的参数JSo=I0,=2,=3看来相差太大。计算XI,X2的样本相关系数得口2二0.986,说明Xl与X2之间高度相关。二、岭回归提出的背景岭回归是1970年由Hoerl和Kennard提出的,它是一种有偏估计,是对最小二乘估计的改良。假定自变量数据矩阵X=回为ZIXP的,通常最小二乘回归(Ols)寻求那些使得残差平方和最小的系数即岭回归那么需要一个惩罚项来约束系数的大小,其惩罚项就是在上面的公式中增加一项1j2,即岭回归的系数既要使得
3、残差平方和小,又不能使得系数太膨胀:这等价于在约束条件器=Ss下,满足设有多重线性回归模型y=X。+,参数月的最小二乘估计为6=(W1zy那么以M-琲=2tr(W1当自变量出现多重共线性时,普通最小二乘估计明显变坏。当KrI。O时,J就会变得很大,这时,尽管6是4的无偏估计,但方很不稳定,在具体取值上与真值有较大的偏差,甚至会出现与实际意义不符的正负号。设想给加上一个正常数矩阵tk0),那么+a接近奇异的程度就会变小。先对数据作标准化,标准化后的设计阵仍用X表示。称%岭迎阳估6O通苗的A成为岭参数。当A=0时的岭回归估计就是普通的最小二乘估计。因为岭参数女不是唯一确定的,所以我们得到的岭回归估
4、计6(八)实际是回归参数夕的一个估计族,取不同的女值时方(八)的取值不同。以女为横坐标,/(八)为纵坐标的直角坐标系,可分析月估计族的稳定性。优点:比最小二乘估计更稳定三、岭迹分析当岭参数2在0,co)内变化时,瓦(k)是k的函数,在平面坐标系上把函数瓦(k)描画出来。画出的曲线称为岭迹。在实际应用中,可以根据岭迹曲线的变化形状来确定适当的k值和进行自变量的选择。在岭回归中,岭迹分析可用来了解各自变量的作用及自变量之间的相互关系。下列图所反映的几种有代表性的情况来说明岭迹分析的作用。图L岭迹图四、岭参数的选择(一)方法1 .岭迹法岭迹法的直观考虑是,如果最小二乘估计看来有不合理之处,如估计值以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 lasso
三一文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。


Word中的域代码列表官方.doc
WLF方程的推导实用教案.pptx
