第三部分统计学习基础.ppt
《第三部分统计学习基础.ppt》由会员分享,可在线阅读,更多相关《第三部分统计学习基础.ppt(45页珍藏版)》请在三一文库上搜索。
1、第三部分:统计学习基础,有监督学习概述 ESL Chp2 回归分析 ESL Chp3 Wasserman Chp13 模型评估与选择 ESL Chp7/8,ESL Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 “The Elements of Statistical Leanring”,范明,柴玉梅,昝红英译统计学习基础数据挖掘、推理与预测, 电子工业出版社,2004,例:一个回归例子,例: 然后对每个数据加上高斯噪声, 目标: 通过最小化残差的平方和(RSS) 拟合 f,例:一个回归例子(续),拟合得到的曲线,样本数据点,例:一个回归
2、例子(续),10阶多项式拟合,训练正确率和测试误差,一些术语,有监督学习: 给定包含输入特征 和对应响应 的训练样本,学习Y与X之间的关系 对新的输入x,预测其响应y 如果输出值Y的类型是连续值:回归 根据公司的业绩和经济学数据,预测今后6个月的股票价格 根据患者血液的红外光谱,估计糖尿病患者血液中葡萄糖的含量 如果输出值Y为离散值:分类 根据数字图像,识别手写的邮政编码数据 根据邮件中单词和字符的比例,识别email是否为垃圾邮件,目标,根据训练数据, 正确预测未见过的测试样本 理解哪些输入影响输出 怎样评价预测的质量,哲学思想,理解各种技术背后的基本思想,以知道如何和在什么情况采用这些技术
3、 先理解比较简单的方法,以便掌握更复杂的技术 正确评价方法的性能很重要,以便知道该方法在什么情况下工作得好,在什么情况下工作得不好 简单的方法通常和那些很华丽时髦的方法工作得一样好!,一个例子,IR2上从未知分布产生的200点,其中类别G=绿,红各100个点 。 我们能建立一个规则,预测将来的点的颜色的规则吗?,比较两种最简单的预测方法,线性回归 k近邻法(k - nearest neighbors, knn),线性回归,输入p维向量,扩展成p+1维: 向量均为列向量 类别G=绿时,Y=0;否则Y=1。 Y用X的线性函数来建模 最简单、也是最常用的模型,线性回归,利用最小二乘法,通过最小化残差
4、的平方和(RSS) 得到 如果 是非奇异的,则唯一解为 则学习得到 f 的估计为,线性回归,对将来的点 的预测为 在训练集上错误率为14% 比随机猜测强的多 但还是有很多错误 决策边界 是线性的 采用更灵活的模型能得到更好的结果?,knn,观察其邻居,采取投票的方式 其中 为x0的邻域,由训练样本中最邻近x0的k个点xi 定义( k-近邻) 如果在观测x邻域中某一类明显占优势,则观测样本也更可能属于该类。分类规则为邻域成员的多数票,15-近邻分类:训练集上的错误率为12%,过拟合,knn比线性回归表现稍好 但我们应警惕过拟合(overfitting)问题 在训练集上模型工作得很好(有时甚至10
5、0%正确),但忘记了训练集是一个随机过程的输出,从而训练好的模型可能在其它情况(另外的测试集)工作欠佳 1nn?,1-近邻分类。没有样本被误分,判决边界更加不规则,knn中k的选择?,在测试集上,哪个模型表现最佳? k的选择:偏差方差折中 较小的k:预测更灵活,但太灵活可能会导致过拟合,从而估计方差更大 较大的k:预测更稳定,但可能不够灵活,不灵活通常与偏差/不准确有关,在前面200个点上训练,在10,000个数据上测试的结果,当k较小时,训练误差较小,但测试误差一般较大 当k较大时,训练误差较大,但测试误差一般较小,统计决策理论,令 表示一个实值的随机输入向量, 表示实值的随机输出变量 损失
6、函数: 对回归问题,常用平方误差损失 风险函数(损失函数的期望): 对每个输入x,目标是使风险函数最小,得到: 为条件期望,亦称回归函数。,统计决策理论,对分类问题,常用损失函数为0-1损失函数 风险函数为 对每个输入x,使风险函数最小 结果为最大后验估计(MAP),亦称贝叶斯分类器,贝叶斯最优分类器的结果,贝叶斯分类器,为什么不用贝叶斯分类器 ? 因为通常我们不知道 在上例中我们是已知数据产生的过程 每个类的概率密度为10个高斯的均匀混合 对类别绿,k=1;对类别红,k=2 对类别绿,10个均值从正态分布产生: 对类别红,10个均值从正态分布产生: 方差,贝叶斯分类器,knn是贝叶斯分类器的
7、直观实现 不知道 ,在x附近的小邻域类别为g的数目 用频数近似概率 在点上取条件放宽为在目标点的邻域内取条件 如果取 则贝叶斯分类器与回归函数之间的关系为:,knn vs. 线性回归,当 且 时,knn的估计 即该估计是一致的。 但通常没有那么多样本 线性回归假设 的结构是线性的: 并最小化训练样本上的平均损失: 随着样本数目的增多, 收敛于 但模型受到线性假设的限制,knn vs. 线性回归,通过用样本均值来逼近数学期望,knn和线性回归最终都得到近似条件期望。但二者对模型的假设截然不同: 线性回归:假定 可以用一个全局线性函数很好近似 knn:假定 可以用一个局部常量函数很好近似 后者看上
8、去更合理:可以逼近更多的函数类,但必须为这种灵活性付出高昂代价,knn,很多现代的学习过程是knn的变种 核平滑:每个样本的权重不是0/1,而是随样本点到目标点的距离平滑减至0 著名的支持向量机(support vector machine, SVM)与核平滑有许多相同之处,维数灾难,似乎有了合理大的训练数据集,使用knn平均总能逼近理论上的最佳条件期望 我们能找到接近任意x的相当大的观测值邻域,并对它们取平均 这样就不必考虑线性会回归了 但在高维空间中,knn法将失败 在目标点附近很难收集到k个邻居:维数灾难 (curse of dimensionality),维数灾难,邻域不再是“局部的”
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 部分 统计 学习 基础
链接地址:https://www.31doc.com/p-2612420.html