关于机器学习的超全总结.doc
《关于机器学习的超全总结.doc》由会员分享,可在线阅读,更多相关《关于机器学习的超全总结.doc(6页珍藏版)》请在三一文库上搜索。
1、关于机器学习的超全总结时光飞逝,学习机器学习已四年有余,深感机器学习之博大精深,可能不断学习数十年也无法穷尽。但从另一方面考虑,我也学了很多,也有一些自己的感悟。本文谨代表我个人的观点和感悟,希望对大家(尤其是初学者)有所帮助,欢迎大家一起讨论与学习本文的目录如下:1. 综述1.1机器学习是什么1.2 机器学习的过程1.3监督学习VS无监督学习根据训练数据是否有标记,机器学习任务大致分为两大类:监督学习和非监督学习,监督学习主要包括分类和回归等,非监督学习主要包括聚类和频繁项集挖掘等。监督学习的过程如下:无监督学习的过程如下:监督学习算法VS无监督学习算法:1.4输入空间、特征空间、输出空间、
2、假设空间输入空间:在监督学习中,将输入所有可能取值的集合称为输入空间。特征空间:每个具体输入是一实例,通常用特征向量表示,所有特征向量存在的空间为特征空间。有时输入空间和特征空间为相同的空间,有时为不同的空间,需要将实例从输入空间映射到输出空间。输出空间:在监督学习中,将输出所有可能取值的集合称为输出空间。假设空间:监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。由输入空间到输出空间的映射的集合,称为假设空间。举个简单的例子,在一元线性回归中,假设空间即所有的直线y=ax+b组成的集合,我们的目标就是找到一条y=ax+b,使得损失最小。1.5生成模型和判别模型生成模型:生成
3、模型由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型。之所以被称为生成方法,是因为模型表示了给定输入X产生输出Y的关系。典型的模型有朴素贝叶斯(NB)和隐马尔可夫模型(HMM)等。判别模型:判别模型由数据直接学习决策函数f(X),或条件概率分布P(Y|X)。判别方法关心的是对给定的输入X,应预测什么样的输出Y。典型的判别模型包括k近邻算法(KNN)、决策树(DT)、逻辑回归(LR)、支持向量机(SVM)等。1.6 过拟合VS欠拟合解决过拟合:重新清洗数据、增大样本量、减少特征的量、增强正则化作用、dropout(适用于神经网络)等。解决欠拟合:使用更复杂的模型
4、、更有效的特征选择、减少正则化作用等。1.7 特征选择特征选择对机器学习至关重要,个人认为在大部分机器学习任务中特征就决定了效果的上限,模型的选择与组合只是无限逼近于这个上限。特征选择的主要作用包括:减少特征数量会防止维度灾难,减少训练时间;增强模型泛化能力,减少过拟合;增强对特征和特征值的理解。常见的特征选择方法如下:去除取值变化小的特征:如果绝大部分实例的某个特征取值一样,那这个特征起到的作用可能就比较有限,极端情况下如果所有实例的某特征取值都一样,那该特征基本就不起作用。单变量特征选择法:能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。常见方法包括卡法检
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 机器 学习 总结
链接地址:https://www.31doc.com/p-3388554.html