分享最适合新手入门的10种机器学习算法.doc
《分享最适合新手入门的10种机器学习算法.doc》由会员分享,可在线阅读,更多相关《分享最适合新手入门的10种机器学习算法.doc(7页珍藏版)》请在三一文库上搜索。
1、分享最适合新手入门的10种机器学习算法编者按:Medium博主James Le近日在网络上分享了他认为的最适合新手的机器学习算法,并授权论智进行编译。以下是我们对原文的编译,如有错误还请指出。在机器学习界,有这样一个“没有免费午餐”的定理。简单地说,该理论认为,没有一种算法能解决所有问题,尤其对监督学习而言。例如,你不能认为神经网络总比决策树要好,或决策树永远优于神经网络。这其中还有许多因素需要考虑,比如你的数据量大小和数据结构。这样就导致我们在面对一个问题时需要尝试不同的算法,同时还要用测试的数据集来评估算法的性能,选出最合适的那一种。当然,你所选的算法必须适合你的问题,就像当我们需要清理房
2、子的时候,可以使用吸尘器、扫把或拖把,但不会用铲子来挖地。首要原则然而,在为监督式机器学习创建预测模型之前,要记得一条最重要的原则:机器学习算法可以看做学习一种目标函数(f),该函数是输入变量(X)到输出变量(Y)的完美映射:Y=f(X)这是一个通用的学习任务,我们希望用新输入的变量(X)能输出预测变量(Y)。我们不知道函数(f)是什么样子的,或者什么形式的。如果我们知道的话就直接使用了,不需要再用机器学习算法从大量的数据中学习它。最常见的机器学习类型是学习映射Y=f(X),用它来预测Y的值。这被称为预测建模或预测分析,我们的目标是做出最准确的预测。对于想了解机器学习基础知识的新手,以下是数据
3、科学家最常用的10种机器学习算法。1.线性回归线性回归也许是数据科学和机器学习中最知名、最好理解的算法了吧。预测建模主要关注的是,以可解释性为基础,将模型的误差降到最小并尽量作出最准确的预测。我们将借鉴、多次使用甚至“窃取”包括数据统计在内的多个不同领域的算法,从而达到这一目的。线性回归用方程表示,通过找到作为输入变量的系数(B)的特定权重来描述输入变量(x)和输出变量(y)之间的一条线。线性回归例如:y=B0 + B1*x给定x的值,我们将预测y的值。同时线性回归学习算法的目标是找到系数B0和B1的值。想从数据中建立线性回归模型,可以用不同的方法。例如用于最小二乘和梯度下降优化的线性代数。线
4、性回归已经存在了200多年,并被广泛研究。通常人们会去除非常相似或相关的变量,并从数据中去除噪声。对于新手来说,这是一个简单易上手的技术。2.逻辑回归逻辑回归是机器学习从统计领域借鉴的另一个技术,这是二元分类问题的首选算法。逻辑回归与线性回归类似的一点是,目标都是找出每个输入变量加权的系数值。不同的是,输出的预测结果需要用非线性的逻辑函数进行变换。逻辑函数看起来像一个大写的S,它可以将任何值转化成一个0到1的数值。因此,我们可以将这一规则应用于逻辑函数的输出,将值限定在0到1之间(例如,IF less than 0.5 then output 1),这样就可以预测一个组值。逻辑回归根据模型学习
5、的方法,逻辑回归生成的预测也可以用作0到1之间的给定数据的概率。这对于需要给出更多原理做出预测的问题很有用。像线性回归一样,逻辑回归在删除与输出变量无关的属性以及非常相似的属性之后,表现得效果更好。对于二元分类问题,这一模型很容易学习,并且效率也很高。3.线性判别分析(LDA)线性回归通常只适用于二元分类问题。如果类别超过两个,你可能就需要线性判别分析算法来解决分类问题了。LDA的表示方法非常直接。它由数据的统计属性构成,为每个类别计算。对于单个输入变量,这包括:每一类别的平均值; 计算所有类别的差异线性判别分析通过计算每个类别的识别值(discriminate value)并对具有最大值的类
6、别进行预测,从而做出最终的预测,该技术假定数据的分布遵循高斯分布(钟形曲线),因此在开始分析之前,需要移除数据中的异常值。对于分类预测建模问题来说,这是一种简单而强大的方法。4.分类与回归树决策树是机器学习预测建模的重要算法。决策树的模型是二叉树,这是利用算法和数据结构构建的二叉树,每个节点代表一个输入变量(x)和该变量上的一个分裂点(假定变量是数字)。决策树树叶的节点包含用于进行预测的输出变量(y)。预测是从树叉开始,直到到达树叶节点并输出该节点的组值。决策树学习速度快,作出预测的速度也快。它们能解决许多领域的问题,所以无需对数据进行预处理。5.朴素贝叶斯朴素贝叶斯虽然简洁,但对预测建模来说
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分享 适合 新手入门 10 机器 学习 算法
链接地址:https://www.31doc.com/p-3392872.html