机器学习简介PPT课件.ppt
《机器学习简介PPT课件.ppt》由会员分享,可在线阅读,更多相关《机器学习简介PPT课件.ppt(34页珍藏版)》请在三一文库上搜索。
1、机器学习简介2018-03-15中国电子科技集团第三十二研究所主讲:瞿刚目录机器学习的定义机器学习的定义机器学习的发展历史和现状机器学习的发展历史和现状机器学习的分类机器学习的分类机器学习的常见算法机器学习的常见算法机器学习的基本过程机器学习的基本过程机器学习的示例机器学习的示例机器学习的常见应用机器学习的常见应用流行的开源机器学习框架流行的开源机器学习框架Spark MLlib介绍介绍机器学习的定义1在维基百科上,对机器学习提出以下几种定义:n“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”;n“机器学习是对能通过经验自动改进的计算机
2、算法的研究”;n“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准”。机器学习的定义1三个关键词:算法、经验、性能 机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据。机器学习的发展历史2机器学习是人工智能应用研究比较重要的分支,它的发展过程大体上可分为4个阶段:n第一阶段是在50年代中叶到60年代中叶,属于热烈时期;n第二阶段在60年代中叶至70年代中叶,被称为机器学习的冷静时期;n第三阶段从70年代中叶至80年代中叶,称为复兴时
3、期;n机器学习的最新阶段始于1986年。一方面,由于神经网络研究的重新兴起,另一方面,对实验研究和应用研究得到前所未有的重视。我国的机器学习研究开始进入稳步发展和逐渐繁荣的新时期。机器学习的发展现状3n在搜索引擎方面Google的成功,使得Internet搜索引擎成为新兴产业。机器学习技术正在支撑着各类搜索引擎;nDARPA(美国国防先进研究项目局)于2003年开始启动5年期PAL计划,这是一个以机器学习为核心的计划(涉及到AI的其他分支,如知识表示和推理、自然语言处理等);n汽车自动驾驶。机器学习的主要任务是从立体视觉中学习如何行驶,根据观察人类的驾驶行为记录各种图像和操纵指令,并将它们进行
4、正确分类;n在对天文物体进行分类、计算机系统性能预测、信用卡盗用检测、邮政服务属性识别、网络文档自动分类等方面,机器学习也在快速发展壮大。机器学习的分类4n监督学习n无监督学习n半监督学习n强化学习机器学习的分类-监督学习4n监督学习是从给定的训练数据集中学习一个函数(模型),当新的数据到来时,可以根据这个函数(模型)预测结果;n在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如,对防垃圾邮件系统中“垃圾邮件”、“非垃圾邮件”;n在建立模型时,监督式学习建立一个学习过程,将预测结果与“测试数据”的实际结果进行比较,不断调整预测模型,直到模型的预测结果达到一个预期
5、的准确率。常见的监督学习算法包括回归分析和统计分类。机器学习的分类-无监督学习4n在无监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构;n常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法和k-Means算法。n监督学习和无监督学习的区别:训练集目标是否被标注。他们都有训练集,且都有输入和输出。机器学习的分类-半监督学习4n半监督学习是介于监督学习与无监督学习之间一种机器学习方式,主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题;n应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行
6、建模,在此基础上再对标识的数据进行预测,如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM)等;n半监督学习从诞生以来,主要用于处理人工合成数据,无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据,而在实际生活中用到的数据却大部分不是无干扰的,通常都比较难以得到纯样本数据。机器学习的分类-强化学习4n强化学习通过观察来学习动作的完成,每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断;n在强化学习下,输入数据直接反馈到模型,模型必须对此立刻做出调整;n常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Lear
7、ning 以及时间差学习(Temporal difference learning)。机器学习的分类-总结4n在企业数据应用的场景下,人们最常用的可能就是监督式学习和无监督式学习的模型。n在图像识别等领域,由于存在大量的非标识的数据和少量的可标识数据,目前半监督式学习是一个很热的话题。n强化学习更多地应用在机器人控制及其他需要进行系统控制的领域。机器学习的常见算法5n回归算法(监督学习)n神经网络(监督学习)nSVM支持向量机(监督学习)n聚类算法(无监督学习)n降维算法(无监督学习)n推荐算法(特殊)n其他算法常见算法-回归算法5n回归算法有两个重要的子类:即线性回归和逻辑回归;n线性回归就
8、是如何拟合出一条直线最佳匹配所有的数据,逻辑回归是一种与线性回归非常类似的算法;n线性回归处理的问题类型与逻辑回归不一致:A.线性回归处理的是数值问题,也就是最后预测出的结果是数字,例如房价。B.逻辑回归属于分类算法,也就是说,逻辑回归预测结果是离散的分类,例如判断这封邮件是否是垃圾邮件,以及用户是否会点击此广告等等。常见算法-回归算法5n假设有一组肿瘤患者的数据,这些患者的肿瘤中有些是良性的(图中的蓝色点),有些是恶性的(图中的红色点)。这里肿瘤的红蓝色可以被称作数据的“标签”。同时每个数据包括两个“特征”:患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上,形成了上图的数据
9、n当有一个绿色的点时,该判断这个肿瘤是恶性的还是良性的呢?根据红蓝点我们训练出了一个逻辑回归模型,也就是图中的分类线。这时,根据绿点出现在分类线的左侧,因此我们判断它的标签应该是红色,也就是说属于恶性肿瘤。n逻辑回归算法划出的分类线基本都是线性的(也有划出非线性分类线的逻辑回归,不过那样的模型在处理数据量较大的时候效率会很低),这意味着当两类之间的界线不是线性时,逻辑回归的表达能力就不足。常见算法-神经网络5n神经网络(也称之为人工神经网络,ANN)的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑,后来,机器学习的学者们使用神经网络进行机器学习的实验,发现在视觉与语音
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 简介 PPT 课件
