数据挖掘课程大作业.docx
《数据挖掘课程大作业.docx》由会员分享,可在线阅读,更多相关《数据挖掘课程大作业.docx(5页珍藏版)》请在三一文库上搜索。
1、网络教育学院 数据挖掘课程大作业题目:姓名:才报名编号:学习中心:层次:专升本专业:计算机科学与技术第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项 目的认识,或者对Python与数据 挖掘的认识等等,300500字。数据挖掘是一门重要的专业课。数据挖掘引起了信息产业界的极大关注,其主 要 原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息 和知识。数据挖掘就是从大量的数据中,抽取出潜在的、有价值的知识、模 型或规 则的过程。作为一类深层次的数据分析方法,它利用了数据库、人工智能和数理统 计等多方面的技术。要将庞大的数据转换成为有
2、用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集数据的工具。数据仓库,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就 是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统所需 的数据,供决策支持或数据分析使用。数据挖掘的研究领域非常广泛,主要包括数据库系统、基于知识的系统、人工 智能、机器学习、知识获取、统计学、空间数据库和数据可视化等领域。主要是可 以做以下几件事:分类、估计、预测、关联分析、聚类分析、描述和可视化、复杂 数据类型挖掘第二大题:完成下面一项大作业题目2019秋数据挖掘课程大作业题目一:Knn算
3、法原理以及python实现要求:文档用使用word撰写即可。主要内容必须包括:(1)算法介绍。(2)算法流程(3) python实现算法以及预测。(4)整个word文件名为姓名奥鹏卡号学习中心(如戴卫东101410013979浙江台州奥鹏学习中心1 VIP )答:一、knn算法介绍1 .介绍邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘 分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说 的 是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个 样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样
4、 本也属 于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻 近的一个或者几个样本的类别来决定待分样本所属的类别。kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近 的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。2 .核心概括主要的思想是计算待分类样本与训练样本之间的差异性,并将差异按照由小 到大排序,选出前面K个差异最小的类别,并统计在K个中类别出现次数最多的类 别为最相似的类,最终将待分类样本分到最相似的训练样本的类中。与投票(Vote)的 机制类似。二、k
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课程 作业
