硕士研究生论文答辩PPT.ppt
《硕士研究生论文答辩PPT.ppt》由会员分享,可在线阅读,更多相关《硕士研究生论文答辩PPT.ppt(30页珍藏版)》请在三一文库上搜索。
1、基于Hadoop数据挖掘算法研究,导师:王静宇 学生:卢胜宇,Cloud Computing,1,2,3,课题的背景,基于Hadoop平台的Canopy-Kmeans并行算法,课题总结,Cloud Computing,4,实验与结果分析,相关概念,Cloud Computing,课题背景,聚类算法及其分类 Kmeans算法 Canopy算法 Hadoop MapReduce,Cloud Computing,聚类算法及其分类,聚类是对点进行考察并按照某种距离测度将它们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间距离比较短,而不同簇中点之间距离较大。,课题背景,Cloud Computi
2、ng,课题背景,聚类主要包括以下几个过程:数据准备、特征选择、提出、特征 提取、聚类、聚类结果验证。动态的聚类过程步骤如下所示:,Cloud Computing,课题背景,Canopy 算法是 McCallum提出的一种简单、快速、但不太准确的聚类方法,是专门应对高维海量数据源的一种新型聚类算法。算法的思路是:首先在计算数据样本距离时采用算法复杂度低的距离度量(metric distance),把样本数据集划分为一些部分重叠的子集,这种子集称之为华盖(canopies)。然后,在传统聚类中,比如 k 均值,应用复杂度高的度量距离,进一步计算,从而使得高维海量数据源聚类难题易于实现。,K-Mea
3、ns算法是由 MacQueen 提出来的,该算法思想简单,实现相对容易,在多个学科里面都有广泛应用。它是聚类算法中最常见的划分方法,所谓的划分方法就是给定一个包含 n 个数据对象的数据集,将数据集划分为 k 个子集,其中每个子集均代表一个聚类,同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。,Cloud Computing,Hadoop平台,Hadoop是Apache旗下开源的分布式计算框架,可编写以及可运行分布式应用来处理大规模数据。Hadoop框架最核心组成部分就是HDFS(Hadoop Distributed File System)和MapReduce。,课题背景,Cloud
4、 Computing,课题背景,MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(归约),是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。,MapReduce,为什么选择基于Hadoop平台的Canopy-Kmeans并行算法?,Cloud Comput
5、ing,课题背景,Cloud Computing,1.随着大数据时代的到来,同时硬件的提升也越来越困难,导致现在我们在单机下处理大规模数据遇到了前所未有的阻力和难度。 2.传统的K-means算法在处理海量数据时效率低下、聚类质量差等弊端日益显露出来,其时间复杂度较高且处理数据的能力存在局限性也尤为突出。 3.基于Hadoop平台的CK-means并行算法,该算法采用canopy算法改善K-means算法在确定初始聚类中心的盲目性,采用并行计算框架对算法并行扩展,使之能够适应对海量数据处理。,课题背景,1,2,3,课题的背景,基于Hadoop平台的Canopy-Kmeans并行算法,课题总结,
6、Cloud Computing,4,实验与结果分析,Cloud Computing,算法的基本思想,CK-means算法是对K-means算法的一种优化,算法的思想为:采用基于余弦距离度量方式的canopy聚类算法对数据集初始中心点进行优化,canopy聚类算法利用MapReduce计算模式实现并行计算运行,经过Map和Reduce阶段得到全局的canopy中心集合,在对数据集进行精确聚类之前,还需要利用上面获取的全局canopy中心集合对数据集进行粗糙聚类,生成多个互相重叠的canopy聚类集合,这一系列的工作为下一步K-means精确聚类奠定基础。,算法流程,Canopy中心点生 成,得到
7、稳定的聚类,结束,Canopy粗糙聚类 生成,中心点标注,新中心点生成,聚类结果生成,开始,Cloud Computing,Cloud Computing,CanopyKmeans算法并行实现,根据前面的Canopy_Kmeans算法并行流程图,我们将整个过程设计成了两个MapReduce阶段,第一阶段执行Canopy算法,第二阶段执行Kmeans算法。,第一阶段Canopy算法的MapReduce实现,实现Canopy算法包括三个MR,即三个Job,可以描述为下面2个步骤: (1)Job1:将输入数据处理为Canopy算法可以使用的输入格式。 (2)Job2:每个Mapper针对自己的输入执
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 硕士研究生 论文答辩 PPT
链接地址:https://www.31doc.com/p-2518753.html