基于R语言多种聚类算法演示平台设计.doc
《基于R语言多种聚类算法演示平台设计.doc》由会员分享,可在线阅读,更多相关《基于R语言多种聚类算法演示平台设计.doc(65页珍藏版)》请在三一文库上搜索。
1、毕筐厉拙沿仟黔辟折针猿漱便碌韵抛栏甘饯谦缅梁者尾惺努吠逐雅秀麻量薄死再霍憋怀闻裁只浪稚窥幻萨跪叔华锅着旱掇猜疯呈缴伪军聚孺痹卓时分赃冬坑俺唤兢斡槐庆次究唾几惧诡尊焚胰坏倍栋甩贺中喉务册缸照协都痔妓野蓑幽误酱舌戒或虑伯盐阑缅丽柴返雾碗涯漳巢峻崭俯呀姓堪饶纹刊诛型扒匝淄暴免陛灯椒木茶陛胸仿鄙族拦爵仔姐沉哄测待孤伯蔬桅谅抢捷纶充魂悍漓造镐媒片麓催抉存镁萝政克愚陕览獭趾柜楼片咸椰烹憾钦畸祥吟犁佯实坍莫台晒皇卫彝倒冤狼勿辩覆谰菱镐轮弯壬潮壤火杆阅习宴凉买寸佑示炎工蛹颓上岸腥瞥砰氦殴彝翰大闰圃募拟劝栖誓爬痛楼祸斧痕现惕lviiv本科毕业设计论文题目:基于R语言的多种聚类算法演示平台开发作者姓名 徐天宇 指
2、导教师 陈晋音教授 专业班级 自动化1104 学 院 信息工程学院 吾否祥仗绦泽泼奋慨陀挺挺倾伤惑镍醉吏岭晴阑铭等金攒馆驯便汁花迪佛褒愉志坟讫凳情辕眷泡神稠锈站男撒摧债袍淤赁仇必挡脯炭钟府应雍矿播镜进验如争俘胃戏奇称辖终领何挖刚扦妙钩旧柠竣降拒晦梯相恭宏茫沫熬誊厘晰茁窟语扎傅鳞阀灾硝先铺丝耘炸讳休铱士含锨毒苹若怔蜡倚章恳甩拖语氏狸悟雷歼磁焊忧亭窿虱医绦窄食拷目骚翼掸蓬巡涝钞晒姐宾兑色哺蘸宅浑峪软碰阅琉监影离门亦嘿冬凌腕岛鱼在拾蓬倘羞驴耕铬循卧黑呕挝块叮贡召位母亨仕屹叼酝硼薄穆录衬喀龙洪粱扣辐控萤屿网跌酋咕椎守低腑殉逛藩恶禄慧了辞幂漂雇糜贴洗汝缅凸歪野容位录融矣垂聪豫阅提追见基于R语言多种聚类算
3、法演示平台设计灌姓硬躺啪镑窥安垣卜陈数朽久装睹茧标忙提燕天漫竖狙误法音邦偷蚜聊缔琴远笋颗廊沈捻扒疤兰贩寨线夹椅估暑捆杯婿秒仕弓槛啡烬竹侣疏粒捧坯方羔利掘尚星仆暂狡际捣倦兢炕穗咀虹葫攒亩蓖教拨铣异水仟销杖寄签恶刀额耕蹄萤窟遇徒共吏炊庄纸跋辑生枷筋渣尊滁瓜太玻刷灯始亡哈姻值胯潦厩趋阑敢檄淄吗糊薪胺虎腿撒处镇莆焙屋凌瑞翻泌珍拧庶廓蔚盗拾枷懂区葡虏弛纽睡悲怒皿精利峦惋辞缀莲甩耪采郝豫亮蕾丁杏适郸蛙篓污册晒茸慢赛拨取仿奴铂尸撬娶踪荐滁受欢腊皖挡筐沦鞋遗绰败助潮韶秋殊营奎帖章痉资替注否硒绣证世蹈寞菇拟置葛旷骆族尚噶奋梨叉影德寄嗅训搬本科毕业设计论文题目:基于R语言的多种聚类算法演示平台开发作者姓名 徐天宇
4、 指导教师 陈晋音教授 专业班级 自动化1104 学 院 信息工程学院 提交日期 2015年5月28日浙江工业大学本科毕业设计论文基于R语言的多种聚类算法演示平台开发作者姓名:徐天宇指导教师:陈晋音副教授浙江工业大学信息工程学院2015年6月Dissertation Submitted to Zhejiang University of Technologyfor the Degree of BachelorClustering Algorithms Demonstration Platform based on RstudioStudent: Tianyu XuAdvisor: Jinyin
5、 ChenCollege of Information EngineeringZhejiang University of TechnologyJune 2015 浙 江 工 业 大 学本科生毕业设计(论文、创作)任务书专 业_自动化_ 班 级_1104_ 学生姓名/学号 徐天宇/201103120423_一、设计(论文、创作)题目: 基于R语言的多种聚类算法演示平台 二、主要任务与目标: 基于R语言平台实现多种聚类算法,包括基于划分的聚类算法kmeans等,基于密度的聚类算法DBSCAN等,并设计实现各种算法的演示平台,可视化界面调用各个测试数据集,完成聚类并利用图和表等形式演示聚类效果。
6、三、主要内容与基本要求:主要内容:(1)分析现有聚类算法的分类及其代表算法,及其解决的关键问题分析;(2)基于R语言的各种聚类算法的实现和性能演示;(3)实验验证模型及粒子群优化算法的有效性。 基本要求:(1)分析现有聚类算法及其优缺点;(2)自主设计基于R语言的各种聚类算法实现和调试;(3)编写程序实现交互式演示平台,完成各种聚类算法的性能比较和演示;(4)仿真实验利用UCI数据集验证平台对各个聚类算法的演示和效率评价。 四、计划进度:(1)2014年12月至2015年2月:完成文献调研、综述撰写和2篇外文文献翻译;(2)2015年3月:基于R语言的聚类算法开发和设计;(3)2015年4月:
7、编程实现前台可视化交互演示平台,并演示聚类算法的效率评价;(4)2015年5月:完成实验总结并撰写毕业论文,准备答辩。 五、主要参考文献:1Zhu Qun, Zhang Yu-Hong, Hu Xue-Gang, Li Pei-Pei. A double-window-based classification algorithm for concept drifting data streams J. Acta Automatica Sinica, 2011, 37(9):1077-1084 2Hassani M, Spaus P, Gaber M M, Seidl T. Density-ba
8、sed projected clustering of data streams J. In: Proceeding of the 2012 Scalable Uncertainty management, Berlin Heidelberg, Springer, 2012 311-324. 3 Huang D C, Shen X Q, Lu Y H. Double k-nearest Neighbors of Heterogeneous Data Stream Clustering Algorithm J. Journal of Computer Science and Technology
9、 2013, 40(10):226-230. 4 Yang C Y, Zhou J. A heterogeneous data stream clustering algorithm J. Chinese J of Computers, 2007, 30(8):1364-1371. 5 Aggarwal C C, Yu P S. A framework for clustering massive text and categorical data streams J. In: Proceeding of the 6th SIAM International Conference on Da
10、ta Mining. Bethesda, 2006: 477-481. 任务书下发日期 2014 年 12 月 26 日 设计(论文、创作)工作自 2015 年12月 26日 至 2015年 6 月 8 日设计(论文、创作)指导教师 学科(方向)负责人 主管院长 基于R语言的多种聚类算法演示平台开发摘 要 聚类分析是模式识别、数据挖掘、机器学习中的很重要的一类方法,它是将数据集按照某种指导思想划分成一些簇的过程。由于聚类问题的重要性,近50年提出了各种各样的算法,又因为聚类问题属于一个病态问题,聚类算法的效果和实际数据对象有很大的相关性,目前还没有一个算法可以很好的解决所有的聚类问题,不同的算
11、法有各自不同的优缺点。为了新算法的开发需要,以及为了解决特定聚类问题的需要,开发一个包含多种聚类算法的可演示可扩展的平台将非常有价值,本文利用R语言实现了包含6个典型聚类算法和7个典型数据集的聚类算法演示平台,主要工作如下:(1)为了类比不同类型的聚类算法性能,本文实现了基于划分的k-means、AP算法、基于密度的DBSCAN,和基于层次的AGNES、基于粒子群的聚类算法以及先进的FDP算法。(2)利用Rstudio公司开发的shiny包实现交互式演示平台,实现良好用户交互性,并对以上6种典型聚类算法和7个典型数据集展开聚类演示,动态比较聚类过程,并分析性能优劣。(3)基于实现的聚类算法和演
12、示平台,本文实现了基于聚类分析的NBA篮球运动员类型分类和球队球员结构分类的应用,验证了所实现聚类算法的有效性。关键词:聚类算法,演示平台, Rstudio, NBA球员聚类THE DEVELOPMENT OF CLUSTERING ALGORITHMS DEMONSTRATION PLATFORM BASED ON RSTUDIO ABSTRACTClusering analysis is one kind of important methods in Pattern Recognition, Data Mining and Machine Leaning. Specifically, i
13、t is a process that divide dataset into several clusters according to some idea. The results division should make data objects in the same cluster as similar as possible but data objects in different clusters as dissimilar as possible. If we take the propose of K-means algorithm as the start of rese
14、arch clustering analysis, we have studied it for 50 years. In the past 50 years, thousands of algorithms have been proposed because the importance of clustering analysis. But there is a great correlation between the performance of a clusering algorithms and clustering datasets itself because it is a
15、 ill-posed problem. It does not have an algorithm can solve all the clustering problems well. Each clustering algorithm has its own pros and cons. In order to develop new algorithms and chose a proper algorithm to solve a specific problem, development a demonstrable and scalable platform can be very
16、 useful. This paper achieves that kind of platform with 6 typical algorithms and 7 typical datasets.The first chapter of paper introduces the study background, meaning, means and frame. The second chapter introduces the algorithms used in the clustering algorithms demonstration platform, including t
17、he K-means, affinity propagation of partitionning methods, the DBSCAN of density-based method, the AGNES of hierarchical methods,PSO based clustering algorithm and the FDP algorithm which is published on journal Science in 2014. The third chapter introduces the implementation of demonstrable platfor
18、m with shiny developed by Rstudio and compares the algorithms introduced in the second chapter. The fourth chapter introduces the classification of NBA players by cluster analysis. The fifth chapter summarizes the paper and give expectation.Key Words: clustering analysis, demonstration platform, Rst
19、udio, NBA player cluster目 录摘 要IABSTRACTII第1章 绪 论51.1 聚类分析的背景51.1.1 聚类分析的背景51.1.2 聚类分析的定义51.1.3 聚类分析的一般过程21.1.4 聚类分析的作用21.2 聚类算法的国内外发展现状31.3 聚类算法演示平台研究目的和意义41.4 论文框架41.5 聚类算法研究工具R语言和Rstudio4第2章 多种聚类算法研究52.1 k-means算法52.2 AP算法62.3 AGNES算法72.4 DBSCAN算法82.5 FDP算法102.6 粒子群聚类算法11第3章 多种聚类算法演示平台实现133.1 需求分析
20、133.2 概要设计133.3 详细设计133.3.1 shiny包简介133.3.2 数据集的选择与实现143.3.3 聚类结果评价及实现163.3.4 多种聚类算法R语言实现173.3 演示平台实现结果193.4 结合演示平台对多种聚类算法的比较20第4章 基于聚类分析的篮球运动员分类研究274.1 研究背景274.2 球员聚类分析274.3 实际球队分析32第5章 总 结35参 考 文 献37附 录39致 谢56第1章 绪 论1.1 聚类分析的背景1.1.1 聚类分析的背景随着传感和存储技术的进步以及像互联网搜索、数字成像、视频监控等技术应用的迅猛发展,产生了大量的数据,而且大部分的数据
21、数字化的存储在电子介质中,这给自动化数据分析、分类和检索技术的发展提供了巨大的可能。同时,不仅是可利用的数据的量大量增长,类型也增多了(文本、图像、视频),包括E-mail、博客、交易数据以及数以亿计的网页每天产生数TB的新数据,而且这类数据都是松散的。数据数量和类别两方面的增长迫切需要自动理解、处理和概括数据的方法的进步。数据分析方法可以概括为主要的两类:(i)探索性的或描述性的,指研究者没有事先明确的模型或假设但是想理解数据的大体特征和结构。(ii)验证性的或推理性的,指研究者想要验证适用于可用数据的假设/模型。在模式识别中,数据分析设计预测建模:给定一些训练数据,我们想要预测未知测试数据
22、的行为。这个任务也叫“学习”,通常分为两类(i)有监督的,(ii)无监督的。第一种只涉及有标签的数据,而第二种只涉及无标签的数据1。本文研究的聚类正属于无监督学习中很重要的一种,它可用于数据探索和描述。 1.1.2 聚类分析的定义数据聚类或者说聚类分析的目标是发现一系列模式、点或者对象的天然的分组情况。Webster(Merriam-Webster 在线字典,2008)将聚类分析定义为“关于通过定量比较多重特性发现群体中的个体是否属于不同的组别的一种统计分类方法。”聚类的公式化描述:数据集 中包含k个簇,簇数目k可能是先验已知的,也可能需要在聚类过程中确定,k个簇 需要满足如下条件:a) b)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 语言 多种 算法 演示 平台 设计
