腾讯大讲堂59-数据蕴含商机,挖掘决胜千里.ppt
《腾讯大讲堂59-数据蕴含商机,挖掘决胜千里.ppt》由会员分享,可在线阅读,更多相关《腾讯大讲堂59-数据蕴含商机,挖掘决胜千里.ppt(39页珍藏版)》请在三一文库上搜索。
1、,腾 讯 大 讲 堂,第五十九期,研发管理部,大讲堂主页:http:/ 与讲师互动:http:/ 数据分析研究室 SimonJiang / 江宇闻 2009-02-24,Agenda,数据挖掘是什么?,1,模型+算法,2,数据挖掘实践分享,3,心得与总结,4,从运筹帷幄到决胜千里,舌战群儒,草船借箭,巧借东风,火烧赤壁,赤壁怀古 苏轼 羽扇纶巾 谈笑间 樯橹灰飞烟灭,观日月之行,察天地之变,风,雷,电,雨,云,云多会下雨 刮风会下雨 下雨会闪电 闪电会打雷 ,数据爆炸的时代,Data Mining, circa 1963,IBM 7090,600 cases,“Machine storage
2、limitations restricted the total number of variables which could be considered at one time to 25.”,数据挖掘是,Data,Information,Knowledge,Wisdom,To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningful 、 Information / knowledge / patterns / trends /
3、rules / anomalies 、 In massive data / large data set / large database / data warehouse 、,Data + context,Information + rules,Knowledge + experience,多学科的融合,Databases,Statistics,Pattern Recognition,KDD,Machine Learning,AI,Neurocomputing,Data Mining,Agenda,数据挖掘是什么?,1,模型+算法,2,数据挖掘实践分享,3,4,几个基本概念,模型(Model
4、) vs 模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析 算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出 描述型挖掘(Descriptive) vs 预测型挖掘(Predictive) 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征 预测型挖掘:根据观
5、察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段,数据挖掘是一个过程,“from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996),数据挖掘方法论,CRISP_DM (Cross Industry Standard Process for DM) 1998年,由NCR、Clementine、OHRA和Daimler-Benz的联合项目组提出 SEMMA SAS公司提出的方法 Sample, Explore, Modify, Model, A
6、ssess 在战略上使用Crisp_DM方法论,在战术上应用SEMMA方法论,工欲善其事必先利其器,数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析方法:分箱(Binning)、聚类、回归 数据集成 多个数据库、数据方或文件的集成 数据变换 规范化与汇总 数据简化 减少数据量的同时, 还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析 数据离散化 数据简化的一部分, 但非常重要 (尤其对于数值型数据来说),先来玩玩数据(EDA),探索性数据分析(Exploratory Data Analysis, EDA) 探索性地查看数据,概括数据集的结
7、构和关系 对数据集没有各种严格假定 主要任务 数据可视化(a picture is worth a thousand words) 残差分析(数据拟合 + 残差) 数据的重新表达(什么样的尺度对数抑或平方根会简化分析) 方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值) 常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,如饼图、直方图、散点图、箱尾图等 模型,如聚类,数据挖掘 = 模型 + 算法,分类预测,关联规则,孤立点探测,聚类,Logistic Regression 决策树 神经网络,K-Means K-Mode SOM(自组织图),Aprior
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 腾讯 大讲堂 59 数据 蕴含 商机 挖掘 决胜千里
链接地址:https://www.31doc.com/p-2094340.html