数据分析实战:基于EXCEL和SPSS系列工具的实践.html.pdf
《数据分析实战:基于EXCEL和SPSS系列工具的实践.html.pdf》由会员分享,可在线阅读,更多相关《数据分析实战:基于EXCEL和SPSS系列工具的实践.html.pdf(374页珍藏版)》请在三一文库上搜索。
1、前言 为什么要写这本书 在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐。被学员问得多 了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程 吧。 “理想很丰满,现实很骨感”,原来觉得自己手里有不少案例,各种工具的使用也算是比较熟练,写起书来应该得心应手, 进度也会比较快,但是真到开始动手写作时,才发现并不是那么简单。从框架目录的确定、章节内容的选择、语言风格的打磨, 到分析结果截图的选择等,每一个环节都需要细细地思量和斟酌。这本书的写作使我从2016年4月到11月的这段时间非常疲劳, 颈
2、椎病也复发了,因为在写书的同时,我的数据分析方面的培训并没有停止。 我在写作本书的时候,给自己规定了几个原则: 一是要实用,要能够解决企业工作中的实际问题。 二是要尽可能地降低读者上手的难度,那种操作非常繁复、需要强大坚实的统计分析理论基础,或者需要编程才能实现的功 能,我都没有放在本书中。原因很简单,即使本书讲了那些难度比较大的内容,读者也很难真正应用起来。 三是语言风格尽可能轻松活泼一点,尽量避免很严肃、很晦涩的专业术语,我很难做到“寓教于乐”,但还是尽己所能让本 书的阅读轻松一点吧。 在本书的写作过程中,我经常提醒自己这三条原则,并且要求自己遵守它们。 简言之,给读者带来一本“有用的、上
3、手比较容易的、读起来比较轻松的”数据分析书,这就是我写这本书的原则和动力。 读者对象 这本书的读者对象是企事业单位中从事数据分析的非统计专业人士: 企业中的市场部相关人员,包括市场分析人员、产品设计和研发人员、销售经理等。 企业中的生产部人员,包括生产经理、质量控制经理等。 企业中的财务部人员,包括财务总监、财务经理等。 企业中其他需要经常和各类数据打交道的管理人员和一般工作人员。 如果读者是高校或者科研院所的教师、学生、科研人员,要从事专业学术论文的撰写或者纵向科研项目的研究工作,不建议 你将本书作为主要的阅读和学习的书籍,因为使用的工具、模型、方法都会大相径庭,例如撰写学术论文经常要使用E
4、views、 Stata等专业计量工具,而这些专业计量工具在企业中使用的概率非常低。 如何阅读本书 本书分为三大部分,第一部分基础篇(第1章和第2章)主要介绍数据分析的概念、术语、方法、模型等,为后续的内容展 开奠定基础。 第二部分制表篇(第3章到第5章)介绍数据的采集、整理以及常用数据报表的制作。 第三部分数据分析篇(第6章到第14章)占据了本书的大部分篇幅,囊括了常用的、有代表性的、实用的功能,包括数据扫 描、数据标注、异常值分析、回归等。 正文中所提“案例文件”为本书的配置案例资料,请通过网络自行下载,下载地址为http:/。 勘误和支持 由于作者的水平有限,编写的时间也很仓促,书中难免
5、会出现一些错误或者不准确的地方,恳请读者批评指正。如果你发现 本书有错误,或者有其他宝贵意见,请发送邮件到我的邮箱,我很期待能够收到你们的真挚反馈。 致谢 我跟我的家人说,我这本书是以“part time”的方式写出来的,因为在写书的过程中,我还在四处上课,也做了一些小的 咨询项目。 多年以后,如果回顾2016年,我给哪些企业上过哪些课,我未必能记清楚,但是2016年我写作了平生第一本书,这点我不 会忘记。 感谢机械工业出版社华章公司的编辑杨绣国老师,感谢你的魄力和远见,在这一年多的时间中始终支持我的写作,你的鼓励 和帮助引导我顺利完成了全部书稿。 最后我一定要感谢我的家人,是你们给了我一个温
6、暖的港湾,让我在这一年中几乎不用做家务,专心从事培训和本书的写 作,多谢多谢! 谨以此书,献给我最亲爱的家人,以及众多热爱数据分析的朋友。 纪贺元 2017年1月于中国上海 第1章 什么是数据分析 1.1 一眼就看到结论还需要数据分析吗 在我做数据分析培训和咨询的时候,时不时会有学员或者客户流露出这样的情绪: 我们的企业其实是不需要数据分析的。 我们公司的业务情况,我很清楚,分析不分析都那样,反正我都知道了。 公司的数据好简单啊,就那么几列,有啥好分析的。 公司里面的很多数据都是造假的,没有分析的价值。 在以上问题中,除了数据质量,其他问题都与企业数据的可分析度有关。数据质量确实是数据分析很难
7、解决的问题,如果企 业员工出于种种原因总是在编造各种假数据,这应该属于职业道德或者企业管理水平(企业应该通过严格严谨的管理流程使得员 工无从造假)的范畴,这里暂且不讨论。那么,什么是数据的可分析度呢? 这个问题实际上包含如下两层意思: 1)这个企业的数据是比较复杂的,一眼是看不到结论的,需要使用一些工具、模型、方法进行分析。 2)关于数据的分析是有价值的,也就是说分析的过程和结论对于企业是有价值的,能够对企业的生产经营等带来促进和提 高。 因此,在数据的可分析度方面,我们需要有一些判断的维度,以帮助我们辨识数据是否值得分析,这里所说的维度主要考虑 企业数据量、数据复杂度、数据颗粒度这三个方面(
8、如图1-1所示)。 图 1-1 第1章 什么是数据分析 1.1 一眼就看到结论还需要数据分析吗 在我做数据分析培训和咨询的时候,时不时会有学员或者客户流露出这样的情绪: 我们的企业其实是不需要数据分析的。 我们公司的业务情况,我很清楚,分析不分析都那样,反正我都知道了。 公司的数据好简单啊,就那么几列,有啥好分析的。 公司里面的很多数据都是造假的,没有分析的价值。 在以上问题中,除了数据质量,其他问题都与企业数据的可分析度有关。数据质量确实是数据分析很难解决的问题,如果企 业员工出于种种原因总是在编造各种假数据,这应该属于职业道德或者企业管理水平(企业应该通过严格严谨的管理流程使得员 工无从造
9、假)的范畴,这里暂且不讨论。那么,什么是数据的可分析度呢? 这个问题实际上包含如下两层意思: 1)这个企业的数据是比较复杂的,一眼是看不到结论的,需要使用一些工具、模型、方法进行分析。 2)关于数据的分析是有价值的,也就是说分析的过程和结论对于企业是有价值的,能够对企业的生产经营等带来促进和提 高。 因此,在数据的可分析度方面,我们需要有一些判断的维度,以帮助我们辨识数据是否值得分析,这里所说的维度主要考虑 企业数据量、数据复杂度、数据颗粒度这三个方面(如图1-1所示)。 图 1-1 1.1.1 企业数据量 企业数据量是企业可分析度的第一要素,企业数据量的大小往往取决于两个因素: 一是企业的行
10、业属性,二是企业的信息化程度。众所周知,互联网行业往往也是产生大量数据的行业,“BAT”不仅仅引领 了各自行业的发展,同时也是数据行业发展的标杆。 一般情况下,企业的数据量跟企业的规模呈正相关关系,中等以上规模的企业数据量均比较大。但是也有例外,我曾经接触 过一家从事智能手机操作系统推送业务的公司,该公司规模很小,只有40多人,但是由于合作方是国内诸多智能手机的生产企 业,因此该企业的手机用户数量有3000多万,每天产生的业务数量高达几GB。 1.1.2 数据复杂度 如果说数据量相当于数据的行,那么数据复杂度就相当于数据的列。某公司营销部曾给我发来的数据样例,总共的列数加在 一起是12列。该公
11、司要求分析客户数据,但是涉及客户资料的数据基本上就是客户名称、客户行业(行业数据还是不全的)这 两列,客户注册资本、销售收入、雇佣人数都没有,怎么分析? 做过数据分析的人肯定都知道“巧妇难为无米之炊”的苦楚!请想想,你提供的客户数据就是寥寥数列,那要怎么去分析? 怎么做文章? 到目前为止,并没有什么明确的指标来度量数据量与数据复杂度,我们很难说每天的数据超过3万行就算数据量多,或者说 数据超过30列就算数据复杂。特别是数据复杂度,这中间还有一个数据相关性的问题:以案例文件1.1为例,虽然其中的数据是 3列,但是用EXCEL自带的“数据分析”模块中的“相关分析”进行分析(相关系数的函数,后面会详
12、细讲解),我们发现第二 列“销售数量”和第三列“销售额”之间的相关系数是1(完全相关),如图1-2所示。 图 1-2 从数据分析的角度看,这里实际上是两列数据而不是3列,换句话说,第3列的销售额数据属于“衍生指标”,因为单价30 是固定的,我们只需要用销售量这个数据就可以反映销售的状况。 因此通过数据的列数来衡量数据复杂度其实也未必准确,而是应该看剔除相关性之后的列数。 1.1.3 数据颗粒度 数据颗粒度指的是从不同的层次来看待数据。很难用语言来形容数据颗粒度的重要性,还是通过一个例子来说明一下。炒过 股票、用过股票软件的人都知道各种周期的分析(如图1-3所示)。 图 1-3 从图1-3可以看
13、出,股票有1分钟、5分钟、15分钟、30分钟等多个观察周期,而各种周期之间存在着相互包含的关系,例如 5分钟的周期线实际上是由5个1分钟的周期线组合而成的,而15分钟的周期线是由3个5分钟周期线组合而成,以此类推。因此, 我们说股票数据的颗粒度是:1分钟、5分钟 其他颗粒度的例子还有很多,例如在分析各地GDP的数据时,涉及全国、省、市、区(县)等颗粒度;考虑家电产品的维 度时,也有家电、白色家电、冰箱、型号等颗粒度。 理解了颗粒度之后,就很容易理解如下道理:数据的颗粒度越细越好,因为有了细颗粒度的数据,就可以自行组合成颗粒度 比较“粗”的数据。例如我们知道了全国各个区(县)的GDP数据,就可以
14、推算出市、省、全国的数据,但是反向的操作无法 实现,即知道了市的GDP数据,未必能够知道下辖区(县)的GDP数据。 综上所述,可以得到如下结论:企业数据量比较大的、复杂度比较高的、颗粒度比较细的数据,就有比较高的分析和利用价 值。 1.2 数据分析能给我们带来什么 数据分析是有成本的,这种成本包括时间精力、金钱,以及情感上的烦恼等。既然有成本付出,那人们自然关心,我能够从 数据分析中得到什么? 1.2.1 了解数据的整体状况 曾有人在培训时提出,我公司的业务状况,我非常清楚,还用得着分析吗?可是,事实真的是这样吗?你真的对公司的数据 了如指掌?对它所体现的特征一清二楚?如果公司的数据量比较大、
15、比较复杂,那么它就有可能存在潜在的价值,就有分析的必 要。 数据的整体状况包括如下内容: (1)总体状况 总体销量是多少?质量问题的总计是多少?研发团队目前有多少人?研发费用是多少? (2)结构状况 在关注总量之余,我们也关心结构情况,例如销售在各产品、各区域的分布是怎么样的?哪些设备、哪些机床有质量问题? (3)异常情况 曾经有客户问过我这个问题:“老师,我们希望把产品销售增速放缓的品线找出来,可以吗?”这里先解释一下客户的需 求,就是假如客户一月份的销售增速是3%,二月份的增速是3.4%,三月份的增速是4.5%,如果四月份的增速是3.9%,那么4月 份的增速就放缓了,就属于异常值。 什么是
16、异常值?简单地讲,就是根据客户的想法感觉有些异样的值,这些值是我们要重点关注的东西,并且会试图分析其背 后的原因。后面会成体系地详细讲解。 (4)其他一些数据特征 我们有时候也会关心数据的稳定性、对称性等特征,后续都会详细讲解。 1.2.2 快速查询数据 数据分析的第二个好处是我们可以快速地查询数据,在数据分析领域中,筛选查询是一个宽泛的课题,涉及很多技术,从简 单的筛选数据到动态筛选再到ACCESS的数据查询,内容非常丰富。 我曾经碰到一个企业的老总,他跟我说,企业里面的数据,他不可能都记得很清楚,但是他时常需要了解某个数据,例如某 个产品在某个时间段里的返修率是怎么样的,这个时候他会去问秘
17、书,秘书找到数据后再告诉他。“有的时候查一个数据,要一 个小时”,这位老总觉得效率不高。 碰到这种情况,如果企业的规模比较大,则需要建立数据库;对于小规模的企业来说,用VB控件把企业的重要数据全部整 合起来放在一个EXCEL文件中,是一个高效而且切合实际的做法。后面会详细讲解VB控件的具体安装和应用。 1.2.3 数据之间关系的探索 这部分内容应该是数据分析中最像“数据分析”的部分,例如以下的问题: 产品价格中的成本占比是多少? 如果成本上升了,价格怎样调整才是最优的? 影响产品质量的因素有很多个,假如这些数据都是能量化的,那么哪些因素对产品质量是有影响的? 肥胖和饮食习惯对冠心病有影响吗?
18、这些都是“正规”的数据分析的内容,需要运用一些统计分析的模型算法等进行分析。 1.2.4 业务预测 这里把业务预测放在数据分析收益的最后,并不代表数据预测的重要性是排在最后的。在我和企业接触的过程中,发现很多 企业都有数据预测的需求,即使我告知他们预测未必很准确,但是一些企业也坚持要做一些预测,他们认为科学预测过的数据, 对他们的生产经营等能有一个比较科学的指导。 1.3 数据分析的几大抓手 时不时地有培训学员来问我一个问题:“我怎么样才能把数据分析做好?”要回答这个问题还真是不容易,就像业余围棋爱 好者问“我怎么样才能快速提高自己的棋力?”或者刚刚进入职场的大学生问“我怎么样才能把销售业绩做
19、好?”一样。 任何一项工作要做好,都是一个综合的成体系的事情,这里就简单梳理一下把数据分析做好的几个必要条件。 1.3.1 足够多的数据 给巧妇多一点米吧!数据量越多,每天更新的数据就越多,做分析的价值就越大。这也就是为什么现在数据分析做得比较好 的还是电信、金融、互联网等几个行业,汽车行业现在进展也比较快。从部门的角度看,市场部、财务部、生产部、质量部等是 需要做数据分析的重点部门,为什么?就是因为数据多啊。 1.3.2 数据质量 光有数据量还不行,数据质量也是非常重要的。总体来说,我国很多企业的数据质量目前还比较低下的,先不说数据是否有 造假的成分,光是数据的“粗漏错乱”这些就足以让企业的
20、数据分析人员头疼了。 “粗”是指数据的颗粒度很粗,过于粗疏的数据,使得数据的分析价值非常低。 “漏”是指由于企业的数据规划或者数据记录仪器等的问题,很多数据都没有被记录下来。 “错”和“乱”指记录的数据错误,或者是数据被不同的部门所记录,但是数据对不上。例如有一个指标数据,市场部记录 为103,而财务部记录为124,大家看到这个例子可能会觉得这怎么可能啊?但是我想告诉你,由于IT系统的五花八门以及部门 之间数据经常缺乏稽核比对,因此很容易出现这类问题。 1.3.3 合适的工具 用来做数据分析的工具很多,比较知名的就有10多种,如果再加上那些不知名的,说几十种都算少的。 有的学员在跟我交流时提到
21、不愿意换工具,例如他好不容易熟悉了Eviews,然后要做销售数据的季节性分解,虽然听说 SPSS比较好,但是他不愿意换,觉得再学一个软件比较麻烦。 我个人的观点是:存在的就是合理的。每种软件都有它的优势,反过来,也有它的问题。其实我们可以逆向思维,如果有一 个软件什么都能干,那么其他的软件就可以退出市场了。 要把各种软件的优势和长处说清楚是件不容易的事情,2.2节会尽可能做一个总结和描述。 1.3.4 分析结果的呈现 仅仅能够分析数据是不够的,还需要把分析的结果展示给其他人,这包括领导、同事、客户等。数据呈现目前是一个热门话 题,所谓呈现,就是把数据分析的比较专业甚至晦涩的结果,以生动的甚至有
22、趣的形式展示给他人看。 比较通俗地讲,有人认为呈现就是画图,我比较认同这个观点,“一图抵千言”,人们对于图形的接受程度要远远高于文字 和数字。 EXCEL中有很多绘图技巧,EXCEL的更新版本也在对图形绘制进行不断地改进,各种专业统计工具中都有绘图模 块,Stata、SAS、R等软件都有专门的绘图命令用来绘制图形。 1.4 数据分析的流程 数据分析一般有数据采集、数据整理、制表、数据分析、数据呈现等多个阶段。当然,不是说每一个数据分析的过程都需要 这些阶段,有的企业数据质量非常好,自然就不需要数据采集过程了;也有些数据分析并不怎么需要呈现过程。不过,为了方便 读者理解,下面将介绍一个完整的流程
23、。 1.4.1 数据采集 数据采集指为了保证数据分析能够顺利展开而进行的数据采集工作。数据采集工作的难度、跨度非常大,有的采集工作非常 简单,仅仅是几个简单的邮件、电话,就能够完成数据的采集工作;有的数据采集工作则非常痛苦,甚至经常会出现采集不到数 据的情况。 数据采集的难度一般表现在如下几个方面。 (1)数据根本就不存在 由于企业缺乏数据规划或者现场人员疏漏等原因,在采集数据的过程中,经常发现数据根本就不存在。 (2)数据过粗 如1.1.3节所述,企业经常在数据记录的颗粒度方面出问题,例如根据某企业的规定,项目的成本数据应该按照“天”为单 位来记录,但是我们最后发现成本记录的单位是“月”,这
24、中间的差别非常大。 (3)数据质量低下 数据的错误、对不上、缺漏等情况普遍存在,曾经有一个项目合作方对我说,如果严格校对数据质量,我们的数据可以删除 70%。试想想,在30%的比较“靠谱”的数据上做分析,得出的结论是否靠谱? (4)人为原因导致数据采集困难 一些人为原因也会导致数据采集的困难,包括部门之间的隔阂、人际关系等因素。 1.4.2 数据整理 但凡是做过数据分析的人都知道,数据整理是一个痛苦而且复杂的过程,很多数据拿到手之后,并不能马上做处理,而是要 经过一个转换过程,请看图1-4所示的一个需要整理的数据案例。 图 1-4 从图1-4可以看出,A列的数据都是合并单元格格式,如果要对以上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 实战 基于 EXCEL SPSS 系列 工具 实践 html
链接地址:https://www.31doc.com/p-5518252.html