欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第二章数据集的描述方法.ppt

    • 资源ID:3151257       资源大小:2.01MB        全文页数:107页
    • 资源格式: PPT        下载积分:10
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要10
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第二章数据集的描述方法.ppt

    第二章 数据集的描述方法,学习目标,用于描述品质标志的图形 用于描述数量标志的图形 解释数值数据的属性 描述综合测量 适用综合测量分析数值数据,思 考,Us的市场份额时候远超过其他所有的竞争对手?,30%,32%,34%,36%,Us,Y,X,数据显示,定性数据的表示,数据显示,汇总表,列出各个分类及各类相关元素的数据 获得各类相应计数 可以显示为频数(计数)或者频率(),也可是两者,Row Is Category,Tally: | | | |,数据显示,条形图,Vertical Bars for Qualitative Variables,Bar Height Shows Frequency or %,Zero Point,Percent Used Also,Equal Bar Widths,Frequency,数据显示,Econ.,10%,Mgmt.,25%,Acct.,65%,饼图,显示了将重量分解成各个类别 对显示相对差异比较有用 每一类百分比等于该类角度数与360°的百分比(percent),Majors,(360°) (10%) = 36°,36°,数据显示,柏拉图,类似与条形图,只是柏拉图是按从左到右根据条形图的高度按照递减的方式重新排序各分类,Vertical Bars for Qualitative Variables,Bar Height Shows Frequency or %,Zero Point,Percent Used Also,Equal Bar Widths,Frequency,思 考,如果你是某研究所的分析师,你想显示2006年各网络游览器所占份额,试着用条形图、饼图和柏拉图描述以下数据,条形图解决方案*,Market Share (%),Browser,饼图的解决方案*,Market Share,柏拉图解决方案*,Market Share (%),Browser,定量数据表示方法,数据显示,茎叶图,1. 将每个观察数据都划分成茎值和叶值 茎值定义了类别 叶值定义了每一类的频数(计数),2. Data: 21, 24, 24, 26, 27, 27, 30, 32, 38, 41,26,2,144677,3,028,4,1,数据显示,制作频数分布表的步骤,定义范围 选择组数 通畅在5-15组之间 组距计算 (宽度) 定义组界(限制) 计算组中值 计算分配到各类的观测值计数,例:频数分布表,原始数据: 24, 26, 24, 21, 27 27 30, 41, 32, 38,组距,(下限 + 上限) / 2,组距,类别,组中值,频率,15.5 25.5,20.5,3,25.5 35.5,30.5,5,35.5 45.5,40.5,2,相对频率( %)分布表,百分比分布,相对频率分布,Class,Prop.,15.5 25.5,.3,25.5 35.5,.5,35.5 45.5,.2,Class,%,15.5 25.5,30.0,25.5 35.5,50.0,35.5 45.5,20.0,数据显示,0,1,2,3,4,5,直方图,Frequency Relative Frequency Percent,0 15.5 25.5 35.5 45.5 55.5,Lower Boundary,Bars Touch,Class,Freq.,15.5 25.5,3,25.5 35.5,5,35.5 45.5,2,Count,数字资料的特性,思 考,. 引证雇员低工资一例 - 大多数的雇员收入仅为$20,000. . 董事长声称平均收入是 $70,000!,$400,000,$70,000,$50,000,$30,000,$20,000,标准符号表示,测量,样本,总体,均值,标准差,S,方差,数目,n,N,数据的数字属性,中心趋势(位置),方差 (离差),形状,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,中心趋势,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,均值,测量中心趋势 最常用的衡量标准 充当平衡点 容易受到极端值的影响(异常值) 公式 (样本均值),求均值,原始数据: 10.3 4.9 8.9 11.7 6.3 7.7,X,X,n,X,X,X,X,X,X,i,i,n,1,1,2,3,4,5,6,6,10,3,4,9,8,9,11,7,6,3,7,7,6,8,30,.,.,.,.,.,.,.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,中位数,测量中心趋势 将变量排序后处于中间位置的变量值 如果n为奇数,则为排序序列位于中间的变量值 If 如果n为偶数,则为中间位置两个变量值的平均 变量序列中间位置 不受极端值的影响,中位数案例 n为奇数的例子,Raw Data: 24.1 22.6 21.5 23.7 22.6 Ordered: 21.5 22.6 22.6 23.7 24.1 Position: 1 2 3 4 5,Positioning,Point,Median,n,1,2,5,1,2,3,0,22,6,.,.,中位数案例 n为偶数的例子,Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 Ordered: 4.9 6.3 7.7 8.9 10.3 11.7 Position: 1 2 3 4 5 6,Positioning,Point,Median,n,1,2,6,1,2,3,5,7,7,8,9,2,8,30,.,.,.,.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,众数,测量集中趋势 出现最多的值 不受极端值影响 可以没有众数或有几个众数 可以用于定量数据也可用于定性数据,众数的例子,没有众数 Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 一个众数 Raw Data: 6.3 4.9 8.9 6.3 4.9 4.9 多于一个的众数 Raw Data: 21 28 28 41 43 43,思 考,假设你是银河证券公司是金融分析师,你收集了某新发行股票的收盘价如下: 17, 16, 21, 18, 13, 16, 12, 11. 描述这只新股价格的中心趋势,中心趋势的解决方案*,均值,X,X,n,X,X,X,i,i,n,1,1,2,8,8,17,16,21,18,13,16,12,11,8,15,5,.,中心趋势的解决方案*,中位数 Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 Position: 1 2 3 4 5 6 7 8,Positioning Point,Median,n,1,2,8,1,2,4,5,16,16,2,16,.,中心趋势的解决方案*,众数 Raw Data: 17 16 21 18 13 16 12 11 Mode = 16,中心趋势测量总结,Measure,Formula,Description,均值,X,i,/,n,均衡点,中位数,(,n,+1),位置,2,排序后中间位置,的变量值,众数,无,出现频率最高的值,形 状,形状,描述数据如何分布 形状的测量 偏度 = 对称,右偏,左偏,对称,Mean,=,Median,Mean,Median,Median,Mean,方 差,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,全距,测量离差 等于变量的最大值与最小值之差 Range = Xlargest Xsmallest 忽略了数据的分布,7,8,9,10,7,8,9,10,Range = 10 7 = 3,Range = 10 7 = 3,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,方差和标准差,测量离差 最常用的测量方面 考虑了数据的分布,4,6,10,12,X,= 8.3,8,样本方差的公式,n - 1 作为分母! (如果是总体方差则使用N),=,样本标准差的公式,S,S,X,X,n,X,X,X,X,X,X,n,i,i,n,n,2,2,1,1,2,2,2,2,1,1,(,),(,),(,),(,),方差的例子,Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7,S,X,X,n,X,X,n,S,i,i,n,i,i,n,2,2,1,1,2,2,2,2,1,8,3,10,3,8,3,4,9,8,3,7,7,8,3,6,1,6,368,(,),(,),(,),(,),where,.,.,.,.,.,.,.,.,思考,假设你是银河证券公司是金融分析师,你收集了某新发行股票的收盘价如下: 17, 16, 21, 18, 13, 16, 12, 11. 这只股票价格的方差和标准查是多少?,方差的解决方案*,Sample Variance Raw Data: 17 16 21 18 13 16 12 11,S,X,X,n,X,X,n,S,i,i,n,i,i,n,2,2,1,1,2,2,2,2,1,15,5,17,15,5,16,15,5,11,15,5,8,1,11,14,(,),(,),(,),(,),where,.,.,.,.,.,标准差的解决方案*,样本标准差,S,S,X,X,n,i,i,n,2,2,1,1,11,14,3,34,(,),.,.,方差测量的总结,Measure,Formula,Description,Range全距,X,largest,X,smallest,总体延伸,样本标准差,关于样本均值的离差,总体标准差,关于总体均值的离差,样本方差,(,X,i,X,),2,n, 1,关于样本均值的离差平方,标准差的理解,标准差的理解: Chebyshevs Theorem(,可应用于任何形状的数据集,标准差的理解: Chebyshevs Theorem,Chebyshevs Theorem 例子,之前我们发现新发行股票的收盘价格均值是15.5标准差为3.34. 用这些信息,建立一个至少包含了新发行股票的75%d的收盘价格.,Chebyshevs Theorem 例子,至少75%的新发行股票的收盘价将位于距离均值的2倍标准差的期间内 x = 15.5 s = 3.34,(x 2s, x + 2s) = (15.5 23.34, 15.5 + 23.34) = (8.82, 22.18),标准差的理解: 经验法则,如果应用于分布对称的丘型曲线的数据集 大约 68%的数据位于 , + 期间 大约 95%的数据位于 2 , + 2期间 大约 99.7% 的数据位于 3 , +3 期间,标准差的理解: 经验法则, 3 2 + +2 + 3,经验法则例子,之前我们发现新发行股票的收盘价格均值是15.5标准差为3.34. 如果我们假设数据的分布是对称的丘型的,请计算x + s, x + 2s, x + 3s期间的百分比。.,经验法则例子,相对位置的数字测量,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,相对位置的数字测量: 百分位,描述了某个测量值(数据)对照其他测量值(数据)的相对位置 第P个百分位表示有p% 数据落于这一点的下方,而(100 p)% 的数据落于该点的上方。The 中位数 =第50个百分位( 50th percentile),百分位的例子,你在四级英语考试中得分 560 。这个分数,使你处于第58的百分位上. 有多少百分比的参考试比你的分数低? 有多少百分比的参考试比你的分数高?,百分位,有多少百分比的参考试比你的分数低 58% 的参考者分数低于 560. 有多少百分比的参考试比你的分数高? (100 58)% = 42%的参考者分数高于 560.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,相对位置的数值测量: ZScores,描述了某个测量值(数据)对照其他测量值(数据)的相对位置,测量了一个数据与均值的距离相对于标准差的个数(倍数)Measures the number of standard deviations away from the mean a data value is located,ZScore 例子,装配一个产品的时间均值是22.5分钟,标准差是2.5 分钟. 计算花20分钟装配一个产品的zscore. 计算花27.5分钟装配一个产品的zscore.,ZScore 案例,四分位& 盒形图,四分位,无中心趋势的测量,2. 把排序数据分成4等分,四分位 (Q1) 例子,Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 Ordered: 4.9 6.3 7.7 8.9 10.3 11.7 Position: 1 2 3 4 5 6,Q,Position,Q,1,1,1,4,1,6,1,4,1,75,2,6,3,1,n,(,),(,),.,.,四分位 (Q2) 例子,Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 Ordered: 4.9 6.3 7.7 8.9 10.3 11.7 Position: 1 2 3 4 5 6,Q,Position,Q,2,2,1,4,2,6,1,4,3,5,7,7,8,9,2,8,3,2,n,(,),(,),.,.,.,.,四分位 (Q3) 例子,Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 Ordered: 4.9 6.3 7.7 8.9 10.3 11.7 Position: 1 2 3 4 5 6,Q,Position,Q,3,3,1,4,3,6,1,4,5,25,5,10,3,3,n,(,),(,),.,.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,四分位差,离散度的测量 也叫做中心伸展(midspread) 四分位差等于第3个分位点与第1个分位点的差 Interquartile Range = Q3 Q1 4. 是处于中间50%的数据延展 5. 不受极端值的影响,思考,假设你是银河证券公司是金融分析师,你收集了某新发行股票的收盘价如下: 17, 16, 21, 18, 13, 16, 12, 11. 请计算四分位值Q1 和 Q3,以及四分位差,Q1 Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 Position: 1 2 3 4 5 6 7 8,四分位的解决方案*,Q,Position,Q,1,1,1,4,1,8,1,4,2,5,12,5,1,n,(,),(,),.,.,四分位的解决方案*,Q3 Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 Position: 1 2 3 4 5 6 7 8,Q,Position,Q,3,3,1,4,3,8,1,4,6,75,7,18,3,n,(,),(,),.,四分位差的解决方案*,Interquartile Range Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 Position: 1 2 3 4 5 6 7 8,Interquartile Range,Q,Q,3,1,18,0,12,5,5,5,.,.,.,盒形图,1. 下面概要使用5个数字作为图形中的数据显示,Median,4,6,8,10,12,Q,3,Q,1,X,largest,X,smallest,形状 & 盒形图,右偏,左偏,对称,Q,1,Median,Q,3,Q,1,Median,Q,3,Q,1,Median,Q,3,绘制二变量关系的图形,绘制二变量关系的图形,描述两个数量变量的关系variables 用散点图绘制,例子:散点图,你是孩之宝玩具公司的市场分析员,你收集到以下数据: Ad $ (x) Sales (Units) (y) 1 1 2 1 3 2 4 2 5 4 画出数据的散点图,例子:散点图,0,1,2,3,4,0,1,2,3,4,5,Sales,Advertising,时间序列图,时间序列图,用于绘制随着时间产生的数据 显示数据在时间上的趋势和变化 横轴记录了时间 纵轴记录了测量值 用直线将测量值的点连接起来,例:时间序列图,表中的数据显示了2006年纽约市普通汽油8个星期的平均零售价格。 画出这一数据的时间序列图.,时间序列图,Date,Price,Distorting the Truth with Descriptive Techniques,展现数据的一些错误,使用“图表垃圾” 进行数据批量比较是没有相对基础 压缩纵轴 纵轴没有0点,图形垃圾,坏的表述,好的表示,1960: $1.00,1970: $1.60,1980: $3.10,1990: $3.80,Minimum Wage,Minimum Wage,0,2,4,1960,1970,1980,1990,$,没有相对基础,好的表述,As by Class,As by Class,坏的表述,0,100,200,300,FR,SO,JR,SR,Freq.,0%,10%,20%,30%,FR,SO,JR,SR,%,Compressing Vertical Axis,Good Presentation,Quarterly Sales,Quarterly Sales,Bad Presentation,0,25,50,Q1,Q2,Q3,Q4,$,0,100,200,Q1,Q2,Q3,Q4,$,No Zero Point on Vertical Axis,Good Presentation,Monthly Sales,Monthly Sales,Bad Presentation,0,20,40,60,J,M,M,J,S,N,$,36,39,42,45,J,M,M,J,S,N,$,结论,用途描述定性数据 用途描述定量数据 解释定量数据的属性 描述数据的概扩测量 使用概扩测量分析数字数据,

    注意事项

    本文(第二章数据集的描述方法.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开