第二统计资料的整理与分析.ppt
《第二统计资料的整理与分析.ppt》由会员分享,可在线阅读,更多相关《第二统计资料的整理与分析.ppt(83页珍藏版)》请在三一文库上搜索。
1、第二章 统计资料的整理与分析 下一张 主 页 退 出 上一张 1 数理统计中的常用术语 1.1 总体与样本 总体:根据研究目的确定的研究对象的全体称为总 体(population); 个体:总体中的每一个研究单位称为个体 (individual); 样本: 依据一定方法由总体中抽取部分个体所组 成的集合称为样本(sample); 有限总体:含有有限个个体的总体称为有限总体; 无限总体:包含有无限多个个体的总体称为无限总 体; 下一张 主 页 退 出 上一张 样本容量:样本中所包含的个体 数目叫样本容量或大小(sample size),样本容量常记为n。通常 把n30的样本叫小样本,n 30的样
2、本叫大样本。 试验研究的目的:了解总体,然 而能观测到的却是样本,通过样本 来推断总体是统计分析的基本特点 。 下一张 主 页 退 出 上一张 为了能可靠地从样本来推断总体,要 求样本具有一定的含量和代表性。 如何获取有代表性的样本?采用随机 抽取。 所谓随机抽取(random sampling) 是指总体中的每一个个体都 有同等的机会被抽取到样本中。 样本毕竟只是总体的一部分,尽管样 本具有一定的含量也具有代表性,通过样 本来推断总体也不可能是百分之百的正确 。有很大的可靠性但有一定的错误率这是 统计分析的特点。 下一张 主 页 退 出 上一张 1.2 参数与统计量 为了表示总体和样本的数量
3、特征,需要计 算特征数。 参数:由总体计算的特征数叫参数 (parameter);常用希腊字母表示参数, 例如用表示总体平均数,用表示总体标准 差; 统计量:由样本计算的特征数叫统计量 (staistic)。常用拉丁字母表示统计量,例 如用 表 示样本平均数,用s表示样本标准 差,用R表示极差。 下一张 主 页 退 出 上一张 总体总体 样本样本 参数参数 统计量统计量 s s 2方 差 s2 标准差 平均数 R极 差 抽样抽样 推断、估计推断、估计 为了了解总体分布、特征 构 造 总体参数由相应的统计量来估计,例 如用 估计,用S估计等。 1.3 准确性与精确性 准确性(accuracy)也
4、叫准确度,指 观测值与其真值的接近程度。设某一试 验指标或性状的真值为,观测值为 x, 若 x与相差的绝对值|x|越小, 则 观测值x的准确性越高; 反之则低。 下一张 主 页 退 出 上一张 精确性(precision)也叫精确度,指同一试 验指标或性状的重复观测值彼此接近的程度。若 观测值彼此接近,即任意二个观测值xi 、xj 相差 的绝对值|xi xj |越小,则观测值精确性越高; 反之则低。准确性、精确性的意义见图2-1。 下一张 主 页 退 出 上一张 图2-1 准确性与精确性的关系示意图 随机误差 也叫 抽样误差 (sampling error) , 是由于许多无法控制的内在和外
5、在的偶然因素所造成的 。随机误差带有偶然 性质,在试验中,即使十分小心的进行试验 操作也难以消除。随机误差不可避免,但可 减少。 随机误差影响试验的精确性。 下一张 主 页 退 出 上一张 1.41.4 随机误差随机误差(random error)(random error)与系统误与系统误 差差(systematic error)(systematic error) 统计上的试验误差是指随机误差。 这种误差愈小,试验的精确性愈高。 系统误差 也叫 片面误差 (lopsided error), 这是 由于试验对 象相差较大,测量的仪器不准 、 标准试 剂未经校正,以及观测、记载、抄录、计 算中
6、的错误等等所引起。系统误差可以通 过改进方法、正确试验设计来避免、消除 。 系统误差影响试验的准确性。 下一张 主 页 退 出 上一张 正确地进行试验数据资料的分类是统 计资料整理的前提。在调查或试验中,由 观察、测量所得的数据资料按其性质的不 同,一般可以分为数量性状资料、 质量 性状资料和半定量(等级)资料三大类。 下一张 主 页 退 出 上一张 2 2 统计资料的分类统计资料的分类 数量性状(quantitative character)是指 能够以测量、计量或计数的方式表示其特征的性 状 。观察测定数量性状而获得的数据就是数量性 状资料 数量性状资料的获得有测量和计数两种方式 ,因而数
7、量性状资料 又分为计量资料和计数资料 两种。 下一张 主 页 退 出 上一张 2.1 2.1 数量性状资料数量性状资料 用测量方式获得的数量性状资料, 即用度、量、衡等计量工具直接测定 获得的数量性状资料。其数据是用长 度、容积、重量等来表示。这种资料 的各个观测值不一定是整数,两个相 邻的整数间可以有带小数的任何数值 出现,其小数位数的多少由度量工具 的精度而定 , 它们之间的变异是连 续性的。因此,计量资料也称为连续 性变异资料。 下一张 主 页 退 出 上一张 2.1.1 2.1.1 计量资料计量资料 2.1.2 计数资料 指用计数方式获得的数量性状 资料。在这类资料中,它的各个观 察值
8、只能以整数表示,在两个相邻 整数间不得有任何带小数的数值出 现。这些观察值只能以整数来表示 ,各观察值是不连续的,因此该类 资料也称为不连续性变异资料或间 断性变异资料。 下一张 主 页 退 出 上一张 2.2 质量性状资料 质量性状(qualitative character)是指 能观察到而不能直接测量的,只能用文字来描 述其特征的性状,如食品颜色、 风味等等。这 类性状本身不能直接用数值表示,要获得这类 性状的数据资料,须对其观察结果作数量化处 理,其方法有以下两种: 下一张 主 页 退 出 上一张 2.2.1 统计次数法 在一定的总体或样本中,根据某一质量 性状的类别统计其次数,以次数
9、作为质量性 状的数据。例如,苹果中全红果个数与半红 果个数。 由质量性状数量化而得来的资料又叫 次 数资料。 下一张 主 页 退 出 上一张 2.2.22.2.2评分法评分法 对某一质量性状对某一质量性状 , 因其类别不同,分别给因其类别不同,分别给 予评分。例如,分析面包的质量,可以按照国际予评分。例如,分析面包的质量,可以按照国际 面包评分细则进行打分,综合评价面包质量。新面包评分细则进行打分,综合评价面包质量。新 产品开发中的评价打分等等。产品开发中的评价打分等等。 2.3 2.3 半定量(等级)资料半定量(等级)资料 半定量或等级资料半定量或等级资料(semi-quantitative
10、 (semi-quantitative or ranked data)or ranked data)是指将观察单位按所考察是指将观察单位按所考察 的性状或指标的等级顺序分组,然后清点各组的性状或指标的等级顺序分组,然后清点各组 观察单位的次数而得的资料。这类资料既有次观察单位的次数而得的资料。这类资料既有次 数资料的特点,又有程度或量的不同。如某种数资料的特点,又有程度或量的不同。如某种 果实的褐变程度是视果实变色面积将其分组,果实的褐变程度是视果实变色面积将其分组, 然后统计各级别果数。然后统计各级别果数。 三种不同类型的资料相互间是有区别的 ,但有时可根据研究的目的和统计方法的要 求将一种
11、类型资料转化成另一种类型的资料 。 例如,酸奶中的乳杆菌总数得到的资 料属于计数资料,根据化验的目的,可按乳 杆菌总数正常或不正常分为两组,清点各组 的次数,计数资料就转化为质量性状次数资 料;如果按乳杆菌总数过高、正常、过低分 为三组 ,清点各组次数 ,就转化成了半定 量资料 。下一张 主 页 退 出 上一张 3 数据资料的整理 3.1 数据资料的检查与核对 目的:在于确保原始资料的完整性和正确性 。 所谓完整性是指原始资料无遗缺或重复。 所谓正确性是指原始资料的测量和记载无差 错或未进行不合理的归并。检查中要特别注意特 大、特小和异常数据(可结合专业知识作出判断 )。对于有重复、异常或遗漏
12、的资料 ,应予以 删除或补齐 ;对有错误、相互矛盾的资料应进 行更正,必要时进行复查或重新试验。 下一张 主 页 退 出 上一张 未整理的资料为原始资料,是零星的、孤立的和杂乱无章,无规律可循未整理的资料为原始资料,是零星的、孤立的和杂乱无章,无规律可循 ,通过科学的整理和分析,可发现其规律性,揭示事物内在本质,通过科学的整理和分析,可发现其规律性,揭示事物内在本质。 3.2 数据资料的整理方法 当观测值不多(n30)时,不必分 组,可直接进行统计分析。 当观测值较多(n30)时,宜将观 测值分成若干组,以便统计分析。将观 测值分组后,制成次数分布表,即可看 到资料的集中和变异情况。 下一张
13、主 页 退 出 上一张 3.2 连续性资料(计量资料)的整理 连续性资料的整理,需要先确定全距 、组数、组距、组中值及组限,然后将全 部观测值计数归组。 【例2.1】 为了分析某生产厂的罐头质量 ,现随机抽取100听罐头样品,分别称取 其净重,数据资料见表2-1。 下一张 主 页 退 出 上一张 342.1340.7348.4346.0343.4342.7346.0341.1344.0348.0 346.3346.0340.3344.2342.2344.1345.0340.5344.2344.0 343.5344.2342.6343.7345.5339.3350.2337.3345.3358.
14、2 344.2345.8331.2342.1342.4340.5350.0343.2347.0340.2 344.0353.3340.2336.3348.9340.2356.1346.0345.6346.2 340.6339.7342.3352.8342.6350.3348.5344.0350.0335.1 340.3338.2345.5345.6349.0336.7342.0338.4343.9343.7 341.1347.1342.5350.0343.5345.6345.0348.6344.2341.1 346.8350.2339.9346.6339.9344.3346.2338.0341
15、.1347.3 347.2339.8344.4347.2341.0341.0343.3342.3339.5343.0 表表2 21 1001 100听罐头样品的净重听罐头样品的净重 g g 1、求全距 R 全距是数据资料中的最大值与最小值 之差,又称为极差(range),用R表示。即 R=Max(xi)-Min(xi) xi为观测值 本例 Max=358.2 Min=331.2 R= 358.2 - 331.2 =27.0 下一张 主 页 退 出 上一张 2、确定组数 k 组数的多少视样本含量及资料的变动范 围大小而定,一般以达到既简化资料又不影 响反映资料的规律性为原则。组数要适当, 不宜过
16、多,亦不宜过少。分组越多所求得的 统计量越精确,但增大了运算量;若分组过 少,资料的规律性就反映不出来,计算出的 统计量的精确性也较差。一般组数的确定, 可参考表2-2。 下一张 主 页 退 出 上一张 下一张 主 页 退 出 上一张 样本含量(n)组数 60100710 100200912 2005001217 500以上1730 本例中,本例中,n n100100,初步确定组数为,初步确定组数为9 9组。组。 表表2-2 2-2 样本含量与组数样本含量与组数 3、确定组距 i 每一组中的最大值与最小值之差称为组 距(Class interval),记为 i。分组时 一般要求各组的组距相等。
17、 组距(i)全距R组数k 本例 i279=3 下一张 主 页 退 出 上一张 4、确定组限及组中值 各组的最大值与最小值称为组限。最小值称 为下限, 最大值称为上限。每一组的中点值称为 组中值,它是该组的代表值。组中值与组限、组 距的关系如下: 组中值(组下限组上限)/2 组下限1/ 2组距组上限1/2组距 下一张 主 页 退 出 上一张 组距确定后,组距确定后, 首先要选定第一组的组中值。在首先要选定第一组的组中值。在 分组时为了避免第一组中观察值过多,一般第一组的分组时为了避免第一组中观察值过多,一般第一组的 组中值以接近或等于资料中的最小值为好。第一组组组中值以接近或等于资料中的最小值为
18、好。第一组组 中值确定后,该组组限即可确定,其余各组的组中值中值确定后,该组组限即可确定,其余各组的组中值 和组限也可相继确定。和组限也可相继确定。 注意:最末一组的上限应大于资料中的最大值。注意:最末一组的上限应大于资料中的最大值。 表2-1中, 最小值为331.2,第一组的组中 值取331.0,因组距为3.0,因此 第一组的下限应为: 331.0 -(1/2)3.0329.5; 第一组的上限也就是第二组的下限应为: 329.5+3.0=332.5; 第二组的上限也就是第三组的下限为: 332.5+3.0=335.5, 依此类推,一直到某一组的上限大于资料中的 最大值为止。 依次类推分组为:
19、 329.5 - 332.5,332.5 -335.5, 下一张 主 页 退 出 上一张 将正好等于前一组上限和后一组下限的数据, 一般约定将其归入后一组。 通常将上限略去不写。 第一组记为36.0 , 第二组记为39.0 , 5、制作次数分布表 分组结束后,将资料中的每一观测值逐一归组 ,统计每组内所包含的观测值个数,制作次数分布 表。 下一张 主 页 退 出 上一张 表2-3 100听罐头净重的次数分布 下一张 主 页 退 出 上一张 组组限组组中值值(x)次数(f) 329.5-331.0 332.5-334.0 335.5-337.0 338.5-340.0 341.5-343.0 3
20、44.5-346.0 347.5-349.0 350.5-352.0 353.5-355.0 356.5-358.0 1 1 6 21 32 23 12 2 1 1 100100听罐头的单听净重多数集中在听罐头的单听净重多数集中在343g343g ,约占观测值总个数的,约占观测值总个数的1/31/3,用它来描述罐,用它来描述罐 头单听净重的平均水平,有较强的代表性。头单听净重的平均水平,有较强的代表性。 由次数分布表可以看出,每听罐头净重由次数分布表可以看出,每听罐头净重 小于小于332.5g332.5g及大于及大于356.5g356.5g的为极少数。的为极少数。 100100听罐头净重分布基
21、本以听罐头净重分布基本以343.0g343.0g为中心为中心 ,向两边做递减对称分布。,向两边做递减对称分布。 表2-4 100盒鲜枣每盒检出不合格枣 数 下一张 主 页 退 出 上一张 3.3 3.3 间断性资料(计数资料)的整理间断性资料(计数资料)的整理 以以100100盒鲜枣每盒检出不合格枣数为例,说明间盒鲜枣每盒检出不合格枣数为例,说明间 断性资料的整理。断性资料的整理。 18291924221924222220 23202123212622232422 23242524222423242225 23252623222523202225 26252626252624232126 21
22、232224242123242421 22232022232623242224 26282427232422262320 26252526252526252422 25262524252625252728 计数资料观察值较多时,变异范围较大 ,若以每一观察值为一组,则组数太多,而 每组内包含的观察值太少,资料的规律性显 示不出来。对于这样的资料,可扩大为以几 个相邻观察值为一组,适当减少组数,这样 资料的规律性就较明显,对资料进一步计算 分析也比较方便。 下一张 主 页 退 出 上一张 表2-5 100盒鲜枣每盒检出不合格枣数次数分布表 下一张 主 页 退 出 上一张 不合格枣枣数次数(f)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 统计资料 整理 分析
链接地址:https://www.31doc.com/p-2559956.html