书签分享收藏举报版权申诉 / 83

立即下载加入VIP免费专享

当前位置：首页 > 其他 > 第二统计资料的整理与分析.ppt

第二统计资料的整理与分析.ppt

上传人：本田雅阁

文档编号：2559956

上传时间：2019-04-07

格式：PPT

页数：83

大小：717.51KB

《第二统计资料的整理与分析.ppt》由会员分享，可在线阅读，更多相关《第二统计资料的整理与分析.ppt（83页珍藏版）》请在三一文库上搜索。

1、第二章统计资料的整理与分析下一张主页退出上一张 1 数理统计中的常用术语 1.1 总体与样本总体：根据研究目的确定的研究对象的全体称为总体(population)；个体：总体中的每一个研究单位称为个体 (individual)；样本：依据一定方法由总体中抽取部分个体所组成的集合称为样本(sample)；有限总体：含有有限个个体的总体称为有限总体；无限总体：包含有无限多个个体的总体称为无限总体；下一张主页退出上一张样本容量：样本中所包含的个体数目叫样本容量或大小(sample size)，样本容量常记为n。通常把n30的样本叫小样本，n 30的样

2、本叫大样本。试验研究的目的：了解总体，然而能观测到的却是样本，通过样本来推断总体是统计分析的基本特点。下一张主页退出上一张为了能可靠地从样本来推断总体，要求样本具有一定的含量和代表性。如何获取有代表性的样本？采用随机抽取。所谓随机抽取(random sampling) 是指总体中的每一个个体都有同等的机会被抽取到样本中。样本毕竟只是总体的一部分，尽管样本具有一定的含量也具有代表性，通过样本来推断总体也不可能是百分之百的正确。有很大的可靠性但有一定的错误率这是统计分析的特点。下一张主页退出上一张 1.2 参数与统计量为了表示总体和样本的数量

3、特征，需要计算特征数。参数：由总体计算的特征数叫参数 (parameter)；常用希腊字母表示参数，例如用表示总体平均数，用表示总体标准差；统计量：由样本计算的特征数叫统计量 (staistic)。常用拉丁字母表示统计量，例如用表示样本平均数，用s表示样本标准差，用R表示极差。下一张主页退出上一张总体总体样本样本参数参数统计量统计量 s s 2方差 s2 标准差平均数 R极差抽样抽样推断、估计推断、估计为了了解总体分布、特征构造总体参数由相应的统计量来估计，例如用估计，用S估计等。 1.3 准确性与精确性准确性(accuracy)也

4、叫准确度，指观测值与其真值的接近程度。设某一试验指标或性状的真值为，观测值为 x，若 x与相差的绝对值|x|越小，则观测值x的准确性越高；反之则低。下一张主页退出上一张精确性(precision)也叫精确度，指同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近，即任意二个观测值xi 、xj 相差的绝对值|xi xj |越小，则观测值精确性越高；反之则低。准确性、精确性的意义见图2-1。下一张主页退出上一张图2-1 准确性与精确性的关系示意图随机误差也叫抽样误差 (sampling error) ，是由于许多无法控制的内在和外

5、在的偶然因素所造成的。随机误差带有偶然性质，在试验中，即使十分小心的进行试验操作也难以消除。随机误差不可避免，但可减少。随机误差影响试验的精确性。下一张主页退出上一张 1.41.4 随机误差随机误差(random error)(random error)与系统误与系统误差差(systematic error)(systematic error) 统计上的试验误差是指随机误差。这种误差愈小，试验的精确性愈高。系统误差也叫片面误差 (lopsided error)，这是由于试验对象相差较大，测量的仪器不准、标准试剂未经校正，以及观测、记载、抄录、计算中

6、的错误等等所引起。系统误差可以通过改进方法、正确试验设计来避免、消除。系统误差影响试验的准确性。下一张主页退出上一张正确地进行试验数据资料的分类是统计资料整理的前提。在调查或试验中，由观察、测量所得的数据资料按其性质的不同，一般可以分为数量性状资料、质量性状资料和半定量（等级）资料三大类。下一张主页退出上一张 2 2 统计资料的分类统计资料的分类数量性状(quantitative character)是指能够以测量、计量或计数的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料数量性状资料的获得有测量和计数两种方式，因而数

7、量性状资料又分为计量资料和计数资料两种。下一张主页退出上一张 2.1 2.1 数量性状资料数量性状资料用测量方式获得的数量性状资料，即用度、量、衡等计量工具直接测定获得的数量性状资料。其数据是用长度、容积、重量等来表示。这种资料的各个观测值不一定是整数，两个相邻的整数间可以有带小数的任何数值出现，其小数位数的多少由度量工具的精度而定，它们之间的变异是连续性的。因此，计量资料也称为连续性变异资料。下一张主页退出上一张 2.1.1 2.1.1 计量资料计量资料 2.1.2 计数资料指用计数方式获得的数量性状资料。在这类资料中，它的各个观察值

8、只能以整数表示，在两个相邻整数间不得有任何带小数的数值出现。这些观察值只能以整数来表示，各观察值是不连续的，因此该类资料也称为不连续性变异资料或间断性变异资料。下一张主页退出上一张 2.2 质量性状资料质量性状(qualitative character)是指能观察到而不能直接测量的，只能用文字来描述其特征的性状，如食品颜色、风味等等。这类性状本身不能直接用数值表示，要获得这类性状的数据资料，须对其观察结果作数量化处理，其方法有以下两种：下一张主页退出上一张 2.2.1 统计次数法在一定的总体或样本中，根据某一质量性状的类别统计其次数，以次数

9、作为质量性状的数据。例如，苹果中全红果个数与半红果个数。由质量性状数量化而得来的资料又叫次数资料。下一张主页退出上一张 2.2.22.2.2评分法评分法对某一质量性状对某一质量性状，因其类别不同，分别给因其类别不同，分别给予评分。例如，分析面包的质量，可以按照国际予评分。例如，分析面包的质量，可以按照国际面包评分细则进行打分，综合评价面包质量。新面包评分细则进行打分，综合评价面包质量。新产品开发中的评价打分等等。产品开发中的评价打分等等。 2.3 2.3 半定量（等级）资料半定量（等级）资料半定量或等级资料半定量或等级资料(semi-quantitative

10、 (semi-quantitative or ranked data)or ranked data)是指将观察单位按所考察是指将观察单位按所考察的性状或指标的等级顺序分组，然后清点各组的性状或指标的等级顺序分组，然后清点各组观察单位的次数而得的资料。这类资料既有次观察单位的次数而得的资料。这类资料既有次数资料的特点，又有程度或量的不同。如某种数资料的特点，又有程度或量的不同。如某种果实的褐变程度是视果实变色面积将其分组，果实的褐变程度是视果实变色面积将其分组，然后统计各级别果数。然后统计各级别果数。三种不同类型的资料相互间是有区别的，但有时可根据研究的目的和统计方法的要求将一种

11、类型资料转化成另一种类型的资料。例如，酸奶中的乳杆菌总数得到的资料属于计数资料，根据化验的目的，可按乳杆菌总数正常或不正常分为两组，清点各组的次数，计数资料就转化为质量性状次数资料；如果按乳杆菌总数过高、正常、过低分为三组，清点各组次数，就转化成了半定量资料。下一张主页退出上一张 3 数据资料的整理 3.1 数据资料的检查与核对目的：在于确保原始资料的完整性和正确性。所谓完整性是指原始资料无遗缺或重复。所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据（可结合专业知识作出判断）。对于有重复、异常或遗漏

12、的资料，应予以删除或补齐；对有错误、相互矛盾的资料应进行更正，必要时进行复查或重新试验。下一张主页退出上一张未整理的资料为原始资料，是零星的、孤立的和杂乱无章，无规律可循未整理的资料为原始资料，是零星的、孤立的和杂乱无章，无规律可循，通过科学的整理和分析，可发现其规律性，揭示事物内在本质，通过科学的整理和分析，可发现其规律性，揭示事物内在本质。 3.2 数据资料的整理方法当观测值不多(n30)时，不必分组，可直接进行统计分析。当观测值较多(n30)时，宜将观测值分成若干组，以便统计分析。将观测值分组后，制成次数分布表，即可看到资料的集中和变异情况。下一张

13、主页退出上一张 3.2 连续性资料（计量资料）的整理连续性资料的整理，需要先确定全距、组数、组距、组中值及组限，然后将全部观测值计数归组。【例2.1】为了分析某生产厂的罐头质量，现随机抽取100听罐头样品，分别称取其净重，数据资料见表2-1。下一张主页退出上一张 342.1340.7348.4346.0343.4342.7346.0341.1344.0348.0 346.3346.0340.3344.2342.2344.1345.0340.5344.2344.0 343.5344.2342.6343.7345.5339.3350.2337.3345.3358.

14、2 344.2345.8331.2342.1342.4340.5350.0343.2347.0340.2 344.0353.3340.2336.3348.9340.2356.1346.0345.6346.2 340.6339.7342.3352.8342.6350.3348.5344.0350.0335.1 340.3338.2345.5345.6349.0336.7342.0338.4343.9343.7 341.1347.1342.5350.0343.5345.6345.0348.6344.2341.1 346.8350.2339.9346.6339.9344.3346.2338.0341

15、.1347.3 347.2339.8344.4347.2341.0341.0343.3342.3339.5343.0 表表2 21 1001 100听罐头样品的净重听罐头样品的净重 g g 1、求全距 R 全距是数据资料中的最大值与最小值之差，又称为极差(range)，用R表示。即 R=Max(xi)-Min(xi) xi为观测值本例 Max=358.2 Min=331.2 R= 358.2 - 331.2 =27.0 下一张主页退出上一张 2、确定组数 k 组数的多少视样本含量及资料的变动范围大小而定，一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当，不宜过

16、多，亦不宜过少。分组越多所求得的统计量越精确，但增大了运算量；若分组过少，资料的规律性就反映不出来，计算出的统计量的精确性也较差。一般组数的确定，可参考表2-2。下一张主页退出上一张下一张主页退出上一张样本含量（n）组数 60100710 100200912 2005001217 500以上1730 本例中，本例中，n n100100，初步确定组数为，初步确定组数为9 9组。组。表表2-2 2-2 样本含量与组数样本含量与组数 3、确定组距 i 每一组中的最大值与最小值之差称为组距（Class interval），记为 i。分组时一般要求各组的组距相等。

17、组距(i)全距R组数k 本例 i279=3 下一张主页退出上一张 4、确定组限及组中值各组的最大值与最小值称为组限。最小值称为下限，最大值称为上限。每一组的中点值称为组中值，它是该组的代表值。组中值与组限、组距的关系如下：组中值(组下限组上限)/2 组下限1/ 2组距组上限1/2组距下一张主页退出上一张组距确定后，组距确定后，首先要选定第一组的组中值。在首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多，一般第一组的分组时为了避免第一组中观察值过多，一般第一组的组中值以接近或等于资料中的最小值为好。第一组组组中值以接近或等于资料中的最小值为

18、好。第一组组中值确定后，该组组限即可确定，其余各组的组中值中值确定后，该组组限即可确定，其余各组的组中值和组限也可相继确定。和组限也可相继确定。注意：最末一组的上限应大于资料中的最大值。注意：最末一组的上限应大于资料中的最大值。表2-1中，最小值为331.2，第一组的组中值取331.0，因组距为3.0，因此第一组的下限应为： 331.0 -(1/2)3.0329.5；第一组的上限也就是第二组的下限应为： 329.5+3.0=332.5；第二组的上限也就是第三组的下限为： 332.5+3.0=335.5，依此类推，一直到某一组的上限大于资料中的最大值为止。依次类推分组为：

19、 329.5 - 332.5，332.5 -335.5，下一张主页退出上一张将正好等于前一组上限和后一组下限的数据，一般约定将其归入后一组。通常将上限略去不写。第一组记为36.0 ，第二组记为39.0 ， 5、制作次数分布表分组结束后，将资料中的每一观测值逐一归组 ,统计每组内所包含的观测值个数，制作次数分布表。下一张主页退出上一张表2-3 100听罐头净重的次数分布下一张主页退出上一张组组限组组中值值（x)次数（f） 329.5-331.0 332.5-334.0 335.5-337.0 338.5-340.0 341.5-343.0 3

20、44.5-346.0 347.5-349.0 350.5-352.0 353.5-355.0 356.5-358.0 1 1 6 21 32 23 12 2 1 1 100100听罐头的单听净重多数集中在听罐头的单听净重多数集中在343g343g ，约占观测值总个数的，约占观测值总个数的1/31/3，用它来描述罐，用它来描述罐头单听净重的平均水平，有较强的代表性。头单听净重的平均水平，有较强的代表性。由次数分布表可以看出，每听罐头净重由次数分布表可以看出，每听罐头净重小于小于332.5g332.5g及大于及大于356.5g356.5g的为极少数。的为极少数。 100100听罐头净重分布基

21、本以听罐头净重分布基本以343.0g343.0g为中心为中心，向两边做递减对称分布。，向两边做递减对称分布。表2-4 100盒鲜枣每盒检出不合格枣数下一张主页退出上一张 3.3 3.3 间断性资料（计数资料）的整理间断性资料（计数资料）的整理以以100100盒鲜枣每盒检出不合格枣数为例，说明间盒鲜枣每盒检出不合格枣数为例，说明间断性资料的整理。断性资料的整理。 18291924221924222220 23202123212622232422 23242524222423242225 23252623222523202225 26252626252624232126 21

22、232224242123242421 22232022232623242224 26282427232422262320 26252526252526252422 25262524252625252728 计数资料观察值较多时，变异范围较大，若以每一观察值为一组，则组数太多，而每组内包含的观察值太少，资料的规律性显示不出来。对于这样的资料，可扩大为以几个相邻观察值为一组，适当减少组数，这样资料的规律性就较明显，对资料进一步计算分析也比较方便。下一张主页退出上一张表2-5 100盒鲜枣每盒检出不合格枣数次数分布表下一张主页退出上一张不合格枣枣数次数（f）

23、18-193 20-2111 22-2331 24-2535 26-2717 28-293 3.4质量性状资料、半定量（等级）资料的整理对于质量性状资料、半定量（等级）资料，可按性状或等级进行分组，分别统计各组的次数，然后制成次数分布表。下一张主页退出上一张 3.5 常用统计表与统计图 3.5.1 统计表（1）统计表的结构和要求统计表由标题、横标目、纵标目、线条、数字及合计构成，其基本格式如下表: 下一张主页退出上一张表号标题编制统计表的总原则：结构简单，层次分明，内容安排合理，重点突出，数据准确，便于理解和比较分析。下一张主页退出

24、上一张统计表编制具体要求如下：标题标题要简明扼要、准确地说明表的内容，有时须注明时间、地点。标目标目分横标目和纵标目两项。横标目列在表的左侧，用以表示被说明事物的主要标志；纵标目列在表的上端，说明横标目各统计指标内容，并注明计算单位，如、kg、cm等等。数字一律用阿拉伯数字，数字以小数点对齐，小数位数一致，无数字的用“”表示，数字是“0”的，则填写 “0”。线条表的上下两条边线略粗，纵、横标目间及合计用细线分开，表的左右边线可省去，表的左上角一般不用斜线。下一张主页退出上一张 (2) 统计表的种类统计表可根据纵、横标目是否有分组分为简单

25、表和复合表两类。简单表由一组横标目和一组纵标目组成，纵横标目都未分组。此类表适于简单资料的统计，如表2-6。下一张主页退出上一张复合表由两组或两组以上的横标目与一组纵标目结合而成，或由一组横标目与两组或两组以上的纵标目结合而成，或由两组或两组以上的横、纵标目结合而成。此类表适用于复杂资料的统计，如表2- 11。下一张主页退出上一张表表2-11 2-11 几种动物性食品的营养成分几种动物性食品的营养成分 3.5.2 统计图常用的统计图有长条图 (bar chart) 、园饼图(pie chart) 、线图(linear chart) 、直方

26、图(histogram)和折线图 (broken-line chart)等。一般情况下，计量资料采用直方图和折线图，计数资料、质量性状资料、半定量（等级）资料常用长条图、线图或园饼图。下一张主页退出上一张统计图绘制的基本要求 1、标题简明扼要，列于图的下方。 2、纵、横两轴应有刻度，注明单位。 3、横轴由左至右、纵轴由下而上，数值由小到大；图形长宽比例约5：4或6： 5。 4、图中需用不同颜色或线条代表不同处理、样品等时，应有图例说明。下一张主页退出上一张 ExcelExcel软件应用软件应用 n工具-加载宏-分析数据库 n数据分析 n方差分

27、析 n回归分析 n统计假设检验 n直方图 n描述统计 4.1 平均数（mean，average) 下一张主页退出上一张 4 4 统计资料的特征数统计资料的特征数平均数是统计学中最常用的统计量，反映数据平均数是统计学中最常用的统计量，反映数据资料的相对集中位置。平均数主要包括有：资料的相对集中位置。平均数主要包括有：算术平均数算术平均数（arithmetic meanarithmetic mean）中位数中位数（medianmedian）众数众数（modemode）几何平均数几何平均数（geometric meangeometric mean）调和平均数调和平均数（har

28、monic meanharmonic mean） 4.1.1 算术平均数（arithmetic mean) 算术平均数是指资料中各观测值的总和除以观测值个数所得的商，简称平均数或均数，记为。算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。 1.直接法主要用于样本含量n30以下、未经分组资料平均数的计算。下一张主页退出上一张设某一资料包含n个观测值： x1、x2、 xn，则样本平均数可通过下式计算：（2-1 ）其中，为总和符号；表示从第一个观测值x1累加到第n个观测值xn。当在意义上已明确时，可简写为x，（3-1）式可改写为：下一张主页

29、退出上一张例：对食品科学专业2004级1班10位同学的体重进行测定，测定结果分别为50.0、52.0、 53.5、56.0、58.5、60.0、48.0、51.0、 50.5、49.0（kg），求其平均数。由于 x=50.0+52.0+53.5+56.0+58.5 +60.0+48.0+51.0+50.5+49.0 =528.5， n=10 下一张主页退出上一张那么 10位同学的平均体重为52.85 kg。 2. 加权法对于样本含量 n30 以上且已分组的资料，可以在次数分布表的基础上采用加权法计算平均数，计算公式为：（2-2 ）下一张主页退出上一张

30、式中：第i组的组中值；第i组的次数；分组数第i组的次数fi是权衡第i组组中值xi在资料中所占的比重大小，因此将fi 称为是xi的 “权”，加权法也由此而得名。【例】 100听罐头净重（单位：kg）资料整理成次数分布表如下，求其加权数平均数。下一张主页退出上一张表2-3 100听罐头净重的次数分布下一张主页退出上一张组组限组组中值值（x)次数（f） 329.5-331.0 1 332.5-334.0 3 335.5-337.0 10 338.5-340.0 26 341.5-343.0 31 344.5-346.0 17 347.5-349.0 8

31、350.5-352.0 2 353.5-355.0 1 356.5-358.0 1 利用加权法计算平均数公式计算： 100听罐头每听净重的加权平均数为342.67 g。注意：计算若干个来自同一总体的样本平均数的平均数时，如果样本含量不等，也应采用加权法计算。下一张主页退出上一张【例】某牛群有黑白花奶牛 1500头，其平均体重为750 kg ，而另一牛群有黑白花奶牛1200头，平均体重为725 kg，如果将这两个牛群混合在一起，其混合后平均体重为多少？此例两个牛群所包含的牛的头数不等，要计算两个牛群混合后的平均体重，应以两个牛群牛的头数为权，求两个牛群平均体

32、重的加权平均数，即下一张主页退出上一张即两个牛群混合后平均体重为738.89 kg 。 3.平均数的基本性质（1）样本各观测值与平均数之差的和为零，即离均差之和等于零。或简写成下一张主页退出上一张（2）样本各观测值与平均数之差的平方和为最小，即离均差平方和为最小。 (xi- )2 (xi- a)2 （常数a ）或简写为：对于总体而言，通常用表示总体平均数，有限总体的平均数为：下一张主页退出上一张（2-32-3）式中，式中，NN表示总体所包含的个体数表示总体所包含的个体数当一个统计量的数学期望等于所估计的总体参数时，则称此统计量为

33、该总体参数的无偏估计量。统计学中常用样本平均数（）作为总体平均数（）的估计量，并已证明样本平均数是总体平均数的无偏估计量。下一张主页退出上一张 4.1.2 中位数（median）将资料内所有观测值由小到大依次排列，位于中间的那个观测值，称为中位数，记为Md。当观测值的个数是偶数时，则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时，中位数的代表性优于算术平均数。下一张主页退出上一张（1）当观测值个数n为奇数时，第 (n+1)/2位置的观测值，即x(n+1)/2 为中位数： Md= （2）当观测值个数为偶数时，第n/

34、2 和第（n/2+1）位置的两个观测值之和的1/2为中位数，即：下一张主页退出上一张（2-42-4）【例】对9个小麦品种的容重进行测定，测定结果为750 、 760、 767、 769、 773、775、778、780、800（已排序），求其中位数。此例 n=9，为奇数，则： Md= =773（g ）即九个小麦品种的中位数为773 g。下一张主页退出上一张 4.1.3 几何平均数（geometric mean） n 个观测值相乘之积开 n 次方所得的方根，称为几何平均数，记为G。它主要应用于科学研究中的动态分析，如微生物的增长率、人口的增长率等等。

35、当观测值呈几何级数变化时，用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下：下一张主页退出上一张 (2-6)(2-6) 为了计算方便，可将各观测值取对数后相加除以n，得lgG，再求lgG的反对数，即得G值，即下一张主页退出上一张 4.1.4 众数（mode）资料中出现次数最多的那个观测值或次数最多一组的组中值，称为众数，记为M0。下一张主页退出上一张 4.1.5 调和平均数（harmonic mean) ，资料中各观测值倒数的算术平均数的倒数，称为调和平均数，记为 H，即（2828）计算平均速率计算平均速率 4.2 变异

36、数变异数的意义用平均数作为样本的代表，其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的，还需引入度量资料中观测值变异程度大小的统计量。常用的表示变异程度的统计量有全距、方差、标准差和变异系数。下一张主页退出上一张 4.2.1 全距（Range）全距（极差）是表示资料中各观测值变异程度大小最简便的统计量。 RMax-Min R值越大，平均数的代表性越差。但是全距只利用了资料中的最大值和最小值，没有充分利用全部资料，并不能准确表达资料中各观测值的变异程度，是比较粗略的。当资料很多而又要迅速对资料的变异程度作出判

37、断时，可以利用全距这个统计量。下一张主页退出上一张为了准确地表示样本内各个观测值的变异程度，人们首先会考虑到以平均数为标准，求出各个观测值与平均数的离差，（），称为离均差。虽然离均差能表示一个观测值偏离平均数的性质和程度，但因为离均差有正、有负，离均差之和为零，即 = 0 ，因而不能用离均差之和（）来表示资料中所有观测值的总偏离程度。下一张主页退出上一张 4.2.2 方差（Variance）为了解决离均差有正、有负，离均差之和为零的问题，可先求离均差的绝对值并将各离均差绝对值

38、之和除以观测值个数 n 求得平均绝对离差，即| |/n。虽然平均绝对离差可以表示资料中各观测值的变异程度，但由于平均绝对离差包含绝对值符号，使用很不方便，在统计学中未被采用。采用将离均差平方的办法来解决离均差有正、有负，离均差之和为零的问题。先将各个离均差平方，即 ( )2 ，再求离均差平方和，即，简称平方和，记为SS；由于离差平方和常随样本大小而改变，为了消除样本大小的影响，用平方和除以样本大小，即，求出离均差平方和的平均数；下一张主页退出上一张为了使所得的

39、统计量是相应总体参数的无偏估计量，统计学证明，在求离均差平方和的平均数时，分母不用样本含量n，而用自由度 n-1，所以，我们采用统计量表示资料的变异程度。统计量称为均方（ mean square缩写为MS）,又称样本方差，记为S2，即 S2= （29）下一张主页退出上一张相应的总体参数叫总体方差，记为2。对于有限总体而言，2的计算公式为：（210 ）统计学上把样本方差 S2 的平方根叫做样本标准差，记为S，即：下一张主页退出上一张 4.2.3 4.2.3 标准差（标准差（Stand deviation)Stand devi

40、ation) （2-112-11）由于所以（2-11）式可改写为：下一张主页退出上一张相应的总体参数叫总体标准差，记为。对于有限总体而言，的计算公式为：（2-12 ）在统计学中，常用样本标准差S估计总体标准差。下一张主页退出上一张 4.2.4 标准差的计算方法 1. 直接法对于未分组或小样本资料，可直接利用定义公式来计算标准差。【例】 10瓶罐头的净重（g）分别为450 ， 450， 500， 500， 500，550， 550， 550， 600， 600，650，计算标准差。由已知，计算：x=5400， x2=2955000，代入公式得

41、： 10瓶罐头净重的标准差为65.828 g 。下一张主页退出上一张 (g)(g) 2. 加权法对于已制成次数分布表的大样本资料，可利用次数分布表，采用加权法计算标准差。计算公式为：下一张主页退出上一张式中，式中，f f i i 为各组次数；为各组次数；x x i i 为各组的组中值；为各组的组中值； f f i i = = n n为总次数。为总次数。【例】由次数分布计算100听罐头净重的标准差。下一张主页退出上一张 4.43 g4.43 g 3. 标准差的特性（1）标准差的大小，受资料中每个观测值的影响，如观测值间变异大，求得的标准差也大，

42、反之则小。（2）计算标准差时，在各观测值加上或减去一个常数，其数值不变。（3）每个观测值乘以或除以一个常数a，则所得的标准差是原来标准差的a倍或1/a倍。下一张主页退出上一张（4）在资料服从正态分布的条件下，资料中约有68.26%的观测值在平均数左右一倍标准差（ S）范围内；约有95.43%的观测值在平均数左右两倍标准差（ 2S）范围内；约有 99.73%的观测值在平均数左右三倍标准差（ 3S）范围内。也就是说全距近似地等于6倍标准差，可用（全距 /6）来粗略估计标准差。下一张主页退出上一张熟熟记记 4.2.5 变异系数Coefficie

43、nt of variation) 变异系数是衡量资料中各观测值变异程度的另一个统计量。标准差与平均数的比值称为变异系数，记为CV。变异系数可以消除单位和（或）平均数的影响，可以比较不同样本资料的相对变异程度。下一张主页退出上一张变异系数的计算公式为：下一张主页退出上一张性状x/m S/mCV/ 果皮厚49.64.99.9 角质层厚 6.20.812.9 （213213）表表2-8 2-8 赞皇大枣果皮厚、角质层厚测量结果赞皇大枣果皮厚、角质层厚测量结果角质层相对变异程度大角质层相对变异程度大指标平均值标准差变幅变异系数物理性状水

44、分 13.000.6711.75-14.505.18 容重 g/L 766.025.0694-8433 百粒重 g 34.485.9714.59-44.8617.30 百粒体积ml 28.064.8711.0-35.817.34 籽粒密度 g/ml 1.230.031.14-1.332.81 营养品质淀粉 69.551.3563.82-72.061.95 粗蛋白 10.970.928.63-13.888.39 粗脂肪 4.511.162.89-9.6925.63 灰分 1.460.111.20-1.787.38 粗纤维 2.190.291.58-2.8513.31 注意：变异系数的大小，同时受平均数和标准差两个统计量的影响，因而在利用变异系数表示资料的变异程度时，最好将平均数和标准差也列出。下一张主页退出上一张思考题 n总体、样本、参数、统计量的概念及其关系 n精确性、准确性、随机误差、系统误差的概念及其关系 n如何计算平均数、方差、标准差、变异系数，其意义、性质是什么

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第二统计资料整理分析

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第二统计资料的整理与分析.ppt
链接地址：https://www.31doc.com/p-2559956.html