书签分享收藏举报版权申诉 / 78

立即下载加入VIP免费专享

当前位置：首页 > 其他 > 非参数检验77页--非参数检验的过程.ppt

非参数检验77页--非参数检验的过程.ppt

上传人：本田雅阁

文档编号：3364240

上传时间：2019-08-18

格式：PPT

页数：78

大小：3.03MB

《非参数检验77页--非参数检验的过程.ppt》由会员分享，可在线阅读，更多相关《非参数检验77页--非参数检验的过程.ppt（78页珍藏版）》请在三一文库上搜索。

1、非参数检验,说明：非参数检验这章，请看下面吴喜之教授的讲义，更为具体的可参看统计分析与SPSS的应用薛薇编著人大出版社，2002.7第二次印刷,非参数检验的概念,是指在总体不服从正态分布且分布情况不明时，用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。这类方法的假定前提比参数性假设检验方法少的多，也容易满足，适用于计量信息较弱的资料且计算方法也简单易行，所以在实际中有广泛的应用。,非参数检验的过程,1. Chi-Square test 卡方检验 2. Binomial test 二项分布检验 3. Runs test 游程检验 4. 1-Sam

2、ple Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验 5. 2 independent Samples Test 两个独立样本检验 6. K independent Samples Test K个独立样本检验 7. 2 related Samples Test 两个相关样本检验 8 . K related Samples Test 两个相关样本检验,12.1 卡方检验 Chi-Square test,这里介绍的卡方检验可以检验列联表中某一个变量的各个水平是否有同样比例或者等于你所想象的比例(如5:4:1) 实例1：掷骰子300次，变量LMT，1、2、3、4

3、、5、6分别代表六面的六个点，试问这骰子是否均匀。数据data12-01（300个cases）。 Analyze Nonparametric TestsChi Square Test Variable: lmt 想要检验的变量由于这是一个均匀分布检测，使用默认选择（Expected Values：All categories equal作为零假设）；比较有用的结果：sig=.1110.5，不能拒绝零假设，认为均匀。实例1的数据可以组织成：两个变量（side面和number次数），6个cases。但在卡方检验前要求用number加权。结果同。,补充：卡方检验实例,实例：心脏病人猝死人数与日

4、期的关系，收集168个观测数据。其中用1、2、3、4、5、6、7表示是星期几死的。而人数分别为55、23、18、11、26、20、15。推断心脏病人猝死人数与日期的关系是否为2.8:1:1:1:1:1:1。（变量2个：死亡日期和死亡人数，Cases 7个）加权：DataWeight Cases：死亡人数 Analyze Nonparametric TestsChi Square Test Variable:死亡日期 Expected Values： 2.8:1:1:1:1:1:1 比较有用的结果：sig=.2560.5，不能拒绝零假设，认为心脏病人猝死人数与日期的关系为2.8:1:1:1:1

5、:1:1 。,12.2 二项分布检验 Binomial test,二项分布：在现实生活中有很多的取值是两类的，如人群的男和女、产品的合格和不合格、学生的三好学生和非三好学生、投掷硬币的正面和反面。这时如果某一类出现的概率是P，则另一类出现的概率就是1-P。这种分布称为二项分布。实例1：掷一枚比赛用的挑边器31次，变量tbh，1为出现A面、2为出现A面，试问这挑边器是否均匀。数据data12-03（31个cases）。 Analyze Nonparametric Tests Binomial Test Variable: tbh 由于这是一个均匀分布检测，使用默认选择（Test Proport

6、ion：0.5）；比较有用的结果：两组个数和sig=1.000.5，不能拒绝零假设，认为挑边器是均匀。实例1的数据可以组织成：两个变量（side面和number次数），2个cases。但在二项分布检验前要求用number加权。结果同。,补充：二项分布检验实例,实例：为验证某批产品的一等品率是否达到90，现从该批产品中随机抽取23个样品进行检测，结果有19个一等品（1一等品，0非一等品）。（变量2个：一等品和个数，Cases 2个：1 19 和0 4）加权：DataWeight Cases：个数 Analyze Nonparametric Tests Binomial Test Varia

7、ble:一等品 Test Proportion：0.9 比较有用的结果：两组个数和sig=.1930.5，不能拒绝零假设，认为该批产品的一等品率达到了90 。,12.3 游程检验Runs test,单样本变量随机性检验是对某变量值出现是否随机进行检验。实例1（同二项分布检验）：掷一枚比赛用的挑边器31次，变量tbh，1为出现A面、2为出现A面，试问这挑边器出现AB面是否随机。数据data12-03（31个cases）。 Analyze Nonparametric Tests Runs Test Variable: tbh Cut Point：Custom：2 比较有用的结果：总case数

8、（31）、游程Run数（21）、 sig=.1420.5，不能拒绝零假设，认为挑边器出现AB面是随机的。,12.4 一个样本柯尔莫哥洛夫-斯米诺夫检验 1-Sample Kolmogorov-Smirnov test,单样本KS检验是利用样本数据推断总体是否服从某一理论分布，适用于探索连续型随机变量的分布形态（判断定距变量的分布情况）：Normal正态分布、Uniform均匀分布、Poisson泊松分布、Exponential指数分布。实例：卢瑟福和盖革作了一个著名的实验，他们观察了长为7.5秒的时间间隔里到达某个计数器的由某块放射物资放出的alfa粒子质点数，共观察了2608次。数

9、据data12-05（1个变量zd， 2608个cases，按010排序）。试问这种分布规律是否服从泊松分布 Analyze Nonparametric Tests1-Sample K-S Test Variable: zd Test Distribution： Poisson 比较有用的结果：均值（3.8673）、 sig=.8500.5，不能拒绝零假设，认为服从泊松分布。,12.5 两个独立样本检验 2 independent Samples Test,通过分析两个样本数据，推断它们的分布是否存在显著性差异。方法有四种： Mann-Whitney U:是通过对平均秩的研究来实现推断的

10、 KS Z：是通过对分布的研究来实现推断的 Moses extreme reactions：一个作为控制样本，另一个作为实验样本 Wald Wolfwitz Runs:是通过对游程的研究来实现推断的实例：甲乙两种安眠药服用后的效果。数据data12-06（2个变量：组别zb和延长时间ycss， 20个cases）。试问这两种药物的疗效是否有显著性差异。 Analyze Nonparametric Tests 2 independent Samples Test Variable: ycss Grouping： zb（1，2） Test type：四种均选比较有用的结果：比较四个sig值

11、，有三个sig.5，不能拒绝零假设认为疗效无显著性差异。,12.6 多个独立样本检验 K independent Samples Test,通过分析多个样本数据，推断它们的分布是否存在显著性差异。方法有三种： Median：是通过对中位数的研究来实现推断的 KW：是通过对推广的平均秩的研究来实现推断的 JT：与两个独立样本检验的Mann-Whitney U类似实例：某车间用四种不同的操作方法检测产品优等品率的实验数据。数据data12-07（2个变量：方法ff和优等品率ydpl， 21个cases）。试问这四种不同的操作方法对产品优等品率是否有显著性差异。 Analyze Nonpara

12、metric Tests K independent Samples Test Variable: ydpl Grouping： ff（1，4） Test type：三种均选比较有用的结果：比较三个sig值，K-W方法的sig.009.5，但不用，原因是观测量太少。,12.7 两个相关样本检验 2 related Samples Test,同一个被测试者，前后测两次，彼此相关。方法有四种。实例：某校15名男生的长跑锻炼后晨脉变化数据。数据data12-08（2个变量：锻炼前dlq和锻炼后dlh优， 21个cases）。试问锻炼前后的晨脉有无显著性差异。 Analyze Nonparam

13、etric Tests 2 related Samples Test Pairs: dlqdlh Test type：选一种或多种比较有用的结果：看sig值，sig.05, 拒绝零假设,认为锻炼前后的晨脉有显著性的差异。,12.8 多个相关样本检验 K related Samples Test,对多个被测试者，多个打分，看打分是否有显著性差异。方法有三种： Cochran Q：要求样本数据为二值的（1满意 0不满意） Friedman：利用秩实现 Kendall协同系数检验：H0：协同系数为0(评分标准不相关的或者是随机的) 实例：9个顾客对三种款式衬衫的喜爱程度（1最喜爱 2其次 3不喜

14、爱）。数据data12-09（3个变量：款式A，款式B,款式C， 27个cases）。试问顾客对三种款式衬衫的喜爱程度是否相同。 Analyze Nonparametric Tests k related Samples Test Variables: a b c Test type：选一种或多种比较有用的结果：看sig值，sig.05, 拒绝零假设,认为顾客对三种款式衬衫的喜爱程度是不相同的。,补充：非参数检验,以下的讲义是吴喜之教授有关非参数检验的讲义，我觉得比书上讲得清楚。,非参数检验,为什么用非参数方法？,经典统计的多数检验都假定了总体的背景分布。但也有些没有假定总体分布的具体形

15、式，仅仅依赖于数据观测值的相对大小（秩）或零假设下等可能的概率等和数据本身的具体总体分布无关的性质进行检验。这都称为非参数检验。,为什么用非参数方法？,这些非参数检验在总体分布未知时有很大的优越性。这时如果利用传统的假定分布已知的检验，就会产生错误甚至灾难。非参数检验总是比传统检验安全。但是在总体分布形式已知时，非参数检验就不如传统方法效率高。这是因为非参数方法利用的信息要少些。往往在传统方法可以拒绝零假设的情况，非参数检验无法拒绝。但非参数统计在总体未知时效率要比传统方法要高，有时要高很多。是否用非参数统计方法，要根据对总体分布的了解程度来确定。,非参数方法,这里介绍一些非参数检验。

16、关于非参数方法的确切定义并不很明确。我们就其最广泛的意义来理解。在计算中，诸如列联表分析中的许多问题都有精确方法，Monte Carlo抽样方法和用于大样本的渐近方法等选择。精确方法比较费时间，后两种要粗糙一些，但要快些。,秩（rank）,非参数检验中秩是最常使用的概念。什么是一个数据的秩呢？一般来说，秩就是该数据按照升序排列之后，每个观测值的位置。例如我们有下面数据,这下面一行（记为Ri）就是上面一行数据Xi的秩。,秩（rank）,利用秩的大小进行推断就避免了不知道背景分布的困难。这也是大多数非参数检验的优点。多数非参数检验明显地或隐含地利用了秩的性质；但也有一些非参数方法没有涉及秩的

17、性质。,列联表问题,我们讲过列联表的c2检验问题（第七章）。这里介绍的检验可以检验列联表中某一个变量的各个水平是否有同样比例或者等于你所想象的比例。每个检验都可以选择使用精确方法，Monte Carlo抽样方法或用于大样本的渐近方法。利用数据table7.sav，假定你想知道收入的比例是否是5比4比1（零假设）。而且选择精确检验，你可以得到各种检验结果如下：,列联表问题,利用数据table7.sav，假定你想知道收入的比例是否是5比4比1（零假设）。而且选择精确检验，你可以得到各种检验结果如下：,列联表问题,该结果除了给出了精确检验的p值，表明无论还给出渐近检验的p值；两个都是0.000

18、；这表明零假设的比例欠妥。输出还给出了Pearson统计量中的Oi和Ei（分别为下表中的Observed N和Expected N）：,列联表问题,如果要检验变量的各水平是否都相等，从SPSS可以得到对这三个变量的检验（对每个变量的零假设是各水平影响相同）结果：,SPSS还分别给出对每个变量的Pearson统计量中的Oi和Ei。,SPSS软件使用说明,用table7.sav数据。假定已经加权了(number:权) AnalyzeNonparametric TestsChi Square。然后选择想要检验的变量(如income），如要检验其水平是否相等，则在Expected Values选Al

19、l categories equal作为零假设（默认选择）；如要检验其水平是否为某比例，则在下面Values输入你的比例（我们是5比4比1，逐个输入）作为零假设。点Exact时打开的对话框中可以选择精确方法(Exact)，Monte Carlo抽样方法（Monte Carlo）或用于大样本的渐近方法（Asymptotic only）。如果选入的变量多于一个，则检验的都是水平相等的零假设。最后OK即可。,单样本Kolmogorov-Smirnov检验,单样本的Kolmogorov-Smirnov检验（K-S检验）是用来检验一个数据的观测累积分布是否是已知的理论分布。这些作为零假设的理论分

20、布在SPSS的选项中有正态分布(Normal)，泊松分布(Poisson) ，均匀分布(Uniform)和指数分布(Exponential)。在SPSS软件中对于是否是正态分布或均匀分布的检验统计量为,数据ksdata.sav的K-S检验,我们检验它是否是正态分布、均匀分布和指数分布。输出结果分别显示在下面三个表中：由于sig=.074.05，不能拒绝正态分布(Normal)零假设。,由于sig=.000.05，拒绝均匀分布(Uniform)零假设,由于sig=.664.05，不能拒绝指数分布(Exponential)零假设比较三种分布检验，认为是该数据服从指数分布,SPSS软件使用说明,

21、使用我们的ksdata.sav数据。选项为AnalyzeNonparametric Tests1 Sample K-S。然后把变量（这里是x）选入Variable List。再在下面Test Distribution选中零假设的分布（Normal、Poisson、Uniform和Exponential）作为零假设。在点Exact时打开的对话框中可以选择精确方法（Exact），Monte Carlo抽样方法（Monte Carlo）或用于大样本的渐近方法（Asymptotic only）。最后OK即可。,关于随机性的游程检验（run test）,游程检验方法是检验一个取两个值的变量的这两个

22、值的出现是否是随机的。假定下面是由0和1组成的一个这种变量的样本（数据run1.sav）： 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 其中相同的0（或相同的1）在一起称为一个游程（单独的0或1也算）。这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15，而1的个数为n=10。,关于随机性的游程检验（run test）,出现0和1的的这样一个过程可以看成是参数为某未知p的Bernoulli试验。但在给定了m和n之后，在0和1的出现是随机的零假设之下，R的条件分布就和这个参数无关了。根据初等概率论，R

23、的分布可以写成（令N=m+n）,关于随机性的游程检验（run test）,于是就可以算出在零假设下有关R的概率，以及进行有关的检验了。利用上面公式可进行精确检验；也可以利用大样本的渐近分布和利用Monte Carlo方法进行检验。利用上面数据的结果是:,关于随机性的游程检验（run test）,当然，游程检验并不仅仅用于只取两个值的变量，它还可以用于某个连续变量的取值小于某个值及大于该值的个数（类似于0和1的个数）是否随机的问题。看下面例子。例 (run2.sav): 从某装瓶机出来的30盒化妆品的重量如下（单位克） 71.6 71.0 71.8 70.3 70.5 72.9 71.0 71

24、.0 70.1 71.8 71.9 70.3 70.9 69.3 71.2 67.3 67.6 67.7 67.6 68.1 68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9 为了看该装瓶机是否工作正常，首先需要验证是否大于和小于中位数的个数是否是随机的（零假设为这种个数的出现是随机的）。,关于随机性的游程检验（run test）,如果把小于中位数的记为0，否则记为1，上面数据变成下面的01序列 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 这就归为上面的问题。当然这里进

25、行这种变换只是为了易于理解。实际计算时，用不着这种变换，计算机会自动处理这个问题的。直接利用这个数据，通过SPSS，得到下面游程检验结果的输出。,SPSS软件使用说明,用run2.sav数据。选项为AnalyzeNonparametric TestsRuns。然后把变量（这里是length）选入Variable List。再在下面Cut Point选中位数（Median）。当然，也可以选其他值，如均值（Mean），众数（Mode）或任何你愿意的数目（放在Custom）。注意在对前面的由0和1组成的序列（run1.sav进行随机性检验时，要选均值(为什么？）。在点Exact时打开的对话框

26、中可以选择精确方法（Exact），Monte Carlo抽样方法（Monte Carlo）或用于大样本的渐近方法（Asymptotic only）。最后OK即可。,Wilcoxon (Mann-Whitney)秩和检验,这里介绍常用的Wilcoxon (或称Mann-Whitney)秩和检验。它的原理很简单，假定第一个样本有m个观测值，第二个有n个观测值。把两个样本混合之后把这m+n个观测值升幂排序，记下每个观测值在混合排序下面的秩。之后分别把两个样本所得到的秩相加。记第一个样本观测值的秩的和为WX而第二个样本秩的和为WY。这两个值可以互相推算，称为Wilcoxon统计量。该统计量的分布

27、和两个总体分布无关。由此分布可以得到p-值。直观上看，如果WX与WY之中有一个显著地大，则可以选择拒绝零假设。该检验需要的唯一假定就是两个总体的分布有类似的形状（不一定对称）。,Wilcoxon (Mann-Whitney)秩和检验,下面数据（GDP.sav）是地区1的十个城市和地区2的15个城市的人均GDP（元）。现在要想以此作为两个样本来检验两个地区的人均GDP的中位数m1和m2是否一样，即双尾检验H0: m1=m2对Ha: m1m2。由于地区2的人均GDP的中位数大于地区1的中位数，因此也可以做单尾检验H0: m1=m2对Ha: m1m2。地区1：3223 4526 3836 27

28、81 5982 3216 4710 5628 2303 4618 地区2：5391 3983 4076 5941 4748 4600 6325 4534 5526 5699 7008 5403 6678 5537 5257 由SPSS的输出可以得到下面结果：,Wilcoxon (Mann-Whitney)秩和检验,该结果头两行显示了Mann-Whitney和Wilcoxon统计量的值。另外和我们需要结果的相关部分为：对于双尾检验H0: m1=m2对Ha: m1m2，p-值为0.016（见“Exact Sig. (2-tailed)”）；而对于单尾检验H0: m1=m2对Ha: m1m2（见“E

29、xact Sig. (1-tailed)”），p-值为0.008。这两个结果是精确计算的。通常在样本量大的时候利用近似方法得到渐近分布的p-值（见“Asymp. Sig. (2-tailed)”），它只给了双尾检验的近似p-值0.017，和精确值差别不大。注意单尾检验的p-值是双尾检验的p-值的一半。这个例子的结果表明，可以拒绝原假设，即有理由认为地区2的人均GDP的中位数要高一些。,SPSS软件使用说明,使用GDP.sav数据。选项为AnalyzeNonparametric Tests2 Independent Samples。把变量（gdp）选入Test Variable List；再

30、把用1和2分类的变量area输入进Grouping Variable，在Define Groups输入1和2。在Test Type选中MannWhitney。在点Exact时打开的对话框中可以选择精确方法（Exact），Monte Carlo抽样方法（Monte Carlo）或用于大样本的渐近方法（Asymptotic only）。最后OK即可,两样本分布的Kolmogorov-Smirnov检验,假定有分别来自两个独立总体的两个样本。要想检验它们背后的总体分布相同的零假设，可以进行两独立样本的Kolmogorov-Smirnov检验。原理完全和单样本情况一样。只不过把检验统计量中零假设的

31、分布换成另一个样本的经验分布即可。假定两个样本的样本量分别为n1和n2，用S1 (X)和S2 (X)分别表示两个样本的累积经验分布函数。再记DjS1 (Xj)-S2 (Xj)。近似正态分布的检验统计量为,计算结果,twonp.sav：两种破坏性试验的持续时间。根据这个数据，n1=30，n2=25。由SPSS输出，得到,SPSS软件使用说明,使用twonp.sav数据。选项为AnalyzeNonparametric Tests2 Independent Samples。把变量（duration）选入Test Variable List；再把用1和2分类的变量type输入到Grouping V

32、ariable，在Define Groups输入1和2。在Test Type选中Kolmogorov-Smirnov Z。在点Exact时打开的对话框中可以选择精确方法（Exact），Monte Carlo抽样方法（Monte Carlo）或用于大样本的渐近方法（Asymptotic only）。最后OK即可,两样本Wald-Wolfowitz游程检验,Wald-Wolfowitz游程检验（Wald-Wolfowitz runs test）和Kolmogorov-Smirnov检验都是看两个样本所代表的总体是否分布类似。但是所采取的方法不一样。Wald-Wolfowitz游程检验把两个样本

33、混合之后，按照大小次序排列，一个样本的观测值在一起的为一个游程。和单样本的游程问题类似。可以由游程个数R看出两个样本在排序中是否随机出现。由twonp.sav数据，可以得到下面SPSS关于Wald-Wolfowitz游程检验的输出：,软件使用：数据和前面一样，只在Test Type选Wald-Wolfowitz runs。,Kruskal-Wallis关于多个样本的秩和检验,这个检验的目的是看多个总体的位置参数是否一样。方法和Wilcoxon-Mann-Whitney检验的思想类似。假定有k个总体。先把从这个k个总体来的样本混合起来排序，记各个总体观测值的秩之和为Ri，i=1,k。显然如果

34、这些Ri很不相同，就可以认为它们位置参数相同的零假设不妥（备选假设为各个位置参数不全相等）。,Kruskal-Wallis关于多个样本的秩和检验,注意这里所说的位置参数是在下面意义上的qi；由于它在分布函数Fi(x)中可以和变元x相加成为F(x+qi)的样子，所以称qi为位置参数。形式上，假定这些样本有连续分布F1,Fk，零假设为H0：F1=Fk，备选假设为Ha：Fi(x)=F(x+qi)，i=1,k，这里F为某连续分布函数，而且这些参数qi并不相等。Kruskal-Wallis检验统计量为,Kruskal-Wallis关于多个样本的秩和检验,公式中ni为第i个样本量，而N为各个样本量之和（

35、总样本量）。如果观测值中有大小一样的数值，这个公式会有稍微的变化。这个统计量在位置参数相同的零假设下有渐近的自由度为k-1的c2分布。Kruskal-Wallis检验仅仅要求各个总体变量有相似形状的连续分布。,数据house.sav：三个区域房价的数据,为了调查三个地区的房价是否类似，在每个地区抽样，得到三个样本量分别为20、30、25的房价样本。利用SPSS软件，很容易得到下面的检验结果：,SPSS软件使用说明,使用house.sav数据。选项为AnalyzeNonparametric TestsK Independent Samples。把变量（这里是price）选入Test Va

36、riable List；再把数据中用1、2、3来分类的变量group输入Grouping Variable，在Define Groups输入1、2、3。在下面Test Type选中Kruskal-Wallis H。点Exact时打开的对话框中可以选择精确方法（Exact），Monte Carlo抽样方法（Monte Carlo）或用于大样本的渐近方法（Asymptotic only）。最后OK即可,一、原材料,1，均聚聚丙烯影响均聚聚丙烯性能的主要因素：1）熔融指数（2-4g/min)；2）等规度（等规结构分子在均聚物中的百分数。95-97%）；3）结晶度（聚合物中结晶部份的质量占总质量

37、的百分比），结晶度对BOPP产品性能的影响：BOPP在室温条件下也会产生二次结晶，这是导致BOPP存放一段时间后雾度增加，产品变脆的原因。A，产品结晶度高时，弹性模量、拉伸强度及硬度均增高；B产品结晶度低时，光学性能差；4），添加剂；5）分子量（8500）；分子量分布。,53,Jonckheere-Terpstra多样本的秩检验,这个检验处理的问题和Kruskal-Wallis检验类似，零假设都是各个总体的位置参数相同，但这里的备选假设为各个总体的位置参数按升幂排列（如为降幂排列，可把总体编号颠倒顺序即为升幂排列）。注意这里所说的位置参数和前面的Kruskal-Wallis检验中的位置参数意

38、义一样。 Jonckheere-Terpstra检验先在每两个样本所有观测值对之间比较，计算第i个样本观测值中小于第j个样本观测值的对子数：,数据house.sav：三个区域房价的数据,很容易得到SPSS的Jonckheere -Terpstra检验结果输出：,SPSS软件使用说明,使用house.sav数据。选项为AnalyzeNonparametric TestsK Independent Samples。把变量（这里是price）选入Test Variable List；再把数据中用1、2、3来分类的变量group输入Grouping Variable，在Define Groups输

39、入1、2、3。在下面Test Type选中Jonckheere-Terpstra。在点Exact时打开的对话框中可以选择精确方法（Exact），Monte Carlo抽样方法（Monte Carlo）或用于大样本的渐近方法（Asymptotic only）。最后OK即可,Brown-Mood中位数检验,在有数个独立样本的情况，希望知道它们的中位数是否相等。零假设是这些样本所代表的总体的中位数相等。备选假设是这些中位数不全相等。假定有k个总体，ni为第i个样本量；把所有样本量之和记为N。先把从这个k个总体来的样本混合起来排序，找出它们的中位数。再计算每个总体中小于该中位数的观测值个数O1i

40、，i=1,k，和每个总体中大于该中位数的观测值个数O2i，i=1,k。这样就形成了一个由元素Oij组成的2k表。其列总和为ni，i=1,k；而两个行总和为各样本小于总中位数的观测值总和：R1O11+O12+ O1k及各样本大于总中位数的观测值总和R2O21+O22+ O2k。这显然是一个列联表，可以用Pearson c2统计量，即,house.sav数据,这里,SPSS软件使用说明,使用house.sav数据。选项为AnalyzeNonparametric TestsK Independent Samples。把变量（这里是price）选入Test Variable List；再把数据中用

41、1、2、3来分类的变量group输入Grouping Variable，在Define Groups输入1、2、3。在下面Test Type选中Median。在点Exact时打开的对话框中可以选择精确方法（Exact），Monte Carlo抽样方法（Monte Carlo）或用于大样本的渐近方法（Asymptotic only）。最后OK即可,Friedman秩和检验,前面讨论了两因子试验设计数据的方差分析，那里所用的F检验需要假定总体的分布为正态分布。有一种非参数方差分析方法，称为Friedman （两因子）秩和检验，或Friedman方差分析。它适用于两个因子的各种水平的组合都有一

42、个观测值的情况。,Friedman秩和检验,假定第一个因子有k个水平（称为处理，treatment），第二个因子有b个水平（称为区组）；因此一共有kbkb个观测值。这里之所以称一个因子为处理，是因为这是我们想要看该因子各水平是否对试验结果有显著的不同（它的各个水平的观测值也就是本小节的多个相关样本）。而另一个因子称为区组，不同的区组也可能对结果有影响。下面是一个例子。,数据fert.sav,这里有三种肥料作为第一个因子（肥料因子）的三个水平；而四种土壤为第二个因子（土壤因子）的四个水平。感兴趣于是否这三种肥料对于某作物的产量有区别。称肥料因子为处理，而土壤因子为区组。数据在下表中（表中数字为

43、相应组合的产量，单位公斤）。,Friedman秩和检验,Friedman秩和检验是关于位置的，和Kruskal-Wallis检验类似，形式上，假定这些样本有连续分布F1,Fk，零假设为H0：F1=Fk，备选假设为Ha：Fi(x)=F(x+qi)，i=1,k，这里F为某连续分布函数，而且这些参数qi并不相等。虽然这和以前的Kruskal-Wallis检验一样，但是由于区组的影响, 要首先在每一个区组中计算各个处理的秩；再把每一个处理在各区组中的秩相加.如果Rij表示在j个区组中第i个处理的秩。则秩按照处理而求得的和为,Friedman秩和检验,这样做的目的是在每个区组内比较处理。例如, 同个年

44、龄段中比较药品的疗效比不分年龄来比较疗效要合理；在同一个部位比较不同的材料要比混合起来比较要合理等等。这里要引进的Friedman统计量定义为,第一个式子表明，如果各个处理很不一样，和的平方就会很大，结果就显著。第二个公式是为了计算方便而导出的。它有近似的（有k-1个自由度的）c2分布。,fert.sav数据,SPSS软件使用说明,使用fert.sav数据。选项为AnalyzeNonparametric TestsK Related Samples。然后把变量（这里是a、b、c）选入Test Variable List。在下面Test Type选中Friedman。在点Exact时打开

45、的对话框中可以选择精确方法（Exact），Monte Carlo抽样方法（Monte Carlo）或用于大样本的渐近方法（Asymptotic only）。最后OK即可,Kendall协同系数检验,在实践中，常需要按照某些特别的性质来多次对一些个体进行评估或排序；比如几个（m个）评估机构对一些（n个）学校进行排序。人们想要知道，这些机构的不同结果是否一致。如果很不一致，则该评估多少有些随机，意义不大。换句话说，这里想要检验的零假设是：这些对于不同学校的排序是不相关的或者是随机的；而备选假设为：这些对不同学校的排序是正相关的或者是多少一致的。,Kendall协同系数检验,一个机构对诸个体（学校

46、）的秩（次序）的和为1+2+n=n(n+1)/2；所有m个机构对所有个体评估的总秩为mn(n+1)/2；这样对每个个体的平均秩为m(n+1)/2。如果记每一个个体的m个秩（次序）的和为Ri（i=1,n），那么，如果评估是随机的，这些Ri与平均秩的差别不会很大，反之差别会很大，也就是说下面的个体的总秩与平均秩的偏差的平方和S很大。S定义为,Kendall协同系数检验,这个和Kendall协同系数（Kendalls Coefficient of Concordance）是成比例的，Kendall协同系数W（Kendalls W）定义为,数据school.sav,下面是4个独立的环境研究单位对15个

47、学校排序的结果每一行为一个评估机构对这些学校的排序。看上去不那么一致（也有完全一致的）：,数据school.sav,SPSS的Kendall协同系数检验的输出,SPSS软件使用说明,使用school.sav数据。选项为AnalyzeNonparametric TestsK Related Samples。然后把变量（这里是s1、s2、s15 ）选入Test Variable List。在下面Test Type选中Kendalls W 。在点Exact时打开的对话框中可以选择精确方法（Exact），Monte Carlo抽样方法（Monte Carlo）或用于大样本的渐近方法（Asymp

48、totic only）。最后OK即可,关于二元响应的Cochran检验,前面讨论了两因子方差分析问题的Friedman秩和检验。但是当观测值只取诸如0或1两个可能值时，由于有太多同样的数目（只有0和1），排序的意义就很成问题了。这里要引进的Cochran检验就是用来解决这个问题的一个非参数检验。这里的零假设也是各个处理是相同的。先看一个例子关于瓶装饮用水的调查（数据在water.sav）。20名顾客对4种瓶装饮用水进行了认可（记为1）和不认可（记为0）的表态。我们感兴趣的是这几种瓶装水在顾客眼中是否有区别。这里的零假设是这些瓶装水（作为处理）在（作为区组的）顾客眼中没有区别。,数据wa

49、ter.sav,下表是数据，每一行为20个顾客对某一饮料的20个观点（0或1）。最后一列1为认可总数Ni而最后一行为每个顾客给出的4个观点中认可数的总和Li。最后一行的最后的元素为总认可数N。,显然，如果Ni和这些Ni的均值的差距很大，那么这些处理就很不一样了。Cochran检验就是基于这个思想的。用Ni 表示第i个处理所得到的“1”的个数，而Lj为第j个区组（例子中的顾客）所给的“1”的个数，“1”的总数记为N。,关于二元响应的Cochran检验,Cochran检验统计量（Cochrans Q）为（假定有k个处理和b个区组）,当k固定时，Q在b很大时有近似的自由度为k-1的c2分布。,数据water.sav,Cochran检验的SPSS输出：,SPSS软件使用说明,使用water.sav数据。选项为AnalyzeNonparametric TestsK Related Samples。然后把变量（这里是c1、s2、c3、c4 ）选入Test Variable List。在下面T

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 参数检验 77 过程

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：非参数检验77页--非参数检验的过程.ppt
链接地址：https://www.31doc.com/p-3364240.html