非参数检验77页--非参数检验的过程.ppt
《非参数检验77页--非参数检验的过程.ppt》由会员分享,可在线阅读,更多相关《非参数检验77页--非参数检验的过程.ppt(78页珍藏版)》请在三一文库上搜索。
1、非参数检验,说明:非参数检验这章,请看下面吴喜之教授的讲义,更为具体的可参看统计分析与SPSS的应用薛薇 编著 人大出版社,2002.7第二次印刷,非参数检验的概念,是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。 这类方法的假定前提比参数性假设检验方法少的多,也容易满足,适用于计量信息较弱的资料且计算方法也简单易行,所以在实际中有广泛的应用。,非参数检验的过程,1. Chi-Square test 卡方检验 2. Binomial test 二项分布检验 3. Runs test 游程检验 4. 1-Sam
2、ple Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验 5. 2 independent Samples Test 两个独立样本检验 6. K independent Samples Test K个独立样本检验 7. 2 related Samples Test 两个相关样本检验 8 . K related Samples Test 两个相关样本检验,12.1 卡方检验 Chi-Square test,这里介绍的卡方检验可以检验列联表中某一个变量的各个水平是否有同样比例或者等于你所想象的比例(如5:4:1) 实例1:掷骰子300次,变量LMT,1、2、3、4
3、、5、6分别代表六面的六个点,试问这骰子是否均匀。数据data12-01(300个cases)。 Analyze Nonparametric TestsChi Square Test Variable: lmt 想要检验的变量 由于这是一个均匀分布检测,使用默认选择(Expected Values:All categories equal作为零假设); 比较有用的结果:sig=.1110.5,不能拒绝零假设,认为均匀。 实例1的数据可以组织成:两个变量(side面和number次数),6个cases。但在卡方检验前要求用number加权。结果同。,补充:卡方检验实例,实例:心脏病人猝死人数与日
4、期的关系,收集168个观测数据。其中用1、2、3、4、5、6、7表示是星期几死的。而人数分别为55、23、18、11、26、20、15。推断心脏病人猝死人数与日期的关系是否为2.8:1:1:1:1:1:1。(变量2个:死亡日期和死亡人数,Cases 7个) 加权:DataWeight Cases:死亡人数 Analyze Nonparametric TestsChi Square Test Variable:死亡日期 Expected Values: 2.8:1:1:1:1:1:1 比较有用的结果:sig=.2560.5,不能拒绝零假设,认为心脏病人猝死人数与日期的关系为2.8:1:1:1:1
5、:1:1 。,12.2 二项分布检验 Binomial test,二项分布:在现实生活中有很多的取值是两类的,如人群的男和女、产品的合格和不合格、学生的三好学生和非三好学生、投掷硬币的正面和反面。这时如果某一类出现的概率是P,则另一类出现的概率就是1-P。这种分布称为二项分布。 实例1:掷一枚比赛用的挑边器31次,变量tbh,1为出现A面、2为出现A面,试问这挑边器是否均匀。数据data12-03(31个cases)。 Analyze Nonparametric Tests Binomial Test Variable: tbh 由于这是一个均匀分布检测,使用默认选择(Test Proport
6、ion:0.5); 比较有用的结果:两组个数和sig=1.000.5,不能拒绝零假设,认为挑边器是均匀。 实例1的数据可以组织成:两个变量(side面和number次数),2个cases。但在二项分布检验前要求用number加权。结果同。,补充:二项分布检验实例,实例:为验证某批产品的一等品率是否达到90,现从该批产品中随机抽取23个样品进行检测,结果有19个一等品(1一等品,0非一等品)。(变量2个:一等品和个数,Cases 2个:1 19 和0 4) 加权:DataWeight Cases:个数 Analyze Nonparametric Tests Binomial Test Varia
7、ble:一等品 Test Proportion:0.9 比较有用的结果:两组个数和sig=.1930.5,不能拒绝零假设,认为该批产品的一等品率达到了90 。,12.3 游程检验Runs test,单样本变量随机性检验是对某变量值出现是否随机进行检验。 实例1(同二项分布检验) :掷一枚比赛用的挑边器31次,变量tbh,1为出现A面、2为出现A面,试问这挑边器出现AB面是否随机。数据data12-03(31个cases)。 Analyze Nonparametric Tests Runs Test Variable: tbh Cut Point:Custom:2 比较有用的结果: 总case数
8、(31)、 游程Run数(21)、 sig=.1420.5, 不能拒绝零假设, 认为挑边器出现AB面是随机的。,12.4 一个样本柯尔莫哥洛夫-斯米诺夫检验 1-Sample Kolmogorov-Smirnov test,单样本KS检验是利用样本数据推断总体是否服从某一理论分布,适用于探索连续型随机变量的分布形态(判断定距变量的分布情况):Normal正态分布、Uniform均匀分布、Poisson泊松分布、Exponential指数分布。 实例 :卢瑟福和盖革作了一个著名的实验,他们观察了长为7.5秒的时间间隔里到达某个计数器的由某块放射物资放出的alfa粒子质点数,共观察了2608次。数
9、据data12-05(1个变量zd, 2608个cases,按010排序)。试问这种分布规律是否服从泊松分布 Analyze Nonparametric Tests1-Sample K-S Test Variable: zd Test Distribution: Poisson 比较有用的结果: 均值(3.8673)、 sig=.8500.5, 不能拒绝零假设, 认为服从泊松分布。,12.5 两个独立样本检验 2 independent Samples Test,通过分析两个样本数据,推断它们的分布是否存在显著性差异。方法有四种: Mann-Whitney U:是通过对平均秩的研究来实现推断的
10、 KS Z:是通过对分布的研究来实现推断的 Moses extreme reactions:一个作为控制样本,另一个作为实验样本 Wald Wolfwitz Runs:是通过对游程的研究来实现推断的 实例 :甲乙两种安眠药服用后的效果。数据data12-06(2个变量: 组别zb和延长时间ycss, 20个cases)。试问这两种药物的疗效是否有显著性差异。 Analyze Nonparametric Tests 2 independent Samples Test Variable: ycss Grouping: zb(1,2) Test type:四种均选 比较有用的结果:比较四个sig值
11、,有三个sig.5,不能拒绝零假设认为疗效无显著性差异。,12.6 多个独立样本检验 K independent Samples Test,通过分析多个样本数据,推断它们的分布是否存在显著性差异。方法有三种: Median:是通过对中位数的研究来实现推断的 KW:是通过对推广的平均秩的研究来实现推断的 JT:与两个独立样本检验的Mann-Whitney U类似 实例 :某车间用四种不同的操作方法检测产品优等品率的实验数据。数据data12-07(2个变量: 方法ff和优等品率ydpl, 21个cases)。试问这四种不同的操作方法对产品优等品率是否有显著性差异。 Analyze Nonpara
12、metric Tests K independent Samples Test Variable: ydpl Grouping: ff(1,4) Test type:三种均选 比较有用的结果:比较三个sig值,K-W方法的sig.009.5,但不用,原因是观测量太少。,12.7 两个相关样本检验 2 related Samples Test,同一个被测试者,前后测两次,彼此相关。方法有四种。 实例 :某校15名男生的长跑锻炼后晨脉变化数据。数据data12-08(2个变量: 锻炼前dlq和锻炼后dlh优, 21个cases)。试问锻炼前后的晨脉有无显著性差异。 Analyze Nonparam
13、etric Tests 2 related Samples Test Pairs: dlqdlh Test type:选一种或多种 比较有用的结果:看sig值,sig.05, 拒绝零假设,认为锻炼前后的晨脉有显著性的差异。,12.8 多个相关样本检验 K related Samples Test,对多个被测试者,多个打分,看打分是否有显著性差异。方法有三种: Cochran Q:要求样本数据为二值的(1满意 0不满意) Friedman:利用秩实现 Kendall协同系数检验:H0:协同系数为0(评分标准不相关的或者是随机的) 实例 :9个顾客对三种款式衬衫的喜爱程度(1最喜爱 2其次 3不喜
14、爱)。数据data12-09(3个变量: 款式A,款式B,款式C, 27个cases)。试问顾客对三种款式衬衫的喜爱程度是否相同。 Analyze Nonparametric Tests k related Samples Test Variables: a b c Test type:选一种或多种 比较有用的结果:看sig值,sig.05, 拒绝零假设,认为顾客对三种款式衬衫的喜爱程度是不相同的。,补充:非参数检验,以下的讲义是吴喜之教授有关非参数检验的讲义,我觉得比书上讲得清楚。,非参数检验,为什么用非参数方法?,经典统计的多数检验都假定了总体的背景分布。 但也有些没有假定总体分布的具体形
15、式,仅仅依赖于数据观测值的相对大小(秩)或零假设下等可能的概率等和数据本身的具体总体分布无关的性质进行检验。 这都称为非参数检验。,为什么用非参数方法?,这些非参数检验在总体分布未知时有很大的优越性。这时如果利用传统的假定分布已知的检验,就会产生错误甚至灾难。 非参数检验总是比传统检验安全。 但是在总体分布形式已知时,非参数检验就不如传统方法效率高。这是因为非参数方法利用的信息要少些。往往在传统方法可以拒绝零假设的情况,非参数检验无法拒绝。 但非参数统计在总体未知时效率要比传统方法要高,有时要高很多。是否用非参数统计方法,要根据对总体分布的了解程度来确定。,非参数方法,这里介绍一些非参数检验。
16、 关于非参数方法的确切定义并不很明确。我们就其最广泛的意义来理解。 在计算中,诸如列联表分析中的许多问题都有精确方法,Monte Carlo抽样方法和用于大样本的渐近方法等选择。精确方法比较费时间,后两种要粗糙一些,但要快些。,秩(rank),非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升序排列之后,每个观测值的位置。例如我们有下面数据,这下面一行(记为Ri)就是上面一行数据Xi的秩。,秩(rank),利用秩的大小进行推断就避免了不知道背景分布的困难。这也是大多数非参数检验的优点。 多数非参数检验明显地或隐含地利用了秩的性质;但也有一些非参数方法没有涉及秩的
17、性质。,列联表问题,我们讲过列联表的c2检验问题(第七章)。 这里介绍的检验可以检验列联表中某一个变量的各个水平是否有同样比例或者等于你所想象的比例。 每个检验都可以选择使用精确方法,Monte Carlo抽样方法或用于大样本的渐近方法。 利用数据table7.sav,假定你想知道收入的比例是否是5比4比1(零假设)。而且选择精确检验,你可以得到各种检验结果如下:,列联表问题,利用数据table7.sav,假定你想知道收入的比例是否是5比4比1(零假设)。而且选择精确检验,你可以得到各种检验结果如下:,列联表问题,该结果除了给出了精确检验的p值,表明无论还给出渐近检验的p值;两个都是0.000
18、;这表明零假设的比例欠妥。输出还给出了Pearson统计量中的Oi和Ei(分别为下表中的Observed N和Expected N):,列联表问题,如果要检验变量的各水平是否都相等,从SPSS可以得到对这三个变量的检验(对每个变量的零假设是各水平影响相同)结果:,SPSS还分别给出对每个变量的Pearson统计量中的Oi和Ei。,SPSS软件使用说明,用table7.sav数据。假定已经加权了(number:权) AnalyzeNonparametric TestsChi Square。然后选择想要检验的变量(如income), 如要检验其水平是否相等,则在Expected Values选Al
19、l categories equal作为零假设(默认选择); 如要检验其水平是否为某比例,则在下面Values输入你的比例(我们是5比4比1,逐个输入)作为零假设。 点Exact时打开的对话框中可以选择精确方法(Exact),Monte Carlo抽样方法(Monte Carlo)或用于大样本的渐近方法(Asymptotic only)。 如果选入的变量多于一个,则检验的都是水平相等的零假设。最后OK即可。,单样本Kolmogorov-Smirnov检验,单样本的Kolmogorov-Smirnov检验(K-S检验)是用来检验一个数据的观测累积分布是否是已知的理论分布。 这些作为零假设的理论分
20、布在SPSS的选项中有正态分布(Normal),泊松分布(Poisson) ,均匀分布(Uniform)和指数分布(Exponential)。在SPSS软件中对于是否是正态分布或均匀分布的检验统计量为,数据ksdata.sav的K-S检验,我们检验它是否是正态分布、均匀分布和指数分布。输出结果分别显示在下面三个表中: 由于sig=.074.05,不能拒绝正态分布(Normal)零假设。,由于sig=.000.05,拒绝均匀分布(Uniform)零假设,由于sig=.664.05,不能拒绝指数分布(Exponential)零假设 比较三种分布检验,认为是该数据服从指数分布,SPSS软件使用说明,
21、使用我们的ksdata.sav数据。 选项为AnalyzeNonparametric Tests1 Sample K-S。 然后把变量(这里是x)选入Variable List。再在下面Test Distribution选中零假设的分布(Normal、Poisson、Uniform和Exponential)作为零假设。 在点Exact时打开的对话框中可以选择精确方法(Exact),Monte Carlo抽样方法(Monte Carlo)或用于大样本的渐近方法(Asymptotic only)。最后OK即可。,关于随机性的游程检验(run test),游程检验方法是检验一个取两个值的变量的这两个
22、值的出现是否是随机的。假定下面是由0和1组成的一个这种变量的样本(数据run1.sav): 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。 这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。,关于随机性的游程检验(run test),出现0和1的的这样一个过程可以看成是参数为某未知p的Bernoulli试验。但在给定了m和n之后,在0和1的出现是随机的零假设之下,R的条件分布就和这个参数无关了。根据初等概率论,R
23、的分布可以写成(令N=m+n),关于随机性的游程检验(run test),于是就可以算出在零假设下有关R的概率,以及进行有关的检验了。利用上面公式可进行精确检验;也可以利用大样本的渐近分布和利用Monte Carlo方法进行检验。利用上面数据的结果是:,关于随机性的游程检验(run test),当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题。看下面例子。 例 (run2.sav): 从某装瓶机出来的30盒化妆品的重量如下(单位克) 71.6 71.0 71.8 70.3 70.5 72.9 71.0 71
24、.0 70.1 71.8 71.9 70.3 70.9 69.3 71.2 67.3 67.6 67.7 67.6 68.1 68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9 为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。,关于随机性的游程检验(run test),如果把小于中位数的记为0,否则记为1,上面数据变成下面的01序列 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 这就归为上面的问题。当然这里进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数 检验 77 过程
链接地址:https://www.31doc.com/p-3364240.html