[信息与通信]非参数检验.ppt
《[信息与通信]非参数检验.ppt》由会员分享,可在线阅读,更多相关《[信息与通信]非参数检验.ppt(67页珍藏版)》请在三一文库上搜索。
1、第4章续,非参数检验 Nonparametric Test,第一节 非参数检验的意义,t-检验、方差分析、及卡方检验中的适合性检验等,都要求所检验的总体服从某一个分布,如正态分布。 如果所得到的样本并不来自于正态总体,或我们不知道总体的分布情况,单只要样本足够大,根据中心极限定理,我们仍可认为样本平均数近似服从正态分布。 但如果此时样本量较小,总体的分布情况又未知,我们就可以考虑使用非参数检验法。,t-检验、方差分析、适合性检验,及后面要讨论的相关、回归的显著性检验,都需要利用总体分布的信息,因此这些检验都称为参数检验。 而非参数检验由于不涉及总体参数,也不依赖于总体分布的形式,因此它与总体分
2、布状况无关,因此非参数检验又称为无分布检验(distribution-free test)。 非参数检验是利用样本数据之间的大小比较以及大小顺序,对 2 个或多个样本所属总体是否相同进行检验。,非参数检验常用在以下情况: 样本所在总体的分布状况未知,或知之甚少 无法肯定总体分布的性质 样本观测值明显偏离正态分布,因而不具备参数检验的应用条件 非参数检验具有以下优点: 计算简便、直观、易于掌握、检验速度快 但当我们所得资料符合参数检验的条件时,非参数检验的效率始终低于参数检验法,这是因为: 非参数检验法没有充分利用已知的总体分布信息 也没有充分利用样本提供的信息 因而非参数检验的功效较低,犯型错
3、误的可能性较大 非参数检验的方法有很多,几乎每一种参数检验方法都有相应的非参数检验法,第二节 符号检验法 (sign test),符号检验法用来检验配对资料的差异是否显著 这种检验方法只考虑每对数据差的正、负号,而不考虑差的绝对值的大小。符号检验法的原理和基本思路是: 假定两个样本所属总体服从相同的分布(无效假设),那么这种正、负号出现的频率应该是相等的,至少相差不大,当其相差超过一定的临界值,就可以认为这两个样本所属总体有显著差异,而不服从相同的分布,例:用A、B两种方法同时检测患阴性乳房炎的奶牛所产牛奶中的体细胞数,得如下成对数据,试问A、B这两种方法的检测结果有无差异? 奶样 序号 1
4、2 3 4 5 6 7 8 9 10 A 法 5.52 5.15 4.38 5.41 5.93 4.82 5.32 4.67 4.57 4.51 B 法 5.63 5.30 4.72 5.16 6.24 5.26 5.54 4.21 4.61 4.86 符号 + + + - + + + - + + 奶样 序号 11 12 13 14 15 16 17 18 19 20 A 法 4.63 5.42 5.17 4.82 4.35 4.67 4.73 5.15 4.87 4.95 B 法 4.84 4.93 5.17 4.92 4.65 5.28 5.10 4.72 5.03 5.41 符号 + -
5、 0 + + + + - + +,20 个样本的差均为 B 法减去 A 法 即:A 法的测定结果小于 B 法时,我们记 “+” 号A 法的测定结果大于 B 法时,我们记 “-” 号 当 A、B 两法的测定结果相等时,记 “0” “+” 的个数用 n+ 表示 “-” 的个数用 n- 表示 “0” 的个数用 n0 表示 本例中,n+ = 4,n- = 15,n0 = 1,设 H0:A、B 两种方法的测定结果相同 H1:A、B两种方法的测定结果不相同 r = min(n+,n-) = min(4,15) = 4 N = n+n- = 4+15 = 19 本例共有 20 个样本,有一对对子的差为 0
6、,没有提供有效信息,有 19 对样本为有效对子数。 如果无效假设成立,r 应等于或接近N/2 ,否则就会偏离N/2 。 查符号检验表,给出了判断 r值在显著水平为 0.05和 0.01时是否偏离 N/2 时的临界值,将查得的临界值 r0.05(n)和 r0.01(n)与所得 r 值与之比较: 若 r r0.05(n),即 P0.05,表示两试验结果差异不显著。 若 r0.01(n)rr0.05(n),即 P0.05,表示两试验结果差异显著。 若 rr0.01(n),即 P0.01,表示两试验结果差异极显著。 本例结果:r = 4 r0.05(19),即 P =0.05表明两试验方法的测定结果差
7、异显著,符号检验法的最大优点是:简单、直观、不需要知道检验对象的分布规律。 由于符号检验法所利用的信息量少,因此效率低,精确性也差。 当样本的配对数少于 6 对时符号检验法无法检出差异。 当样本的对子数处于 712 对时,检验效果也不佳。 只有当样本的对子数大于 20 对或以上时检验效果才比较好,但其效率仅为配对资料 t-test 的 65%。,本例如果我们用配对数据的 t-test 进行检验,则, 差异不显著 两者结果相反,其原因是,符号检验法没有考虑差值的大小,仅考虑正负号的多少,从这里我们也可以看出符号检验法是远不如普通 t-test 精确的,第二节 符号秩和检验 (sign rank
8、sum test),符号秩和检验法,又称为Wilcoxon法,又称为配对比较的秩和检验法。 符号秩和检验法是对符号检验法的改进,由于符号秩和检验法考虑了差值的大小,因此克服了符号检验法精确性太差、检验效率低的缺陷。 符号秩和检验法的检验步骤如下: 求出每对数据的差值; 确定秩次:将差值按绝对值的大小顺序从大到小排列,并标明序号,加上原有的正、负号; 求秩和,取秩和绝对值小者,并进行统计推断。,例:用上一节的例子 奶样 序号 1 2 3 4 5 6 7 8 9 10 A 法 5.52 5.15 4.38 5.41 5.93 4.82 5.32 4.67 4.57 4.51 B 法 5.63 5.
9、30 4.72 5.16 6.24 5.26 5.54 4.21 4.61 4.86 差值 0.11 0.15 0.34 -0.25 0.31 0.44 0.22 -0.46 0.04 0.35 秩次 4 5 12 -9 11 16 8 -17.5 2 13 奶样 序号 11 12 13 14 15 16 17 18 19 20 A 法 4.63 5.42 5.17 4.82 4.35 4.67 4.73 5.15 4.87 4.95 B 法 4.84 4.93 5.17 4.92 4.65 5.28 5.10 4.72 5.03 5.41 差值 0.21 -0.49 0 0.10 0.30
10、0.61 0.37 -0.43 0.16 0.46 秩次 7 -19 1 3 10 20 14 -15 6 17.5,首先求每对数据的差值,并标上符号; 接着按差值绝对值的大小确定各差值的秩次,本例中最小的差值为 0,标以 1,次小的差值为0.04,标以 2,余类推 。 其中,有两个差值的绝对值是相同的,均为 4.6,其秩次分别为 17、18,则其平均秩次为 17.5,标以各自的符号 然后求秩和,将正负秩次分别相加,用 T+ 表示正秩次之和,T- 表示负秩次之和 由于第 13 个差值为 0,其秩次为 1,它既不算正,也不算负,因此正负秩次各加 0.5,本例中,T+ = 149,T- = 61
11、T(n)= min(T+,T-)= min(149,61)= 61 H0:两种测定方法所得结果相同 H1:两种测定方法所得结果不同 查符号秩和检验表,得 n=20 时的T(20)0.05 = 52 本例的 T(20)= 61 T(20)0.05 = 52 表示这两种检验方法差异不显著(P0.05),当 n 趋向于无穷大时,T 值的抽样分布趋向于正态分布 ,因此 n 足够大时(n20),可以用 u-test 进行正态检验 当样本量很大时(n25),附表10 已没有相应的临界值,因此只能使用 z-test 法完成检验。 符号秩和检验法的效率高于符号检验法,但仍低于 t-test 法,其效率大约为
12、t-test 法的 96%,第三节 两组非配对资料的秩和检验,两组非配对资料的秩和检验法又称为 Mann-Whitney秩和检验 该检验方法的基本步骤为: 设立假设; 确定秩次:将两组数据合并,按数值的大小确定每一个数值的秩次; 求各组的秩和,将秩和较小的作为 T 值 统计推断 下面我们用例题来说明这一检验方法,例:研究某中草药提取物对提高家畜免疫力的影响,将小鼠分为两组,试验组 7只小鼠,灌服该提取物 1.0mL,对照组 6 只小鼠,灌服该提取物 0.0mL,试验结束后测定小鼠体内某生化物质,得如下数据,试作分析 对照组:49.8 54.6 43.8 58.4 50.7 57.6 秩次 2
13、5 1 9 3 8 试验组 56.7 53.5 65.1 68.7 60.3 59.1 56.9 秩次 6 4 12 13 11 10 7,按两组数据的大小排列编定秩次,写在相应的数据下面 设 H0:两组小鼠免疫力相同 H1:两组小鼠的免疫力不同 求秩和:试验组秩和为 63,对照组秩和为 28,取小:T = 28 查成组资料秩和检验表,得n1 =6、n2=7 时、T 值 0.05 和 0.01 的临界值分别为T1 = 27、T2 = 24 当 TT1 时,表示差异不显著 当T1T T2 时,表示差异显著 当 TT2 时,表示差异极显著,本例中, 即两组差异不显著,该中草药提取物不能有效提高免疫
14、力 附:用成组数据的 t-test 进行检验,我们可以发现:,当 n1、n2 均大于 10 时,秩和 T 近似服从状态分布,因此可以用 u-test 进行近似检验,检验公式为: 本例如用该公式计算,得 u = 2,也不显著 这提示我们:成组资料的秩和检验法其效率也是不如 t-test 的,第四节 多个样本资料的秩和检验,多组资料的秩和检验法,又称为 Kruskal-Wallis 检验法,又称为 H- 检验法。检验的步骤是: 设立假设; 编秩次:将各组数据合并,按数值大小由小至大排列,编定顺序号,相同的数值计算平均秩次; 求秩和:分别求每一组的秩和; 计算 H 值; 统计推断。,H 的计算公式为
15、: 其中:N 为资料总数,ni 为每一组的样本量,T 为每一组的秩和 当计算 H 时出现的平均秩次较多时,应对 H 进行校正。校正公式为: C 为校正系数:,应用这一方法的前提条件是: 假定资料各组数据均来自相同的连续型总体 然后检验其分布是否符合所假定的总体分布 各组数据之间的差异是否显著可以根据样本统计量H 值做出判断 资料的组数 k2、且每组容量 5 时,H 值的抽样分布近似 df = k-1 的2分布,因此可以利用2临界值来进行判断 当 k = 3、且每组样本量 5 时,可以用Kruskal-Wallis 的正确概率表进行比较,例:研究中草药对肉质的影响,设计了三个中草药配方用以试验,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息与通信 信息 通信 参数 检验
链接地址:https://www.31doc.com/p-2001299.html