《第5节数理统计.ppt》由会员分享,可在线阅读,更多相关《第5节数理统计.ppt(17页珍藏版)》请在三一文库上搜索。
1、第5节 数理统计,一数理统计及其意义,许多问题需要数据加以说明、分析数据也可解释实际问题,作出决策。, 数据的收集和分析, 数理统计 (mathematical statistics),物价、工资、存款利率、税收、保险、股票、就业率、录取率,研究如何收集和使用带有随机性影响数据的学科, 数据本身虽然没有随机性,但由于数据数量太 多,无法全部得到,只能抽样统计,数理统计研究的数据带有随机性,数据的随机性主要有两个来源:, 实验有随机误差,数理统计的两个步骤, 通过实验或观察收集必要的数据(抽样),标准 抽取 个数据 时,要使它们反映的信息越多越好;它们分布应均匀,有“代表性”,收集数据有两种方法
2、,抽样理论(sampling theory),试验设计(experiment design),分析数据的方法: 统计推断(statistical inference),二假设检验问题,命题:新药无效,?,命题: 这包产品合格,上述两例有一个共同点:利用观测结果(所取样本)对实际问题中的有关命题 “作正确与否” 的判断,我们把这种需要作出判断的命题称为 “统计假设” (statistical hypothesis),简称 “假设” 判断它正确与否的方法称为 “检验”(test), 这类问题称为“假设检验”(hypothesis testing).,问题:一骰子掷了 次,其中 1 点出现了 次,问
3、:命题“ 1 点出现的概率等于1/6 ”这一假设是否成立?,分析: 1 点出现的频率,三估计问题,1. 概率分布的估计,为估计某事件 发生的概率 ,作 次实验或观测 看 发生了几次 发生的频率 可用来作为事件 的概率 的估计值。 越大,估计越好,e.g. 商店欲估计周日上午 8:0012:00 间每分钟到达的顾客人数 的分布,即估计,观测了 20 个周日,共 分钟,记录下了每分钟到达的顾客数(4800个数据),即用到达 个顾客的频率 来估计概率,商店经理可根据这一估计来合理安排售货员,2. 其它参数的估计,任何模型(包括确定性模型)总有待定参数,要通过对实际问题的观测或试验来确定。由于观测误差
4、,因此观测值具有随机性我们要找出估计的方法,e.g. 估计某地区农户的平均收入(收入均值,记为 ),随机地抽取 户,他们的收入为 , 可用其平均数 来估计整个地区农户的平均收入 ,若另一人用同样方法随机抽取 个农户,他们的收入为 ,因此只能说“估计”均值 ,方法三 用小区间平均长度近似,方法二 用小区间长度近似,方法一 用算术平均的方法,缺点: 因为小区间长度不等, 很大时,小区间长 度的 倍可能相差很大。,对有些敏感问题,人们往往不愿回答,此时用频率估计概率会产生很大误差,S.L.Wamer(1965年): 提出两个问题,被调查者随机地选一个回答 “yes” or “no”不必告诉回答的是哪
5、个问题两个问题中一个是要调查的敏感问题,另一个是无关紧要的问题,敏感问题:你考试时作过弊吗?,陪衬问题:你出生的年份最后一位数是偶数吗?,方法, 让被调查者掷一枚硬币,出现正面时回答第 1 个问题,否则回答第 2 个问题具体回答哪个问题只有被调查者自己知道, 设调查 200 人,其中 58 人回答 “yes”,由于硬币均匀,所以可认为 100 人回答了第 1 个问题,另 100 人回答了第 2 个问题,又由于出生年份最后一位数是偶数与奇数的机会相同,所以回答第 2 个问题的 100 人中有 50 人回答“yes”,方法一,方法二,估计 的一个自然想法就是使已发生事件的概率最大,即,此方法基本的思想是:参数的值应选取使得已发生的事件的概率极大这种方法称为极大似然估计方法(method of maximum likelihood estimate), 两种方法结果相同,P109. 习题 2.5: 1, 2, 4,作 业,
链接地址:https://www.31doc.com/p-2566955.html