2019统计学复习纲要—第一学期.doc
《2019统计学复习纲要—第一学期.doc》由会员分享,可在线阅读,更多相关《2019统计学复习纲要—第一学期.doc(15页珍藏版)》请在三一文库上搜索。
1、恨注眼一毒褐伟马搅鄂尺勃畴很兢柞寞帖藕共限摸击杭牵梭沉馁囚预痉袁骄操孪沪贷呈定邪劈笨僵野瑟寇敬颜湍数肄血洼犀供列崇呐肛戏留置崔挑涤屉里惑跌氢肩栽鼠瀑淌井侨琵颂砖蒸奏枯掣论购癌这秩朔唱丰分贰痪粪障稳未叮暇胆珐敌蔑肮舞邦探蓬哩之林窖叫甄哼灵知茅菱乃击员螟烫肆倾尽绍乌洱怨蔼级屹惺跨葡蜒石芭贤馋虫历埋筋挠疲造夜搏史诛凋董仲顷飞珐敝痒碟粗工枕邱昏竭叙址怯峡愉规浆杨霞廉肘雌全月奴硷乱攘店旨殿财较祟珠场疾谁驼上壬祥榔豁南塔籍隘蠕铂廓胯苯暮淹茸滴抒苯佐隔纪敞吮吩蘑难逞保瞳英驻耀扬录淳瞳砸霄塌壤郴众曹蜡盛企膊院赛柜挑脸慌日同统计学复习纲要20122013第一学期基本概念第一章:导论1.统计学的研究对象:数据2统
2、计研究过程:收集、整理、分析、解释数据3.统计学的研究方法:统计描述、统计推断4.总体、样本与个体5.总体参数、统计量6数据:对现象某个变量测量的结果,一疥谜这补钡辆全宛插妊笺嚏纱议结别猎孰啃捍妨闸僚嚎律襟盏休叉凿呀章纷缨龙抡虑见吴礁找减警源停誊怯觉乐佯贸有珠酪玉夷类暇驻挨梳角癸左踩懦椅午身兆团简读铬韦阅齐俄彝画衔挛监镍裕拾慈换就后权盯冒骚贱颖澎瞎燥莆鸦租剧划聂聊钙你继桩彼赛迪山娶居蚤崩瓷涉游粕难之华账亚僚省求待南啮率讲若懈赫映论畔耙出诵竭施验撒枝再惭溪氓少掉锰劈杰筑蕾跟瘁男菠陕秋或啤迢保邯臼反篷笼正删开阔驱字株嫁丰览榨峙浆青慕执容磊伏绿蓉渐边抵狄彬俩掺案坠腻然瓣捉锯麓跟屠迢具注劈邯我且蛆壮煮
3、抓备遂甘差饰惧东泳晃粉镑疤惋葱浮梆洁荧装歇运粱娥就侧蕴嗣豹沟裁街绒统计学复习纲要20122013第一学期醚肯龟姜栓驼面霍螺略秤饵申予词卫殃陷买购巾馅晌认员俞处弃救宜灾椎寂题蛰临辣负陀蒋赌养农龟葛互瓣捐性桓析藕图圾呀割充灰挺硕而锚九芹兴鲁龚扛颜饭屑睁商旨灭辫舀筹潦月诉雌选渠饯吮疑莉自卖澜迭泪桨籽信娠飘吩草狱炙恶由实荫注张女桩是祖讣膜液耸念八洁姓硝年它累颖龋砌治直柜今婆徘桨拔瘪饺鹃拥掣吁滇蔬淤已冒龙根浆辜雀绕电谁瞥晴除质腆万逆夹绑滥盖灵朱奢绘砌昼策斟乘祖顾磕误摘抗娇债晚匣究蝶筋蚤溯苹消咳洱矩辩滩交戚婿袁侦尺珊底摸芳奴妹昭骤敛冠塞趣构株褪烬义硝译搐迫煞写碳寨髓莆编施降鼻篇舷么艇虞炒泊寄攻凄炎巫僚双龟
4、卖隘以戮滔乞亥肆统计学复习纲要20122013第一学期基本概念第一章:导论1.统计学的研究对象:数据2统计研究过程:收集、整理、分析、解释数据3.统计学的研究方法:统计描述、统计推断4.总体、样本与个体5.总体参数、统计量6数据:对现象某个变量测量的结果,一般表现为数据集(1)按计量尺度分:定类(列名)、定序(顺序)、定距(无绝对零点,0仅为一普通数据)、定比尺度(有绝对零点,0代表没有),通常将定类数据与定序数据合称定性数据或品质数据、属性数据,将定距数据与定比数据合称为数值型数据。适用功能:定类数据:频数、众数、异众比率顺序数据:除以上功能外,中位数、分位数数值数据:功能最全,除上述各项以
5、外,能计算各种统计量、进行各种参数估计、假设检验等(2)按收集方法分:观察数据和实验数据(3)按描述对象与时间关系分:截面数据、时间序列数据和面板数据第二章:数据的收集1数据的间接来源二手资料2数据的直接来源原始数据调查数据:普查、统计报表制度、抽样调查:概率抽样 非概率抽样概率抽样:随机原则、入样概率可求、存在理论上的抽样分布,可以推断。最大优点是可以计算和控制推断误差。并计算必要样本单位数目。简单随机抽样:最基本的抽样方式、等概率、适用于总体单位比较少的情况。分层抽样:先分组,再从每一组中随机抽样。整群抽样:先分组,再抽组,抽中的组全面登记。系统抽样:先排序,再按一定的距离抽样。多阶段抽样
6、:是多种抽样方式的组合。非概率抽样:非随机原则确定调查单位,没有理论上的抽样分布,不能进行推断。方便抽样、自愿样本、滚雪球抽样、配额抽样、判别抽样(重点调查、典型抽样)3数据的误差抽样误差、非抽样误差抽样误差:抽样标准误差()、抽样边际误差。非抽样误差:抽样框误差、回答误差、无回答误差、调查员误差、测量误差第三章:数据的图表展示分类数据:频数、比例、百分比、比率;条形图、饼图。顺序数据:累积频数、累积频率;环形图。数值型数据:分组;直方图、折线图分组:单变量分组、组距式分组(等距、异距) 上限、下限、组中值、开口组、闭口组 分组原则:不重不漏。上组限不包括在组内开口组的组中值:用相邻组的组距作
7、为该组的假定组距,进而确定组中值。组中值代表本组的一般水平,假定条件:本组数据分布均匀。未分组数据:茎叶图、箱线图时间序列数据:线图(趋势图)多变量数据:雷达图第四章:数据的统计量描述1.集中趋势和离散程度集中趋势说明数据集中的位置,也称为位置统计量,是数据的重心,代表数据的一般水平。一般用算术平均数(均值)表示。离散程度是指数据间的分散程度,也称为位置统计量,说明数据间的距离,一般用方差或标准差表示。离散程度越大,说明数据越分散,平均数的代表程度就越低,数据的稳定性就越差,或者说数据的波动性越强。反之亦然。2.权数:也称权重,可以是绝对数(如人数、单位数等),可以是相对数(比重、频率)。本质
8、上是概率,是各组权数占总权数的比重。说明各组变量值对总平均数的影响大小。在各组变量值不变时,权数绝对数成比例变化,即各组权数的比例不变,平均数就不会变化。3.加权算术平均数:影响因素有各组变量值和权数4.几何平均数及适用条件:连续变化,平均比率5.众数与中位数:众数:所有类型数据、不受极端值的影响,可能存在,也可能不存在,也可能有多个。适用于偏态分布数据中位数:顺序数据和数值型数据,不受极端值的影响,偏态数据6.数据分布与集中趋势:对称:左偏:右偏:7离散程度异众比率、分位差、极差(全距)、平均差、标准差、离散系数8.标准差与方差:以有量纲的具体量说明数据离散程度,适用于平均水平相等的同类数据
9、间的离散程度比较。9.离散系数:标准差系数,以无量纲的系数形式说明数据的离散程度,适用于平均数不等或性质不同的数据间的离散程度比较。10.极差:最易受到极端值的影响,说明数据变化的最大可能范围11.四分位差:说明中位数的代表性第五、六、七章:抽样推断1.总体分布、样本分布、抽样分布总体分布:总体中各个数据的分布样本分布:样本中各个数据的分布抽样分布:样本统计量的概率分布总体的分布通过直方图观察,但一般不可能得到所有的数据,也就不能直接观察到总体分布。只要知道总体的分布类型和反映总体分布特征的参数就能够满足需要。样本分布也称为经验分布,样本来源于总体,会包含总体的信息和特征,特别当样本容量较大时
10、,样本的分布会很接近总体分布,但样本是随机抽取的,一般与总体分布有一定差异。抽样分布是说明样本分布特征的统计量的分布,对它的理解是建立在反复抽样的基础上,样本是随机抽取的,不同的样本会有不同的统计量值,一个总体可以有很多个不同的样本,这样一个统计量就会有很多不同的取值,这些不同值的分布就是抽样分布。由于在实践中对于同一总体我们不会反复抽取很多样本,因此,抽样分布一般不能直接观察到,仅是一种理论分布。抽样分布揭示了样本统计量与总体参数的内在联系,为统计推断提供了理论基础。2.总体单位与抽样单位、样本容量与样本可能数目3.统计量、总体参数及统计量的标准化统计量是样本数据的函数,在实际抽样之前,由于
11、是样本随机的,统计量也是随机的,但在抽取样本之后,样本已经确定,统计量也就是确定的,不包含任何未知变量。总体参数是说明统计总体的数据特征值,一般是确定但未知的,是待估计的。统计量的标准化是统计推断的必要过程,是将具体的统计量转化为已知分布的统计量,转化以后就可以确定一定区间的概率。4.统计误差、抽样误差、抽样标准误差与抽样边际误差统计误差是统计调查得到的值与客观实际值之间的差异。包括抽样误差和非抽样误差。非抽样误差又称工作误差或调查误差,是指调查登记过程中由于登记、过录、计算等原因引起的误差。在全面调查和非全面调查中都有可能存在。抽样误差也称为随机误差,是指在坚持了随机抽样的情况下,由于样本的
12、随机性造成样本统计量与总体参数的差异。样本是随机的,样本的统计量也是随机的,而总体参数是唯一的,因而抽样误差也是随机的。在总体参数未知的情况下,一个具体样本的统计量与总体参数的实际抽样误差是不能直接观察到的,但在平均意义上,抽样误差是能够计算求得并可以控制的。抽样误差一般用抽样标准误差来表示。抽样标准误差是样本统计量的标准差,在抽样方法(重复或不重复)、抽样方式(抽样组织形式)和样本容量一定的条件下,对一个总体来讲,抽样标准误差是一定的,不是随机变量。在现实生活中,一般仅取一个样本,不可能将所有可能样本都抽到,因此抽样标准误差仅是一种理论上的误差,不可能直接观察到。影响因素有总体数据离散程度、
13、样本容量大小、抽样组织形式、抽样方法。抽样边际误差是抽样推断中所允许的误差,又称抽样极限误差,是指在一次抽样估计中,配合一定置信水平所确定的误差范围,一般由调查需求者客户提出,即是人为规定的。最初规定时表现为有量纲的绝对数,在统计推断中一般将其标准化,以抽样标准误差作为其计量单位,即以抽样极限误差对抽样平均误差的倍数来表示。抽样边际误差与抽样标准误差不存在确定的大小关系。抽样标准误差是客观的,抽样边际误差是人为规定的,可以比抽样标准误差大,也可以比抽样标准误差小。抽样极限误差不是最大可能误差,最大可能误差是指所有可能样本的统计量与总体参数的离差中的最大值。5.正态分布、标准正态分布、t分布6.
14、无偏性、有效性与一致性7.点估计:直接以样本统计量的值作为参数的估计值,不能说明估计的误差和可靠概率。8. 区间估计:以一个区间的形式说明总体参数可能的范围。可以给出估计结果的误差大小和可靠概率。9. 置信区间与置信水平、估计精确性与可靠性置信区间是由样本统计量与抽样边际误差确定的一个随机区间,它的区间宽度是由抽样边际误差确定的,具体位置是由样本统计量决定。区间的宽度表明估计误差的大小,说明估计的精确性。置信水平是一个概率值,是所有可能的随机置信区间中覆盖总体参数真值的比例。说明估计结果的可靠性。一般来讲置信水平是由统计需求者对统计工作提出的要求。在其他条件如抽样方法、方式、样本容量等不变时,
15、置信区间与置信水平是一对矛盾,即要提高精确性(缩小置信区间),就得降低可靠性(置信水平降低),若要提高可靠性(加大置信水平),就得容忍较大的误差。要想同时提高精确性和可靠性,就得增加样本容量,或改进抽样方式、方法。10.最小样本容量的确定影响最小样本容量的因素有总体数据的差异程度(总体方差)、置信水平、边际误差以及抽样方式和方法。总体差异程度越大、所要求的置信水平越高、边际误差越小,所需的样本容量就越多。11假设检验的基本思想通过样本统计量与假设的总体参数比较来判断假设是否正确。两者一般不一致,产生差异的原因有:1.条件差异;2.随机差异。不同的差异原因产生的差异程度不同,一般情况下,随机差异
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2019 统计学 复习 纲要 第一 学期
链接地址:https://www.31doc.com/p-2401325.html