章数据的收集.ppt
《章数据的收集.ppt》由会员分享,可在线阅读,更多相关《章数据的收集.ppt(128页珍藏版)》请在三一文库上搜索。
1、第二章 数据的搜集,授课教师:杨卫华 博士,2,主要内容,1 总体、样本、参数和统计量 2 数据类型 3 获得数据的抽样调查方法 4 问卷与问卷设计 5 获得数据的信度,3,第一节 总体、样本、参数和 统计量,4,总体和样本,总体(population) 包含所研究的全部个体(数据)的集合; 总体中的每一个元素称为个体 ; 分为有限总体和无限总体; 有限总体的范围能够明确确定,且元素的数目是有限的 无限总体所包括的元素是无限的,不可数的 样本 (sample) 从总体中抽取的一部分元素的集合; 构成样本的元素的数目称为样本容量;,抽 取,5,参数 Parameter,参数是用来描述总体特征的概
2、括性数字度量,它是研究者想要了解的总体的某种特征值。 研究者所关心的参数通常有总体平均数、总体标淮差、总体比例等。 实际应用中总体的参数一般是未知的。,6,统计量 Statistic,用来描述样本特征的概括性数字度量。 根据样本数据计算统计量,统计量是样本的函数。 研究者关心的统计量主要有样本平均数、样本标准差、样本比例等。 统计量是已知的,用于推断总体参数。,7,指标或变量 (Variable),表征个体特征(信息)的量,大学生,总体/个体,变量,一条记录(Case) 或一个数据向量,8,变量值或数据 Data,对个体特征的具体描述(数字或字符),定量型(Quantitative),定性型(
3、Qualitative),半定量型(Semi-Quantitative),年收入,性别,受教育程度,数据,9,第二节 数 据 类 型,10,统计数据的分类,按测量尺度,刻度级数据,序次级数据,名义级数据,按时间状况,截 面 的 数 据,时序的数据,按收集方法,观察的数据,实验的数据,11,统计数据的分类 (按测量尺度分),名义级数据(Nominal Level) 是一种标志,区分变量的不同值,没有次序关系; 对事物进行分类的结果,例如,人口按性别分为男、女两类 ; 序次级数据(Ordinal Level) 只能够比较大小,不能加减乘除运算; 采用数字编码或字母表示不同类别,如1=文盲,2=小学
4、,3=初中,4=高中,5=大学本科,6=硕士研究生,7=博士研究生;,也叫定序或顺序数据,也叫定类或分类数据,12,统计数据的分类 (按测量尺度分),刻度级(数值型)数据(Scale Level) 比率级数据(Ratio Level) 具有一定单位的实际测量值,其0值不是人为制定,如尺、公斤、元等; 可以加减乘除等运算; 间距级数据(Interval Level) 数据中的0是人为设定的,如0; 只能加减运算,不能乘除运算; 管理科学中的评分值,如把消费满意度定义为15;,也叫定距级数据,也叫定比级数据,13,测度级别 (Measurement Level),低,高,名义级数据,序次级数据,刻
5、度级数据,分类、分组、频次、众数、 卡方检验,相关系数、描述统计,所有描述统计和推断统计,14,选择数据类型,切换到变量察看窗口,15,统计数据的分类 (按收集方法分),观察数据(observational data) 通过调查或观测而收集到的数据; 在没有对事物人为控制的条件下而得到的; 有关社会经济现象的统计数据几乎都是观察数据; 实验数据(experimental data) 在实验中控制实验对象而收集到的数据; 比如,对一种新药疗效的实验,对一种新的农作物品种的实验等; 自然科学领域的数据大多数都为实验数据;,16,统计数据的分类 (按时间状况分),截面数据(cross-section
6、al data) 在相同或近似相同的时间点上收集的数据; 描述现象在某一时刻的变化情况; 比如,2002年我国各地区的国内生产总值数据; 时间序列数据(time series data) 在不同时间上收集到的数据; 描述现象随时间变化的情况; 比如,1996年至2002年国内生产总值数据;,17,第三节 数据的来源,18,数据的间接来源(二手数据) 系统外部的数据 系统内部的数据 数据的直接来源(原始数据) 观察(调查)获得的数据 实验获得的数据,数据的来源,19,系统外部的数据,统计部门和政府部门公布的有关资料,如各类统计年鉴; 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据; 各
7、类专业期刊、报纸、书籍所提供的资料; 从互联网或图书馆查阅到的相关资料;,20,中国主要政府统计网站和 统计出版物,中华人民共和国国家统计局 http:/ 北京统计信息网 http:/ 上海统计网 http:/www.stats- 天津统计信息网 http:/www.stats- 中国信息报 http:/ 中国统计年鉴 中国城市统计年鉴 中国物价统计年鉴 中国工业经济统计年鉴,21,系统内部的数据,业务资料,如与业务经营活动有关的各种单据、记录; 经营活动过程中的各种统计报表; 各种财务、会计核算和分析资料等;,挖掘,22,二手数据的特点,搜集容易,采集成本低; 作用广泛; 分析所要研究的问题
8、 提供研究问题的背景 帮助研究者更好地定义问题 检验和回答某些疑问和假设 寻找研究问题的思路和途径 搜集二手资料在研究中应优先考虑;,23,二手数据的评估,数据是谁搜集的? 可信度评估 为什么目的而搜集的? 数据是怎样搜集的? 什么时候搜集的?,24,数据的直接来源 (原始数据),调查数据 通过调查方法获得的数据; 通常是对社会现象而言; 通常取自有限总体 ; 实验数据 通过实验方法得到的数据; 通常是对自然现象而言 ; 也被广泛运用到社会科学中; 如心理学、教育学、社会学、经济学、管理学等,25,第四节 获得数据的抽样调查方法,26,调查数据获得的两种方法 普查与抽样,普查(Census)
9、收集有限总体中每个个体的有关指标值,如人口普查等; 抽样调查(Sampling) 在总体中选择一部分个体进行调查,以了解总体的情况;,27,28,概率抽样 (probability sampling),也称随机抽样 特点 按一定的概率以随机原则抽取样本; 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的; 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。,29,简单随机抽样 (simple random sampling),从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的。 最基本的随机抽样方法,是其它抽样方
10、法的基础。 特点 简单、直观,在抽样框完整时,可直接从中抽取样本; 用样本统计量对目标量进行估计比较方便; 局限性 当N很大时,不易构造抽样框; 抽出的单位很分散,给实施调查增加了困难; 没有利用其它辅助信息以提高估计的效率。,30,31,分层抽样 (stratified sampling),将总体按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。,也叫分类抽样,按某种特征 划分,32,如何确定抽取的个体个数?,等数分配法:每一层抽取同样的个数; 等比分配法:按照同一比例,从各个层抽取样本。 最优分配法:,各个层的方差,33,特点:层内的差距小,层间的差距大。 优点 保
11、证样本的结构与总体的结构比较相近,从而提高估计的精度; 组织实施调查方便; 既可以对总体参数进行估计,也可以对各层的目标量进行估计。,对总体而言,34,分层抽样的适用条件,适用条件: 总体在某些特征上存在显著差异; 同时这些特征对所研究问题可能有影响;,35,整群抽样 (cluster sampling),将总体中各个个体按照某一标志量分为若干群,然后以群为单位,对群进行随机抽样,只对抽出来的群实施普查。,36,特点:群内差异大,群间差异小。 优点: 抽样时只需群的抽样框,可简化工作量; 群通常由地理位置邻近或隶属于同一系统的单位组成,调查的地点相对集中,节省调查费用,方便调查的实施; 缺点:
12、样本在总体中不是均匀分配,估计的精度较差。,对总体而言,37,整群抽样的适用条件,适用条件 每个群都可以代表总体; 根据行政、地域或自然形成的群体;,38,系统抽样 (systematic sampling),将总体中的个体按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按一定的间隔抽取其它样本单位。,也叫等距抽样,39,排序标志问题,按照与调查问题无关的标志排队 例如:在城市居民家庭生活水平调查中,按照居民居住的街道门牌号排序; 相当于简单随机抽样; 按照与调查问题相关的标志排队 职工工资水平调查中,按照职工工资高低排序;,40,优点:操作简便,样本均匀分布在总体中,抽样误
13、差比简单随机抽样小。 缺点:对统计量方差的估计比较困难。,41,多阶段抽样 (multi-stage sampling),先抽大单位(可以用分层抽样或系统抽样), 再在大单位中抽小单位(可用整群抽样或简单随机抽样),小单位中再抽更小的单位。不是一次就直接抽取基层的调查单位。,42,具有整群抽样的优点,保证样本相对集中,节约调查费用; 在大规模的抽样调查中,经常被采用的方法 ;,43,概念区别,分层抽样:选择全部的群,从各群中随机抽取样本; 整群抽样:随机抽取群,对被抽到的群普查; 两阶段抽样:随机抽取群,对被抽到的群随机抽样。,两阶段抽样是分层抽样和整群抽样的结合,44,非概率抽样 (non-
14、probability sampling),相对于概率抽样而言。 抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,依据对总体特征的判断,从总体中抽取个体。 有方便抽样、典型抽样、滚雪球抽样、配额抽样等方式 。,45,方便抽样 (Convenience Sampling),调查过程中由调查员依据方便的原则,自行确定入抽样本的单位。 调查员在街头、公园、商店等公共场所进行拦截调查; 厂家在出售产品柜台前对路过顾客进行的调查; 优点:容易实施,调查的成本低。 缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体。,46,判断抽样 (Judgmental Sam
15、pling),研究人员根据经验、判断和对研究对象的了解,有意识地选择具有代表性的个体。 有重点抽样、典型抽样、代表抽样等; 判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性; 抽样成本比较低,容易操作; 样本是人为确定的,没有依据随机的原则,调查结果不能用于推断总体。,47,滚雪球抽样 (Snowball Sampling),先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。 适合于对稀少群体和特定群体研究。 优点:容易找到那些属于特定群体的被调查者,调查的
16、成本也比较低。,48,配额抽样,先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。 操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似。 抽取具体样本单位时,不是依据随机原则,属于非概率抽样。,49,50,样本容量的确定,最小样本容量: 样本容量必须不少于模型中解释变量的数目k(包括常数项)。 满足基本要求的样本容量: 当样本容量n大于等于30,或者n3(k+1),才能满足统计模型的基本要求。,51,常用的调查方法 (Survey Methods),电话访谈法(Telephone Interv
17、iew) 邮件访谈法(Mail Interview) 人员访谈法(Personal Interview) 电子邮件访谈法(E-mail Interview) 借助网站设置调查问卷,52,第五节 问卷与问卷设计,Questionnaire,53,问卷的基本结构,开头部分 问候语(说明调查者的单位和目的、保证保密、激发参与、感谢) 问卷编号 填写说明(如何答题、如何返回问卷) 基本信息(也可以放在问卷结尾) 主体部分(调查的问题、备选答案) 最后致谢,语气亲切、诚恳礼貌 文字简洁,54,引自:浙江大学 候璘 网络消费行为对生活方式影响的实证研究,可以加入调查者的单位,例如“我们是工业大学管理学院课
18、题调查小组”,55,引自:浙江大学 候璘 网络消费行为对生活方式影响的实证研究,56,引自:浙江大学 候璘 网络消费行为对生活方式影响的实证研究,57,引自:浙江大学 候璘 网络消费行为对生活方式影响的实证研究,58,59,引自:浙江大学 候璘 网络消费行为对生活方式影响的实证研究,60,61,构成问卷的问题类型,开放型与封闭型问题 回忆型与非回忆型问题 封闭型问题中的单选和多选问题 排序型和非排序型的单选问题,62,开放型问题 没有事先准备答案; 结果不易统计,在问卷形成阶段使用。 封闭型问题 事先准备好若干答案供选择; 在最终问卷中大量使用。,63,半封闭型问题 封闭型问题最后的答案设置为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 收集
链接地址:https://www.31doc.com/p-2706773.html