《过程及常用统计分析2.ppt》由会员分享,可在线阅读,更多相关《过程及常用统计分析2.ppt(34页珍藏版)》请在三一文库上搜索。
1、3.3 简单描述统计分析,3.3.1简单描述统计量的基本概念 总体(Population):一个统计问题所研究对象的全体。 样体(Sample):从总体中抽取一定数量的个体进行研究,这部分个体称做样本。 随机抽样(Random Sample):从总体中随机抽取样本,使每个个体都有同等的机会进入样本的抽样方法称为随机抽样。( 样本推断总体),N:样本数量。统计学中,N30称为大样本。 均值(MEAN) 中位数(Median) 众数(Mode) 分位数(Quantiles):是对分布的详细研究,包括百分位数、四分位数及中值。 Max & Min,定位测量,全距(Range):样本中最大值和最小值之
2、差 标准差(std dev):测量值对于均值的离散程度 方差(var) 均值标准误(STDERR) 变异系数(CV) 自由度(df),离散程度测量,偏度(SKewness):描述测量量是否对称地分布在中心的两侧。正(右)偏态,SK0;负(左)偏态SK0 峰度(kurtosis):反映单峰分布,K作为偏离正态分布的尺度;K=0正态分布. 注意:一般用于大样本。 置信区间(LCL,UCL) 相关系数(correlation):r,形状测量,3.3.2 MEANS 过程,输出结果中统计量的命名方法: MEAN=X1-X3; MEAN=MEANX1 MEANX2 MEANX3; MEAN(X2)=ME
3、ANX2; 说明:关键词后的变量名在输出文件中代表VAR变量的统计量值,所以他们与变量的顺序是一一对应的。,MEANS过程应用,Data new; *建立数据集 Input y; *输入变量,变量名为y Cards; *数据块开始 数据块 ; *数据块结束 Proc means n mean std var cv; *调用means过程并计算相应的统计数 Var y; *对变量y进行分析 Run; *程序运行,3.3.3 UNIVARIATE 过程,1. UNIVARIATE过程简介 UNIVARIATE过程除了可以完成与MEANS过程相同的基本统计量外,还可以计算变量的极端值、分位数,生成频
4、率表,并支持对数据进行正态性检验。 UNIVARIATE与MEANS过程不同的功能包括: 描述变量极端值的情况。 计算分位数,如中位数,1/4和3/4分位数。 生成若干个描述变量分布的图。 生成频率表。 对数据进行正态性检验。,UNIVARIATE过程,UNIVARIATE过程常用的选项,Proc univariate语句的选项 NOPRINT 禁止统计报告在OUTPUT视窗中输出 PLOT 绘出茎叶图、箱式图和正态概率图 FREQ 产生频数和累积频数分布表 NORMAL 对变量进行正态性检验,UNIVARIATE过程,SAS中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,
5、常用的关键字有: 基本统计量 N MEAN STD(标准误) CV SUM VAR(方差) RANGE 百分位数描述 MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX 与假设检验有关的统计量 STDERR(标准误) T (实例讲解),例 已知患者中钙、磷和葡萄糖含量,存于blood.txt中,试用UNIVERIATE过程对其中血磷进行统计描述。 程序: Libname chap3 d:mysaschap3; data chap3.blood; infile :sasdtblood.txt; input number calcium phosphrs gluc
6、ose ; PROC UNIVARIATE DATA=chap3.BLOOD PLOT NORMAL FREQ; VAR PHOSPHRS; RUN;,结果:,结果:,结果:,3.3.4 FREQ 过程 (频数过程),例 下数据为进行两因素两水平试验所得,每次测得活细胞数目为number。试生成列联表。 程序: data freq3_2; input x y number ; cards; 1 1 12 1 2 15 2 1 9 2 2 12 ; proc freq data=freq3_2; weight number; tables x*y; run;,5. WEIGHT语句 统计计算中我
7、们统称假设每条观测记录对频数计算的贡献为 1,使用WEIGHT语句可以定义每个观测值出现的频数为这个观测对应的权重(权重不能为负)。 6. BY语句 对由BY变量定义的几组观测分别进行分析。但要求先按BY变量排序。,频数表的编制(习题),FREQ过程步 例 某地随机抽取正常成年男子120名,其红细胞数如下,试作该批样本的频数表。 5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.58 4.24 5.45 4.32 4.84 4.91 5.14 5.25 4.89 4.79 4.90 5.09 4.04 5.14 5.46 4.66 4.20 4.21 3.73 5.17
8、 5.79 5.46 4.49 4.85 5.28 4.78 4.32 4.94 5.21 4.68 5.09 4.68 4.91 5.13 5.26 3.84 4.17 4.56 3.52 6.00 4.05 4.92 4.87 4.28 4.46 5.03 5.69 5.25 4.56 5.53 4.58 4.86 4.97 4.70 4.28 4.37 5.33 4.78 4.75 5.39 5.27 4.89 6.18 4.13 5.22 4.44 4.13 4.43 4.02 5.86 5.12 5.36 3.86 4.68 5.48 5.31 4.53 4.83 4.11 3.29
9、 4.18 4.13 4.06 3.42 4.68 4.52 5.19 3.70 5.51 4.64 4.92 4.93 4.90 3.92 5.04 4.70 4.54 3.95 4.40 4.31 3.77 4.16 4.58 5.35 3.71 5.27 4.52 5.21 4.37 4.80 4.75 3.86 5.69,已知均值比较的t检验 例1 药厂制剂车间用自动装瓶机封装药液,在装瓶机正常工作时,每瓶药液净重500克。某日随机抽取了10瓶成品,称重为:504,498,487,496,509,476,482,510,469,472.问此时装瓶机工作是否正常?,MEANS过程执行t检
10、验,配对比较的t检验 例2 研究食物中维生素E与肝脏中维生素A含量的关系。将大白鼠按性别、体重配对。每对随机分配,一个正常饲料,一个用缺乏维生素E的饲料。经过一个时期饲养,杀死动物测定肝中维生素A的含量,结果下表。试分析,MEANS过程执行t检验,使用带有下列语句的proc chart过程来绘制各种图表 (1)垂直条形图(Vbar语句); (2)水平条形图(Hbar语句); (3)立体直方图(Block语句); (4)饼图(pie语句); (5)星图(star语句),补:CHART过程,例:职工基本情况表 姓名 性别 职称 年龄 姓名 性别 职称 年龄 Zhouli M P 50 Liping
11、 F AP 47 Wangfang F L 8 Yuhong F AP 40 Liulijun M L 30 Leiming M AP 32 Liuming M AP 36 Yuke F AP 48 Liuling M L 37 Zhulin M P 44 Liqing F AP 42 Wangfang F L 25 Fangjin M L 26 试绘制上表按照性别的图表,程序: DATA employee; INPUT name $ sex $ title $ age ; DATALINES; Zhouli M P 50 Yuke F AP 48 Liping F AP 47 Liuling M L 37 Wangfang F L 28 Zhulin M P 44 Yuhong F AP 40 Liqing F AP 42 Liulijun M L 30 Wangfang F L 25 Leiming M AP 32 Fangjin M L 26 Liuming M AP 36 ; options ps=30 ls=80; PROC CHART DATA=employee; VBAR sex; HBAR sex; VBAR sex/group title; RUN;,结果:,
链接地址:https://www.31doc.com/p-2574138.html