多元统计分析PPT课件.ppt
《多元统计分析PPT课件.ppt》由会员分享,可在线阅读,更多相关《多元统计分析PPT课件.ppt(40页珍藏版)》请在三一文库上搜索。
1、 MULTIVARIATESTATISTICSANALYSIS多元统计分析多元统计分析 zf一、什么是多元统计分析一、什么是多元统计分析v多元统计分析是运用数理统计的方法来研究多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是多变量(多指标)问题的理论和方法,是一一元统计学的推广元统计学的推广。v多元统计分析是研究多个随机变量之间相互多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科依赖关系以及内在统计规律的一门统计学科。zf2cxtv有了一元统计的理论和方法,为什么还要多有了一元统计的理论和方法,为什么还要多元统计分析呢?元统计分析呢?v将多
2、个变量用一元方法进行处理,问题不就将多个变量用一元方法进行处理,问题不就解决了吗?解决了吗?事实却与此相悖!事实却与此相悖!zf3cxtv例:考察某高中三年级学生的学习情况。随例:考察某高中三年级学生的学习情况。随机抽取机抽取1212名学生政治、语文、外语、数学、名学生政治、语文、外语、数学、物理等物理等5 5门主课期末考试的成绩。门主课期末考试的成绩。zf4cxt序号政治X1 语文X2 外语X3 数学X4 物理X5199949310010029988969997310098819610049388889996510091729678690788275977757388978989384836
3、88898773607684109582906239117672436778128575503437zf5cxtv若用一元统计方法,每次分析处理一门课程若用一元统计方法,每次分析处理一门课程的成绩。其的成绩。其缺点缺点:丢失的信息太多,分析的结果不能客观全丢失的信息太多,分析的结果不能客观全面地反映该年级学生的学习情况。面地反映该年级学生的学习情况。v要同时分析多门课程的成绩,分析各门课程要同时分析多门课程的成绩,分析各门课程之间的相关关系、相对重要性等问题。需要之间的相关关系、相对重要性等问题。需要借助借助“多元统计多元统计”。zf6cxtv我们用多元统计:我们用多元统计:1 1、用各科成绩
4、的总和作为综合指标,来比较、用各科成绩的总和作为综合指标,来比较学生学习的好坏。学生学习的好坏。2 2、根据各科成绩相近程度对学生进行分类、根据各科成绩相近程度对学生进行分类(成绩好的与差的;文科成绩好的和理科成(成绩好的与差的;文科成绩好的和理科成绩好的等等)绩好的等等)3 3、各科成绩之间的关系(如物理与数学成绩、各科成绩之间的关系(如物理与数学成绩的关系;文科成绩与理科成绩的关系等)的关系;文科成绩与理科成绩的关系等)zf7cxtv多元统计分析优点:多元统计分析优点:分析问题更全面更透彻分析问题更全面更透彻 v能使我们对所研究的问题更全面能使我们对所研究的问题更全面,更深刻的认识更深刻的
5、认识.帮助我们透过现象看本质帮助我们透过现象看本质,发观事物之间内在的本发观事物之间内在的本质规律。质规律。zf8cxt二、多元统计分析的内容和方法二、多元统计分析的内容和方法v1 1、简化数据结构(降维问题)、简化数据结构(降维问题)将具有错综复杂关系的多个变量综合成数将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。简化但损失的信息又不太多。(1 1)主成分分析)主成分分析 (2 2)因子分析)因子分析 (3 3)对应分析等)对应分析等zf9cxtv指标与指标可能存在相关关系指标与指标可能存在相关关系
6、信息重叠,分析偏误信息重叠,分析偏误v指标太多,增加问题的指标太多,增加问题的复杂性复杂性和和分析难度分析难度 如何避免?如何避免?选用主成分分析或因子分析选用主成分分析或因子分析zf10cxtv例:美国的统计学家斯通例:美国的统计学家斯通(stone)stone)在在19471947年年关于国民经济的研究。他曾利用美国关于国民经济的研究。他曾利用美国19291929一一19381938年各年的数据,得到了年各年的数据,得到了1717个反映国民收个反映国民收入与支出的变量要素,例如雇主补贴、消费入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、资料和生产资料、纯公共支
7、出、净增库存、股息、利息外贸平衡等等。股息、利息外贸平衡等等。zf11cxtv运用主成分分析以运用主成分分析以97.497.4的精度,用的精度,用三新变三新变量量就取代了原就取代了原1717个变量。根据经济学知识,个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入斯通给这三个新变量分别命名为总收入F1F1、总收入变化率总收入变化率F2F2和经济发展或衰退的趋势和经济发展或衰退的趋势F3F3。更有意思的是,这三个变量其实都是可以直更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测接测量的。斯通将他得到的主成分与实际测量的总收入量的总收入I I、总收入变化率总收入
8、变化率I I以及时间以及时间t t因素做相关分析,得到下表:因素做相关分析,得到下表:zf12cxtF1F1F2F2F3F3i ii it tF1F11 1F2F20 01 1F3F30 00 01 1i i0.9950.995-0.041-0.0410.0570.057l li i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l lt t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121 1zf13cxtv主成分分析得到的主成分(新变量)与原始变主成分分析得到的主成分(新变量
9、与原始变量之间的关系:量之间的关系:1 1、主成分保留了原始变量绝大多数信息。、主成分保留了原始变量绝大多数信息。2 2、主成分的个数大大少于原始变量的数目。、主成分的个数大大少于原始变量的数目。3 3、各个主成分之间互不相关。、各个主成分之间互不相关。4 4、每个主成分都是原始变量的线性组合。、每个主成分都是原始变量的线性组合。zf14cxtv2 2、分类与判别(归类问题)、分类与判别(归类问题)对所考察的变量按相似程度进行分类。对所考察的变量按相似程度进行分类。(1 1)聚类分析:根据分析样本的各研究)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。变量,将性质相似的
10、样本归为一类的方法。(2 2)判别分析:判别样本应属何种类型)判别分析:判别样本应属何种类型的统计方法。的统计方法。zf15cxt例:根据信息基础设施的发展状况,对世界例:根据信息基础设施的发展状况,对世界2020个国家个国家和地区进行分类。和地区进行分类。考察指标有考察指标有6 6个:个:1 1、X1X1:每千居民拥有固定电话数目每千居民拥有固定电话数目 2 2、X2X2:每千人拥有移动电话数目每千人拥有移动电话数目 3 3、X3X3:高峰时期每三分钟国际电话的成本高峰时期每三分钟国际电话的成本 4 4、X4X4:每千人拥有电脑的数目每千人拥有电脑的数目 5 5、X5X5:每千人中电脑使用率
11、每千人中电脑使用率 6 6、X6X6:每千人中开通互联网的人数每千人中开通互联网的人数zf16cxtv具体数据参见(于秀林、任学松,多元统计具体数据参见(于秀林、任学松,多元统计分析,第分析,第9292页)页)v分析结果:将分析结果:将2020个国家分为两类个国家分为两类 第第1 1类(基础设施落后)类(基础设施落后):巴西、墨西哥、:巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚马来西亚 第第2 2类(基础设施发达)类(基础设施发达):瑞典、丹麦、:瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、美国、中国台湾、韩国、日本、德国、法
12、国、新加坡、英国、瑞士新加坡、英国、瑞士zf17cxtv如果:我们想知道我国基础设施发展属于哪如果:我们想知道我国基础设施发展属于哪一类型?一类型?运用判别分析运用判别分析 依据:依据:2020个国家的分类结果个国家的分类结果zf18cxtv3 3、变量间的相互联系、变量间的相互联系 一是:分析一个或几个变量的变化是否依一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析)赖另一些变量的变化。(回归分析)二是:两组变量间的相互关系(典型相关二是:两组变量间的相互关系(典型相关分析)分析)zf19cxtv4 4、多元数据的统计推断、多元数据的统计推断 点估计点估计 参数估计参数估计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 PPT 课件
