第十一章多元统计分析.ppt
《第十一章多元统计分析.ppt》由会员分享,可在线阅读,更多相关《第十一章多元统计分析.ppt(68页珍藏版)》请在三一文库上搜索。
1、第十一章 多元统计分析,什么是多元统计分析? 能够分析多个指标、多个变量集合之间关系以及这些变量个体之间关系的统计方法。,可归结为两类问题: 1)解决研究对象的归属问题 聚类分析、判别分析 2)降低变量维数、变量独立性 主成分分析、因子分析、典型相关分析,第一节 聚 类 分 析,线粒体夏娃学说出自2个实验室的研究成果,即埃摩里大学的道格拉斯华莱士(Douglas Wallace)和他的同事的实验室和伯克利加利福尼亚大学的阿伦威尔逊(Allan Wilson)和他的同事的实验室,他们仔细检查细胞内叫做线粒体的细小器官中的遗传物质脱氧核糖核酸(DNA)。当人类新的胚胎形成,胚胎细胞的线粒体只来自卵
2、子,因此线粒体DNA只由母系遗传。,夏娃学说,由于一些技术上的原因,线粒体DNA特别适合经过一代代的追溯去探究进化的过程。 由于DNA是通过母系遗传的,因而追溯过程最后会导向一位单一的女性祖先。按照分析的结果,现代人可以追溯其祖先到大概15万年前住在非洲的一个女人。,夏娃学说引起了许多争议,但是随著遗传学技术的不断成熟,这些争议陆陆续续地尘埃落定。运用遗传学技术研究人类群体的进化,就是利用一些遗传标记来追溯人类群体起源迁移事件发生的大致时间及路线。,目前研究早期人类进化和迁移最理想的遗传标记,公认是Y染色体拟常染色体非重组区段的SNP标记(NRY)。 这是由于人体内只存在一份父系遗传Y染色体非
3、重组区,可以有效地排除交换重组的混血干扰;同时SNP突变率低更能稳定地遗传,可以忠实地记录进化事件;再由于以单倍体存在的Y染色体,其有效群体大小只有常染色体位点的1/4,所以易产生人群特异性的单倍型。,2001年斯坦福大学的昂德希尔(Peter A. Underhill)等人利用变性高效液相层析技术(DHPLC),分析得到了218个 Y染色体非重组区(NRY)位点构成的131个单倍型,在对全球1,062个代表性个体考察结果显示明显的群体亲缘关系。 这是目前遗传学技术发展的可用於人类进化和起源研究最多的遗传标记,通过对这218个NRY在全世界各地区代表群体中多态性分布清晰展示了现代人类的种群大致
4、聚类树。,Y染色体非重组区单倍型系统树 2001,Stanford University,Peter A. Underhill,很显然,最早的分支都发生在非洲人群中,而後再分出欧洲和亚洲。美洲和澳洲的分化都发生在亚洲的分化之下。这说明人类从非洲人群分出欧洲和亚洲人群,美洲和澳洲人群又起源於亚洲人群。 这就是与夏娃学说相印证的亚当学说。根据突变的速率计算出来的非洲人群分化出欧亚人群的大致时间是十多万年。,1、样本表示与相似性系数,Q矩阵Q型聚类,R矩阵R型聚类,如何计算相似矩阵的矩阵元?,对于样本中的两个同维向量:,1 、数据的变换处理,所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定
5、的运算把它变成为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。,(1) 中心化变换,中心化变换是一种坐标轴平移处理方法,每列数据之和为0,这是一种很方便地计算方差与协方差的变换。,(2)极差规格化变换,经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在01之间;并且变换后的数据都不再具有量纲,便于不同的变量之间的比较。,(3)标准化变换,经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。,(4)对数变换 对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值
6、。即:,(5)指数变换,用来衡量样本间(或特征间)相似性关系的两种系数: 1) 相似系数 2) 相异系数,1)相似系数,相似系数:衡量全部样本或全部变量中任何两部分相似程度的指标。 性质越接近的变量或样品,它们的相似系数越接近于1或 l ;而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。,(1)内积系数:,适用范围: 量纲相同 数据相差不大,结论:夹角越小,cos的值越接近1,两向量越相似。,(2)夹角余弦:,(3) 方差-协方差(variance-covariance),对原始资料进行标准化: 对内积的中心化处理。,(4)相关系数 (correlation
7、coefficient),是离差标准化后,两向量的内积。 思考: 夹角cos与相关系数的关系?,(5)指数相似系数:,为第k个变量的方差,指数相似系数消除了不同变量的单位不同的影响,也消除了不同变量的自身变异不同的影响。,相似系数性质:, 当且仅当XiaXj 时,cij1,其中Xi 和Xj 分别是第 i 样本和第 j 样本的观察值向量,a0为常数;, 对于一切 Xi 和 Xj ,| cij |1;, 对于一切Xi和Xj,cijcji。,相异系数:衡量全部样本或全部变量中任何两部分相异程度的指标。 将每一个样本看作 p 维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十一 多元 统计分析
链接地址:https://www.31doc.com/p-2529890.html