核酸蛋白质序列进化分析.ppt
《核酸蛋白质序列进化分析.ppt》由会员分享,可在线阅读,更多相关《核酸蛋白质序列进化分析.ppt(56页珍藏版)》请在三一文库上搜索。
1、第七章第七章 分子进化与系统发育树分子进化与系统发育树分子进化与系统发育树分子进化与系统发育树 主讲人:胡银岗主讲人:胡银岗西北农林科技大学农学院遗传教研组西北农林科技大学农学院遗传教研组分子系统学、古分子系统学分子系统学、古分子系统学分子系统学、古分子系统学分子系统学、古分子系统学古生物遗体、化石保存的三种信息:古生物遗体、化石保存的三种信息:形态学信息形态学信息化学信息化学信息(生物的代谢产物和一般的生物化学分子)(生物的代谢产物和一般的生物化学分子)遗传信息遗传信息(保存的一级结构生物大分子保存的一级结构生物大分子,即基因产物或基因片即基因产物或基因片段段)分子系统学分子系统学分子系统学
2、分子系统学(Molecular Systematics):):从生物大分子从生物大分子(氨基酸、核苷酸)的遗传信息推断生物进化的历史,(氨基酸、核苷酸)的遗传信息推断生物进化的历史,并以系统树(谱系)的形式表达出来。并以系统树(谱系)的形式表达出来。古分子系统学古分子系统学古分子系统学古分子系统学:利用古代:利用古代DNA保留的遗传信息进行分子保留的遗传信息进行分子系统学研究系统学研究Darwin,CharlesDarwin,Charles(1809-1882)(1809-1882)The Origin of SpeciesThe Origin of Species(18591859)7.1
3、生物进化的分子基础生物进化的分子基础经典的进化学方法经典的进化学方法化石证据化石证据化石证据化石证据 (Fossil)比较形态学证据比较形态学证据比较形态学证据比较形态学证据 (Comparative morphology)比较生理学证据比较生理学证据比较生理学证据比较生理学证据 (Comparative physiology)系统学系统学系统学系统学(SystematicsSystematics)分类学分类学分类学分类学(Taxonomy)(Taxonomy)进化学的分子方法进化学的分子方法 普适性普适性普适性普适性 由由4种种核酸组成核酸组成 分子水平的进化表现为:分子水平的进化表现为:D
4、NA序列和序列和氨基酸序列演化氨基酸序列演化 可比较性可比较性可比较性可比较性 比较不同物种的有关比较不同物种的有关DNA序列序列 建立建立DNA序列和氨基序列和氨基酸序列的演化模型(数学模型)酸序列的演化模型(数学模型)(形态、性状的演化(形态、性状的演化模型?)模型?)基因组编码信息的丰富基因组编码信息的丰富基因组编码信息的丰富基因组编码信息的丰富 与形态、性状包含的信息相比,基因组序列包含更与形态、性状包含的信息相比,基因组序列包含更多、更复杂的信息结构多、更复杂的信息结构分子系统发育学分子系统发育学分子系统发育学分子系统发育学Molecular Molecular Phylogenet
5、icsPhylogenetics分子系统学分子系统学分子系统学分子系统学Molecular Molecular SystematicsSystematicsWhat can we do for molecular evolution?What can we do for molecular evolution?序列比较序列比较序列比较序列比较:源于同一祖先:源于同一祖先DNA/氨基酸序列的两条氨基酸序列的两条DNA/氨氨基酸序列,考察二者的差异。基酸序列,考察二者的差异。序列差异序列差异序列差异序列差异:进化过程中分子突变的痕迹:进化过程中分子突变的痕迹分子进化分子进化分子进化分子进化:以累计
6、在:以累计在DNA/氨基酸分子上的历史信息为基氨基酸分子上的历史信息为基础,研究分子水平的生物进化过程和机制。础,研究分子水平的生物进化过程和机制。分子系统学为生物分类问题提供了许多崭新的见解。分子系统学为生物分类问题提供了许多崭新的见解。生物进化的分子机制生物进化的分子机制基因突变基因突变1、核苷酸替代、插入/缺失、重组2、基因转换固定在生物个体固定在生物个体以及物种内以及物种内遗传漂变遗传漂变自然选择自然选择传递给后代传递给后代产生新的形态、性状产生新的形态、性状分子系统学是研究进化机制的一个重要工具。分子系统学是研究进化机制的一个重要工具。DNADNA序列的突变序列的突变序列的突变序列的
7、突变性状改变性状改变DNA分子的改变分子的改变核苷酸替代substitution核苷酸缺失deletion核苷酸插入insertion核苷酸倒位invertion Thr Tyr Leu LeuACC TAT TTG CTGACC TCT TTG CTG Thr Ser Leu Leu替代替代 Thr Tyr Leu LeuACC TAT TTG CTGACC TAC TTT GCT G Thr Tyr Phe Ala插入插入 Thr Tyr Leu LeuACC TAT TTG CTGACC TAT TGC TG-Thr Tyr Cys -缺失缺失 Thr Tyr Leu LeuACC TA
8、T TTG CTGACC TTT ATG CTG Thr Phe Met Leu倒位倒位核苷酸替代的几种分类核苷酸替代的几种分类核苷酸替代的几种分类核苷酸替代的几种分类转换转换转换转换 (transition)嘌呤嘌呤 嘌呤嘌呤嘧啶嘧啶 嘧啶嘧啶颠换颠换颠换颠换 (transvertion)嘌呤嘌呤 嘧啶嘧啶嘧啶嘧啶 嘌呤嘌呤A AT TC CGG胞嘧啶胞嘧啶腺腺嘌呤嘌呤胸腺胸腺嘧啶嘧啶鸟鸟嘌呤嘌呤 在在大多数大多数DNA片段中,转换出现的概率高于颠换出现的概率。片段中,转换出现的概率高于颠换出现的概率。Why?DNADNA序列突变对氨基酸序列的影响序列突变对氨基酸序列的影响序列突变对氨基酸序
9、列的影响序列突变对氨基酸序列的影响 同义(沉默)替代同义(沉默)替代同义(沉默)替代同义(沉默)替代(synonymous/silent substitutionsynonymous/silent substitution)仍然为同义密码子的核苷酸替代仍然为同义密码子的核苷酸替代如:如:TAT TAC Tyr Tyr 非同义替代非同义替代非同义替代非同义替代(nonsynonymousnonsynonymous substitution substitution)导致产生非同义密码子的核苷酸替代导致产生非同义密码子的核苷酸替代如:如:TAT AAT Tyr Asn 无义突变无义突变无义突变无义
10、突变(nonsense mutationnonsense mutation)导致产生终止密码子的核苷酸突变导致产生终止密码子的核苷酸突变如:如:TAT TAA Tyr STP问题:假设所有密码子以同一概率出现,上述三种突变的比例?问题:假设所有密码子以同一概率出现,上述三种突变的比例?25%,71%,4%密码子使用频率密码子使用频率密码子使用频率密码子使用频率(codon usage)(codon usage)密码子使用频率的偏倚性密码子使用频率的偏倚性密码子使用频率的偏倚性密码子使用频率的偏倚性:编码同一个氨基酸的多个同义密码子具有不同的使用频率编码同一个氨基酸的多个同义密码子具有不同的使用
11、频率例例例例:E.coli的的RNA聚合酶聚合酶 缬氨酸缬氨酸Val GTT GTC GTA GTG 55 21 34 34 精氨酸精氨酸Arg CGU CGC CGA CGG 89 46 1 0为什么会出现密码子使用频率的偏倚性?为什么会出现密码子使用频率的偏倚性?与同功能与同功能tRNA的丰度有关?的丰度有关?突变压力与净化选择双重控制?突变压力与净化选择双重控制?Open problemabcdabcd拓扑结构:拓扑结构:有根树:有根树:反映时间顺序反映时间顺序无根树:无根树:反映距离反映距离 理论上,一个理论上,一个DNA序列在物种形成或基因复制时,分序列在物种形成或基因复制时,分裂成
12、两个子序列,因此系统发育树一般是二歧的。裂成两个子序列,因此系统发育树一般是二歧的。一般考虑二歧的树结构:二歧树一般考虑二歧的树结构:二歧树分支:分支:内部分支内部分支外部分支外部分支节点:节点:内部节点内部节点外部节点外部节点7.2 系统发育树(系统发育树(Phylogenetic tree)abcdabcdabcd adbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考虑考虑4个分类群时,共有个分类群时,共有15种可能的有根树种可能的有根树abcdacbdadbc考虑考虑4个分类群时,共有个分类群时,共有3种可能的无根树种可能的无根树系统发育树的
13、种类系统发育树的种类系统发育树的种类系统发育树的种类基因树、物种树基因树、物种树基因树、物种树基因树、物种树 物种树物种树物种树物种树:代表一个物种或代表一个物种或群体进化历史的系统群体进化历史的系统发育树发育树 两个物种分歧的两个物种分歧的时间:两个物种发生时间:两个物种发生生殖隔离的时间生殖隔离的时间 基因树基因树基因树基因树:由来自各个物种由来自各个物种的一个基因构建的系的一个基因构建的系统发育树(不完全等统发育树(不完全等同于物种树),表示同于物种树),表示基因分离的时间。基因分离的时间。ab cd ef基因分裂基因分裂基因分裂基因分裂基因分裂基因分裂物种分裂物种分裂系统发育树的种类系
14、统发育树的种类系统发育树的种类系统发育树的种类期望树、现实树和重建树期望树、现实树和重建树期望树、现实树和重建树期望树、现实树和重建树期望树期望树期望树期望树:一个用无限长的序列或每一一个用无限长的序列或每一分支的期望替代数构建的树分支的期望替代数构建的树理论上:理论上:理论上:理论上:假设所研究的序列无限假设所研究的序列无限长,从中随机抽样进行长,从中随机抽样进行统计分析。统计分析。实际情况:实际情况:实际情况:实际情况:所所研究的序列是短序列,研究的序列是短序列,统计得到的替代数目存统计得到的替代数目存在大量随机误差。在大量随机误差。现实树现实树现实树现实树:建立在实际替代数基础上的树建立
15、在实际替代数基础上的树重建树重建树重建树重建树构树构树方法方法系统发育树的构建系统发育树的构建系统发育树的构建系统发育树的构建构建系统发育树的数据构建系统发育树的数据构建系统发育树的数据构建系统发育树的数据1、特征数据特征数据(character data):提供了基因、个体、群体或物种的信息提供了基因、个体、群体或物种的信息2、距离数据距离数据(distance data)或或相似性数据相似性数据(similarity data):涉及的则是成对基因、个体、群体或物种的信息。涉及的则是成对基因、个体、群体或物种的信息。距离矩阵距离矩阵距离数据可以由特征数据计算得到。距离数据可以由特征数据计算
16、得到。反之反之?构造系统发育树的主要方法构造系统发育树的主要方法构造系统发育树的主要方法构造系统发育树的主要方法 距离法距离法距离法距离法 根据每对物种之间的距离直接计算得到。所生根据每对物种之间的距离直接计算得到。所生成的树的质量取决于距离尺度的质量成的树的质量取决于距离尺度的质量 简约法简约法简约法简约法 通过寻求物种间最小的变更数来完成的通过寻求物种间最小的变更数来完成的 似然法似然法似然法似然法 通过标准的统计推断建立系统发育的概率模型通过标准的统计推断建立系统发育的概率模型 其它方法其它方法其它方法其它方法:神经网络方法、神经网络方法、Hadamard结合法结合法构建系统发育树的主要
17、过程构建系统发育树的主要过程构建系统发育树的主要过程构建系统发育树的主要过程1、拓扑结构的判别、拓扑结构的判别(从大量的拓扑结构中搜寻、判别)(从大量的拓扑结构中搜寻、判别)2、一个既定拓扑结构的分支长度的估计、一个既定拓扑结构的分支长度的估计最优原则最优原则1、首先要获得所有分类群之间的进化距离。、首先要获得所有分类群之间的进化距离。2、系统发育树的构建是基于进化距离之间的关系。、系统发育树的构建是基于进化距离之间的关系。如何获得所有分类群之间的进化距离如何获得所有分类群之间的进化距离如何获得所有分类群之间的进化距离如何获得所有分类群之间的进化距离1、选定分类群共同的特征序列、选定分类群共同
18、的特征序列氨基酸序列、核苷酸氨基酸序列、核苷酸序列序列 如:人、马、牛、袋鼠、蝾螈、鲤鱼的血红蛋白如:人、马、牛、袋鼠、蝾螈、鲤鱼的血红蛋白 链的氨基酸序链的氨基酸序 列(列(140aa);人、猕猴、黑猩猩的线粒体);人、猕猴、黑猩猩的线粒体DNA中细胞色素中细胞色素b基因的核基因的核苷酸序列(苷酸序列(1,125bp););2、比较两两序列之间的差异比较两两序列之间的差异p;7.3 系统发育树构建的距离法系统发育树构建的距离法3、根据不同的概率统计模型,由两条序列的差异根据不同的概率统计模型,由两条序列的差异p值构值构建它们的进化距离建它们的进化距离 氨基酸序列:氨基酸序列:PC(Poiss
19、on校正)距离、校正)距离、距离距离 核苷酸序列:核苷酸序列:Jukes-Cantor模型、模型、Kimura模型、模型、HKY模型等模型等4、如何根据不同的概率统计模型,由两条序列的差异、如何根据不同的概率统计模型,由两条序列的差异p值构建它们的进化距离值构建它们的进化距离方法方法方法方法1 1:UPGMAUPGMA法法法法(Unweighted Pair-Group Method using an arithmetic Average)谱系聚类,使用算术平均的非加权成组谱系聚类,使用算术平均的非加权成组配对方法配对方法方法方法方法方法2 2:邻接法(:邻接法(:邻接法(:邻接法(Neigh
20、bor Joining MethodNeighbor Joining Method)1 1、UPGMAUPGMA法法法法UPGMA:(Unweighted Pair-Group Method using an arithmetic Average,使使用算术平均的非加权成组配对方法用算术平均的非加权成组配对方法)Sokal&Michener(1958)Sneath&Sokal(1973)方法原理:谱系聚类方法原理:谱系聚类谱系聚类法的基本步骤谱系聚类法的基本步骤谱系聚类法的基本步骤谱系聚类法的基本步骤首先将首先将t个样本各自视为一类:得到初始的分类个样本各自视为一类:得到初始的分类G(1)(含
21、有含有t类),计算类),计算t个样本两两之间的距离,它们等价于初始的类个样本两两之间的距离,它们等价于初始的类间距离,得到初始的距离矩阵间距离,得到初始的距离矩阵D(1);将距离最近的两类合并为一新类,得到新的分类将距离最近的两类合并为一新类,得到新的分类G(2)(含有含有t-1类),并计算新类与其它类的类间距离,得到新类),并计算新类与其它类的类间距离,得到新的类间距离矩阵的类间距离矩阵D(2),再按照最小距离准则并类,得到再按照最小距离准则并类,得到G(3)(含有含有t-2类)、类)、D(3),。直到所有样本都并成一类直到所有样本都并成一类;画出谱系聚类图,决定分类的个数及各类的成员。画出
22、谱系聚类图,决定分类的个数及各类的成员。讨讨讨讨 论论论论在基因替代速率恒定假设成立时,在基因替代速率恒定假设成立时,UPGMA方法比较适用;方法比较适用;UPGMA方法适用于具有较小变异系数的距离测度;方法适用于具有较小变异系数的距离测度;UPGMA是一种既构建拓扑结构又计算分支长度的方法;是一种既构建拓扑结构又计算分支长度的方法;UPGMA方法既可以得到有根树,也可以得到无根树。方法既可以得到有根树,也可以得到无根树。2 2、邻接法(、邻接法(、邻接法(、邻接法(Neighbor Joining MethodNeighbor Joining Method)最小进化(最小进化(ME)思想:在
23、所有可能的拓扑结构中,选择分思想:在所有可能的拓扑结构中,选择分支长度和支长度和S最小作为最优树。(全局优化思想)最小作为最优树。(全局优化思想)(Edwards&Cavalli-Sforza,1963)Saitou&Nei(1987):在每一阶段应用最小进化原理,是在每一阶段应用最小进化原理,是ME方法的简化。方法的简化。A AC CD DB B1 12 23 34 45 56 6(1)(1)(2)(2)(3)(3)(4)(4)(1)(1)(2)(2)(2)(2)(6)(6)(7)(7)S:所有分支长度总和所有分支长度总和其中其中X为连接类群为连接类群i,j的节点,的节点,LiX为类群为类群
24、i到到X的分支长度。的分支长度。已知距离矩阵已知距离矩阵已知距离矩阵已知距离矩阵:6个分类群的距离矩阵个分类群的距离矩阵dijdij1234561091215201620710151130510640117508603 3X X1 12 26 64 45 5S=32.41 12 23 36 64 45 5XYS=29.51 12 23 36 64 45 5YA AX(2)(2)(7)(7)S=28.31 12 23 36 64 45 5YA AXB B(2)(2)(7)(7)(2)(2)(6)(6)S=28.01 12 23 36 64 45 5A AB B(2)(2)(7)(7)(2)(2)
25、6)(6)C C(4)(4)(1)(1)S=28.01 12 23 36 64 45 5A AB B(2)(2)(7)(7)(2)(2)(6)(6)C C(4)(4)(1)(1)D D(1)(1)(2)(2)(3)(3)S=28.0ENDEND讨讨讨讨 论论论论NJ法本质上是一种寻找最优拓扑结构的谱系聚类算法。同法本质上是一种寻找最优拓扑结构的谱系聚类算法。同时给出系统发育树的拓扑结构以及分支的长度。时给出系统发育树的拓扑结构以及分支的长度。优点:优点:可以较快地构建系统树;可以较快地构建系统树;适用于分析较大的数据集;适用于分析较大的数据集;能够较方便地进行自展(能够较方便地进行自展(Bo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 核酸 蛋白质 序列 进化 分析
