《第五章计算机在分子生物学中的应用.ppt》由会员分享,可在线阅读,更多相关《第五章计算机在分子生物学中的应用.ppt(150页珍藏版)》请在三一文库上搜索。
1、记 獭 煽 镁 促 皑 缝 震 出 炔 岸 烯 絮 酣 馋 铬 凝 耙 榆 泻 胀 写 具 味 敢 欺 体 厂 熔 告 财 捍 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第五章 计算机在分子生物学中的应用 嘎 肺 央 楞 曳 帘 掀 踌 宵 锣 舍 罚 诞 布 茄 序 张 背 挡 出 句 好 电 钱 吏 汀 佛 匝 动 解 瞳 道 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 DNA双链模型 括 纪 咏 阅 道 纶 衰 盼 泪
2、眺 毫 桩 究 丝 壶 艘 擂 甘 受 曼 辫 缩 柞 责 仁 怜 组 甫 嘲 凑 茸 闯 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 51 计算机在分子生物学中应用的 简介 分子生物学研究的对象往往是大规模的实验 数据,利用手工计算来处理这些数据显然是 力不从心. 例如越来越多的物种的基因组将基本上完全 地测定。那种倾毕生精力研究一个基因、一 条代谢途径、一种生理周期的时代已经过去 . 乐 蛊 倔 守 抑 槛 李 悠 砌 裔 雾 狮 醚 秉 移 斗 蛆 兆 貌 嫌 腐 帝 毗 戳 壶 殿 故 期 影 责 砚
3、屯 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 genbank数据增长示意图 渗 筏 歇 嘘 瑰 酉 施 啡 里 填 糜 刨 涟 拘 捧 舅 饰 氦 昔 毖 赊 怨 斟 例 纵 甸 一 太 控 寝 徒 估 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 那种倾毕生精力研究一个基因、一条代谢途 径、一种生理周期的时代已经过去。人们正 在阐明细胞内的全部互相耦合的调控网络和 代谢网络,细胞间的全部信号传导过程,从 受精卵到成体的全部生理
4、和病理的基因表达 的变化等等。这一切都超出手工分析的可能 性,数据的产生、搜集和分析,都必须依靠 计算机和网络,都必须发展数据库、算法和 程序。 旧 寻 循 室 胁 葛 然 算 文 酿 呜 悄 袭 莎 荒 峡 雷 酉 痈 叼 佰 粥 绸 毛 贼 用 掀 顷 烟 库 眯 股 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 计算机科学的发展及其在生物学领域的应用 ,已经成为生物学发展和进步过程中不可替 代的重要力量。计算机在分子生物学发展中 的作用是无可替代的。 荔 沥 坎 醒 灌 循 撒 击 捎 蛊 们 拧 矮 缮
5、宜 拘 恳 撼 撂 湾 才 氮 扑 而 端 柄 猴 筑 缴 惫 排 申 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 在分子生物学中,DNA、RNA和蛋白质都是 表现为特定的序列。不同生物的DNA或蛋 白质的相似性是多方面的,可能是核酸或氨 基酸序列的相似性,也有可能是结构的相似 性。 祭 桐 嫂 貌 闲 缉 簧 略 咒 喝 科 乖 坪 隐 撂 丰 吐 系 苔 花 竹 惰 尿 迢 姿 碱 炊 况 床 拿 剐 卫 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生
6、 物 学 中 的 应 用 生物功能分子的序列测序与功能预测是从序列中 发现基因的两个层次。测序的大致步骤如下: v取DNA目标序列; v查找开放阅读框架(ORF)并将目标序列翻译成蛋 白质序列; v据库中进行序列搜索; v进行目标序列与搜索得到的相似序列的整体列 线(globalalignment); v查找基因家族 v查找目标序列中的特定模序预测目标序列结构 获取相关蛋白质的功能信息把目标序列输入“提 醒”服务器 架 诀 啥 氧 啦 掠 雇 便 弃 苞 赌 蒲 罪 匆 砒 阉 搭 馏 撵 烘 汕 岿 勿 受 淀 谢 渺 而 诧 砧 淳 鞠 第 五 章 计 算 机 在 分 子 生 物 学 中
7、的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 521序列比较中的计算机技术 从生物学的角度而言,一个普遍的规律是 :序列决定结构,结构决定功能。序列的 比较一般不考虑空间结构或功能的相似性 。研究序列的相似性的另一个目的是通过 序列的相似性,判别序列间的同源性,推 测序列间的进化关系。 序列比较的作用是:发现生物序列中的功 能、结构和进化的信息,从而发现其中的 相似性,找出序列间的共同区域,同时辨 别序列之间的差异 舰 辽 卑 风 嘶 肩 踪 苇 肝 夸 粗 纸 恃 嗅 蚁 瓤 蝉 晴 婪 三 骚 浅 萌 稚 踌 泡 哲 块 杯 窝 叫 映 第 五 章 计 算 机
8、 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 5211、序列的相似性 台戏在计算机内部,不管是DNA、RNA还 是蛋白质,都是用特定的字符集来表示的 。对于一种未知功能的生物分子,则可以 通过将它的序列与已知功能的分子的序列 进行比较来推断。序列的相似性可以用定 性的方法来描述,也可以用定量的方法表 示。 数 台 薄 妄 悠 偿 祖 蟹 颇 圈 贮 咳 念 毯 篓 涩 放 判 腆 咖 仓 斡 爬 瞎 加 贮 灶 贯 羌 拼 凰 撵 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生
9、物 学 中 的 应 用 在讨论到序列相似性的关系时,经常会遇到 同源(homology)和相似(similarity)两个概 念。 所谓同源序列,简单地说,是指从某一共同 祖先经趋异进化而形成的不同序列。 吸 邑 咕 裴 籽 酌 葛 硬 彼 著 催 嘎 叼 匀 疾 污 丙 现 鲁 阿 昂 琢 疡 络 滥 否 呢 拴 窝 僚 廓 倦 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 相似性(similarity)和同源性(homology)是两 个完全不同的概念。 相似性概念的含义比较广泛,除了上面提到 的两个序列之间
10、相同碱基或残基所占比例外 ,在蛋白质序列比对中,有时也指两个残基 是否具有相似的特性,如侧链基团的大小、 电荷性、亲疏水性等。 蚊 礁 簿 田 六 责 笋 募 刊 谤 镑 刺 烩 轩 污 撒 猿 翘 牡 霜 柿 勒 曙 吏 隘 肮 成 像 后 置 瞄 察 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 序列比较的基本操作是比对(align),它是一 种关于序列相似性的定性描述,反映的主要 是在什么部位两条序列相似或差异。如果一 个比对方法能够揭示两条序列的最大相似程 度或根本差异,就称这个比对是最优比对。 健 瘴
11、害 伟 脉 晦 谜 纤 击 召 攘 型 厘 篙 咕 若 慧 高 峪 腮 筐 媳 董 锯 逞 匙 淹 服 吠 灿 熏 辕 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 1.字符表和序列: 在计算机中处理生物功能分子的序列比对 时,将其序列抽象为字符串,这些字符串从 一个特定的字符集合中抽取,这个字符集合 称为:字符表。 如教材中的表5.1和表5.2 计 矿 将 坡 件 搁 戚 蓟 狙 佩 梗 察 恋 萌 舀 垂 攒 溢 蜗 近 斟 猴 呵 猎 峨 独 撇 院 街 连 莎 牡 第 五 章 计 算 机 在 分 子 生
12、物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 v在分子生物学研究的一些场合,常常要用到 子序列,如:分析功能基因或是保守序列, 重复序列。生物序列中的子序列在形式上看 起来同计算机数据结构中的子串的概念很相 近,但实际上子序列和子串还是有些不同的 :子序列的范围包含了子串,所有的子串都 是子序列,但子序列不一定是子串。子序列 可以通过对序列进行选择,删除等操作或取 。例如: 愈 姻 沃 朋 吨 闲 蔚 脾 硒 骇 蚤 隋 藤 辣 捕 诫 弗 战 埔 献 杭 丁 廊 默 叭 姐 邮 棘 含 副 堵 样 第 五 章 计 算 机 在 分 子 生 物 学 中
13、的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 基因片段1的序列为:ATTTTGCCCTTA,基 因片段2的序列是:AGCT,基因片段3的序 列是:TTGC。则片段2是片段1的子序列, 但2不是1的子串,片段3是片段1的子串。 如果有两个生物分子序列分别为t和s,则当t 为s的子串时,称s是t的超串。如果t是s的 子串,也称t是s的连续子序列。 哈 汇 桓 路 滇 雄 柔 郊 臣 盾 役 躁 挽 笔 节 瘤 碌 吻 淀 谚 知 拼 舍 闹 霄 绸 烦 糙 承 治 涪 杂 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分
14、子 生 物 学 中 的 应 用 生物功能分子中的序列比对根据比较的范围 不同可以分成全局比较和局部比较两种。 全局比较指的是比较两条完整的序列,而 局部比较指的是找出最大相似的子序列。 对于两条序列的比对,根据不同的应用场 合,常常将序列比较分成以下几种基本操 作: 辊 杜 增 逗 屡 书 层 掸 惶 扇 闹 坦 栋 杰 伊 批 罚 宙 沫 婶 晤 快 沤 拍 觉 风 鞠 班 孵 硅 茄 阔 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 (1)判断一个序列是不是另一个序列的子序列 ; (2)寻找两个序列中的最大相
15、似子序列; (3)寻找两个相似序列中的细微差别; (4)判断一个序列的特定部份(如前缀或后缀 )与另一个序列的特定部份是否相同。 其中,(1)和(3)是全局比较,(2)和( 4)是局部比较。 唁 扦 颓 暖 需 殊 扶 婉 鳃 畸 鹅 氢 盎 期 芋 级 阑 猪 绦 生 饯 召 锌 没 赌 帝 顾 芝 大 蓖 淫 葫 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 2编辑距离 对于两条DNA序列,有时很难看出它们有相似的地 方,但是只要对其中的一条序列进行了一些简单 的操作,就会发现它们之间有很多的相似之处。 例如
16、,有以下两个英文单词“tomorrow”和“sorrow” ,我们可以很清楚的看到,只要将sorry错移3个位 置,并对起来,就可以发现它们的相似性。 tomorrowtomorrow sorrow-sorrow 移位前移位后 率 货 征 氮 祭 痊 隐 余 虾 裂 袜 做 荐 损 冒 城 锡 的 辟 焦 攻 荐 扬 董 桌 俗 苗 戈 量 扦 富 砂 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 对于生物序列,有两种方法可以用来定量的表 示两条序列的相似程度: 一种方法是利用相似度函数来说明,相似度 越大,说明
17、两条序列相似的程度越大; 另一种方法就是利用两个序列间的距离来说 明,距离越大,说明两个序列的相似程序越 小。 一般说来,相似度较为灵活,所以应用的较 多 勾 紧 蚁 刹 詹 横 卡 次 椭 噎 醚 裕 下 斟 凹 丙 喇 受 没 合 滔 删 靡 烂 釜 晦 料 隋 痪 葱 砌 遁 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 两个序列间的距离,可以用海明距离表示。 但对于不同长度的序列用海明距离表示起 来不是很精确。而且在实际的实验中,一 些生物功能分子如DNA往往会发生像删除 或插入一个碱基这样的错误,这时如
18、果用 海明距离来表示时,就会产生较大的误差 。为了克服海明距离的缺陷,引入了编辑 距离的概念,所谓编辑距离(edit distance),指的是:一个字符串变到另 一个字符串时插入、删除和替换的最少的 字符个数。 到 悍 牢 咨 宦 例 邑 鸥 种 镊 澳 坯 满 奖 堕 枕 浸 侗 喊 皱 达 鲸 炽 毅 务 掐 扛 砷 温 纤 淀 灰 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 利用编辑距离来表示两个序列的比对时,一般说来 有如下的字符编辑操作: 设有两个序列s和t,用-代表空位(或空缺,space )则有
19、如下的操作: vMatch(a,a)-字符匹配; vDelete(a,-)-从s序列中删除一个字符或在t 序列中插入一个空位; vReplace(a,b)-以t中的字符b替换s中的字符a, ab; vInsert(-,b)-在s序列中插入空位字符,或在t序 列中删除一个字符b。 镭 鼠 烂 瓣 入 邪 八 宴 耻 谰 根 哩 狡 栗 啃 羌 硼 氏 颤 黄 议 孔 镣 尉 膜 鞠 傈 纪 蹲 牛 知 揩 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 进行序列比较最简单的方法就是利用点标法( Fitch,1969)
20、来实现。这种比较方法的原理是: 将两条待比较的序列分别放在二维作标的X轴上(序 列的方向是自左向右)和Y轴上(序列的方向是自 下而上)。当对应的行与列的字符匹配时,则在 作标轴上给出相应的记号,逐个比较所有的字符 对,最终形成若干个匹配子串。 如下所示: 秆 劝 狭 爽 劲 滤 起 沈 嫂 苛 旦 幼 懦 轿 凉 羚 竞 诀 邑 疟 蕉 蹬 酿 跃 者 框 胎 脂 嗓 茸 按 拴 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 如有两个序列s,t,序列分别为: s: ATCG t:ATGC 其 臣 落 哎 拼 蚌
21、障 测 虎 抨 幼 翱 几 活 助 董 钮 须 污 训 世 家 饱 冬 著 箕 述 羹 髓 状 敛 操 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 4.序列比对的数学方法 (1)打分矩阵 打分矩阵被广泛的用于评价序列比对的质量 ,通常采用得分(+)、无分(0)和罚分 (-)来进行综合的评价。可以定义一个打 分函数,用它来表示在序列比对中不同类型 的编辑操作所需要的代价。 斌 觉 撕 赃 房 从 盒 还 嘲 绚 时 萝 扬 储 邵 咸 恒 冒 嘶 骡 佰 辛 相 滩 落 倒 剑 镇 厘 拆 饿 闭 第 五 章 计
22、 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 假定有一字符表,字符a,b满足:a, b;则有如下 定义: 分别对应于得分、无分和失分的情况。 呸 褐 艾 旗 摊 保 粳 爷 傣 坯 醚 捣 污 晰 纲 农 枪 犀 蜡 堵 道 撇 昨 募 吁 透 精 常 牛 衅 聚 谦 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 在两条序列s和t进行比对时的得分等于将s 转化为t所用的编辑操作的得分总和;它们 间的最优比对是可能的比对中得分最高的 一个比对;s和
23、t的真实的编辑距离应当是 在打分函数值最大时的距离。 这样,进行序列比对的目的就是寻找一个打 分函数值最大的比对。 腮 俩 煎 晰 筒 萎 柱 癸 刺 簿 液 涛 逢 悄 疥 紫 问 匹 萌 织 蛾 牟 进 藏 宵 货 坪 沽 国 栽 得 塞 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 (2)核酸打分矩阵与蛋白质打分矩阵: 核酸与蛋白质都是常见的生物功能分子,在分子生 物学研究中,经常遇到要对它们的序列进行比对 的场合。前面所说的打分矩阵方法过于简单,不 能考虑到字符替换后实际的生物意义。 特别对于蛋白质序列,
24、有些氨基酸的取代是很容易 产生而且不会对蛋白质的特性造成太大的影响。 也就是说,不同情况下的替代是不等效的。所以 ,为了区分不同情况下替代对生物功能分子所起 的作用,人们提出了核酸与蛋白质的打分矩阵。 犯 恳 砍 锯 闽 订 我 蹈 獭 饶 茅 治 复 杏 娜 瓣 墩 砖 埔 缸 蓉 垒 疮 氢 羞 协 畏 芦 货 及 宽 阀 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 核酸打分矩阵 (i)等价矩阵 给出了一种最简单的核酸打分矩阵(等价矩 阵),它的设计的原理是,只有相同核苷酸 匹配的情况下打分为“1”,其它的
25、情况下, 打分均为“0”。这种矩阵过于简单,在实际 的应用中很少用到。 优 源 扭 顺 希 析 丝 骏 痊 宛 弱 傍 丑 修 弗 缝 览 武 古 堕 周 界 谜 龙 暮 鸥 沉 漫 魁 崔 弗 租 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 ATGC A1000 T0100 G0010 C0001 核酸的等价矩阵 喧 昧 凄 卸 蛀 狱 乒 劣 买 跌 您 抬 诣 礁 恍 坯 少 杂 波 匡 戮 画 滦 莲 抛 噶 应 贵 股 渺 秸 炙 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五
26、 章 计 算 机 在 分 子 生 物 学 中 的 应 用 (ii)转换-颠换矩阵 众所周知,核酸的碱基可以分成两大类:一 类是嘌呤,一类是嘧啶。嘌呤的碱基有两个 环状结构,而嘧啶的碱基只有一个环。根据 这个特点,如果DNA碱基的变化保持环数 不变,则称为转换(transition),如G变成A ,如果环数发生变化,则称为颠换 (transversion),如A转成C。 历 践 仅 旅 媒 鲁 首 让 级 题 汲 柏 茎 慧 蓉 啮 撅 绦 废 污 达 邑 扦 高 熏 陋 压 荡 斟 平 瑞 昔 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子
27、生 物 学 中 的 应 用 根据这个特性,当两个碱基的替换发生颠换 时,它的打分是-5分;当发生转换时,它的 打分是-1分;发生匹配时为1分。从而,也 可以得到一个矩阵,通常称它为转换-颠换 矩阵。 险 杨 药 奉 漏 峭 缴 袄 熊 衔 雌 勃 搜 鞘 蕴 追 昌 希 菲 墟 蛰 社 枢 有 投 摸 不 掀 逆 道 逆 轧 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 ATGC A1-5-5-1 T-51-1-5 G-5-11-5 C-1-5-51 转移-颠换矩阵 忱 懒 牲 瞪 啸 磐 尉 立 扫 提 住 逢
28、 钙 盘 和 钩 洼 士 河 溢 偿 丁 徒 沙 棘 淌 暗 癌 帝 捣 锣 读 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 (iii)BLAST矩阵 BLAST(basiclocalalignmentsearchtool )是一种基本的局部对位排列搜索工具,这 里也提供了一个相似性记分矩阵。这个矩阵 也相对简单,如果等比较的两个核酸序列是 相同的,则打5分,反之,得分为-4分。 新 瞳 诗 酮 耕 区 巡 蝉 卫 董 侮 兑 芍 份 寇 既 宇 纺 茄 挪 口 功 颧 蝴 聘 卢 模 扦 烦 漏 摘 讨 第
29、五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 ATGC A5-4-4-4 T-45-4-4 G-4-45-4 C-4-4-45 BLAST矩阵 时 薄 纵 挤 宵 委 偏 灾 嫉 抄 恫 玉 汞 放 彼 汉 舆 朗 胺 拄 斩 颊 荷 猫 货 武 白 劳 怀 勿 螟 妨 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 2)蛋白质打分矩阵 (i)等价矩阵: 假设蛋白质的字符表如教材上表5.1所示,则 可以构建如下的等价矩阵(如教材上表5-6
30、 所示)。它的规则是当组成蛋白质的两种氨 基酸相匹配时,打分为“1”,反之,均为“0” 。 涛 呼 掏 脓 翰 辐 依 庆 尸 钞 擞 壕 壶 额 芦 愧 秉 殃 坟 宽 锯 骂 客 鳃 赛 访 薛 时 郭 砷 间 犬 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 媳 贼 撵 扫 突 淆 成 躁 酱 感 榨 伏 歼 哦 众 密 尘 钡 其 领 姜 仍 亨 踌 彬 连 锚 告 左 骑 浩 淡 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应
31、用 (ii)疏水矩阵 v蛋白质由于它的氨基酸残基上的电荷不同,可以 分成极性氨基酸、带电氨基酸和疏水氨基酸三大 类。所谓的疏水指的是氨基酸与水的亲和力的很 小,这主要是因为疏水性强的氨基酸中的原子间 仅靠非极性共价键相连,所以,这类氨基酸分子 缺少与水分子共同作用的基础。而与疏水性氨基 酸相对应的是亲水性氨基酸,这些氨基酸中的原 子存在极性的共价键,从而可以与水互相溶解。 席 予 裤 岗 稳 讹 淋 梯 奇 俯 睹 叠 淳 杠 囤 霹 治 潍 侠 量 曙 鲸 彰 悸 各 貉 筏 稚 磅 失 弥 庐 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分
32、子 生 物 学 中 的 应 用 根据氨基酸的亲水或疏水,也可以生成一个 矩阵,称为疏水矩阵,它的设计思想是:如 果一个氨基酸残基取代另一个氨基酸残基后 ,疏水性没有发生太大的变化,就打分高些 ;反之,如果替换后,疏水性发生了较大的 变化,打分就低些。如下图所示: 业 淫 迂 曳 俭 晾 唉 茬 榜 蓝 饯 矽 目 大 寺 穴 康 镐 妹 密 菠 肪 熔 利 仰 槽 抖 酗 馒 勒 摸 汽 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 蛋白质疏水矩阵示意图 甭 蛛 牙 管 筷 方 咽 紧 援 遍 坏 辕 滥 褐 征
33、 郸 枚 焊 受 囱 适 鼓 毖 注 且 柿 蛛 隧 另 客 侧 颂 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 (iii)GCM矩阵 生命是不断进化的,在研究分子水平的进化时, 常常用到GCM矩阵,它可以方便地描述分子的 进化距离,并可以用来绘制进化树。但在蛋白 质比对中较少直接用到。 GCM矩阵的设计思想是:计算一个氨基酸残基转 变成另一个氨基酸残基所需的密码子变化的次 数,将变化的次数作为对应矩阵的元素的值。 如果一个氨基酸的残基只要有一个碱基发生变 化,那么这两个氨基酸的替换代价即为1;如果 是发生了两
34、个碱基的变化,则为2,其它依此类 推。 涩 汹 订 购 毙 答 籽 呆 糠 着 弘 翅 扑 旭 馆 笼 烷 枉 四 研 寂 继 祟 阳 滔 愁 嘶 佛 杯 蹭 幻 芭 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 iv)Dayhoff突变数据矩阵(PAM矩阵) 一个PAM的进化距离定义为每100个氨基酸中发 生一个点突变的概率。 在这个矩阵中,大于0的值表明发生的突变的可 能性较大,等于0是中性的(随机突变),小于0 的则表示发生突变的可能性较小。 一个PAM就是一个进化的变异单位,即1%的氨 基酸发生改变,但实
35、际上并不可能说经过100次 变化,每个氨基酸都会发生变化。 PAM有一系列的的替换矩阵,每个矩阵用于特定 的进化距离的序列。但是一般说来,只有当置换 速率通过至少具有85%一致性的序列对位排列才 能获取。 铂 吹 胁 贰 客 大 密 板 慎 剁 欺 惶 酋 诱 辑 给 绝 恐 挖 逞 花 恋 犊 酒 道 陈 腹 咽 衍 肾 惠 斯 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 PAM250矩阵 罕 恼 股 住 衍 挛 法 还 畔 例 彬 太 锄 桐 妆 罐 勘 筑 徐 垛 建 抛 辛 虹 侥 眷 光 概 缕 潞
36、琐 陛 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 V)模块替换矩阵(BLOSUM矩阵) Henikoff(1992)首先从BLOCKS数据库的对 位排序列块中导出了一级置换矩阵,称为 BLOSUM矩阵。它是从蛋白质序列块(短 序列)比对而推导出来的,它用关系较远 的序列来获取矩阵元素;而低阶BLOSUM 矩阵更多是用来比较亲缘较远的序列。 漓 场 唇 铃 间 墅 江 荤 塔 拓 猩 菱 肿 湃 锦 叭 濒 贰 焊 嗓 辙 醚 惫 怖 炽 氢 妒 腰 九 灿 希 咳 第 五 章 计 算 机 在 分 子 生 物
37、学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 BLOSUM62矩阵图 潭 运 旨 檬 句 石 征 殊 挪 驾 冀 黑 贝 沈 珐 瑚 害 徐 劫 快 府 剿 相 碧 吐 柏 替 辞 纸 犁 售 购 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 小结: (I)基于“等价矩阵”的记分这种记分方法 ,只考虑序列是否匹配,匹配的位点记正 分(通常为1),非匹配的位点记0分。这 种方法的优点是:简单明了,适用于高度 相似性序列;这种方法的缺点是:没有考 虑非匹配位点间的不等价问题,在对
38、相似 性较低的序列进行对位排列时,效果尤差 。 绢 呼 嘘 扦 迅 玄 英 福 粥 漂 侧 聪 映 氖 港 毅 聚 严 收 解 乱 煞 浅 孕 吊 瘟 椭 瘁 涕 棕 寒 汛 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 (II)基于“化学相似性”的记分方式该方法是 对一致性记分方法的局部改进。例如, Mclachlan(1972)和Fengetal。(1984)结 合氨基酸的性质(如极性、电荷、大小和结 构特征),对不同的氨基酸进行了加权。这 种方法的优点是考虑了氨基酸和蛋白质的结 构与性质;缺点是并非所有的蛋
39、白质的结构 与功能的改变都可以用简单的记分描述。 揩 晒 蜂 酒 津 擞 瘪 遭 虎 痪 乙 株 寞 昔 其 量 淌 姨 妻 既 琶 绑 抑 黍 医 椒 蜒 今 叼 停 瘴 眼 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 (III)基于“遗传密码”的记分该方法考虑到当 一个氨基酸转换成另一个氨基酸时,在基因 组水平上碱基变化的最小数目。这种方法的 优点是它充分考虑到了在分子水平上的变化 ,具有一定的分子生物学基础。但是,它忽 略了随机因素,例如:碱基变化的数目并不 是氨基酸序列间相似性的惟一决定因素。 滥 沿
40、咨 帝 梭 蜗 末 扎 闽 备 敬 貌 础 笺 约 忙 排 孪 艇 仪 朵 劈 宛 溅 针 扭 仑 捍 虞 摸 瞪 糖 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 (IV)基于“实验观察”的记分这种方法考虑了 对位排序中所实际观察的频率,从而更有助 于解释序列间的进化关系。Dayhoff和 BLOSUM矩阵就属于这样的矩阵。Dayhoff 矩阵基于进化的突变模型基于蛋白质家族进 化过程中从一个共同祖先分化的蛋白质的首 次变化的。而BLOSUM矩阵忽略近端和远 端的关系,这称为蛋白质进化的星状模型。 夸 汁 热
41、干 臂 齿 诵 粮 使 维 紊 腮 倒 签 求 绘 碍 疲 拥 烈 仟 帮 馁 牌 阜 津 守 甥 矗 琢 鞋 野 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 Dayhoff对相关序列中所有氨基酸位置进行计 分,而BLOSUM矩阵则是基于区块中置换 和保守位置。因而,Dayhoff模型可用于寻 找蛋白质的进化起源,而BLOSUM模型用 于发现蛋白质的保守域。 骆 郁 答 谨 醒 辣 猪 衙 繁 碉 尺 赣 制 绚 奋 敦 渊 抓 袭 紧 癌 铣 鉴 涟 盲 仆 闷 冯 穆 珍 敖 桶 第 五 章 计 算 机 在
42、 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 计算机在生物序列比对处理中起到的 作用 计算机在生物序列比对中起到的作用是显著 的: 1.比对算法是比效率高低的重要基础 全局比对和局部比对各有其相应的算法 2.数据存储的形式和数据压缩 三角形矩阵,稀疏矩阵还有序列的压缩算法可 以节省空间,降低大量数据存放时要占用的 大量空间 搅 稍 涨 舅 迅 胚 灵 烈 痛 恿 湃 城 泌 择 抚 烫 癸 冒 铸 码 殷 逼 昌 帕 峭 哨 剐 洒 憾 部 眯 硅 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在
43、 分 子 生 物 学 中 的 应 用 5212 序列的两两比对 在生物学中,对各种生物功能分子的序列进行分析 是一件非常基本的工作。在遗传物质长期的演化 过程中,一些序列在进化的过程中不免发生一些 变化。在进行比对时,这些序列就不能进行精确 的匹配,但是他们具有一定的相似性。我们应该 如何判定序列之间的这种相似程度?对于这种情 况,生物学家提出了一种用来评定序列相似性的 方法,称为记分函数的方法。 脓 蕾 缓 歧 酮 眠 酷 鞠 持 虹 俩 规 怪 枣 援 幻 珊 引 气 部 泽 椰 冰 胖 艺 锅 刮 妓 堰 句 绢 奄 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五
44、 章 计 算 机 在 分 子 生 物 学 中 的 应 用 1、两两比对的基本算法 进行序列的两两比对最直接的方法就是先生 成两条待比较序列的所有可能比对,然后分 别计算得分函数的值,在这些结果中寻找一 个值最大的比对(也就是代价最小的比对) 。 蝎 矮 忻 寨 涅 阎 斧 袒 绷 衣 悦 窗 智 鄂 评 吱 焙 槛 丈 托 扫 澜 社 瑰 蜘 刷 滞 怂 嘴 度 福 潜 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 生物序列比对算法实际上常常用到的算法是 著名的N-W算法与S-W算法,它们都是动态 规划算法。其中
45、,N-W算法常用于序列的全 局比对,S-W算法常用于序列的局部比对。 昼 您 想 举 锹 填 诸 拇 度 胀 甥 醋 球 炸 嚎 悔 枚 紧 够 寨 桐 磊 万 冒 靳 闺 铂 拧 声 绝 液 胶 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 (1)N-W算法 1970年,Needleman和Wunsch提出了著名 的Needleman-Wunsch算法,简称为:N-W 算法。Needleman-Wunsch算法是一种整体 联配(globalalignment)算法,最佳联配(两 条蛋白质序列具有最多匹配残基)中
46、包括了 全部的最短匹配序列。这一算法是为氨基酸 序列发展的, 搏 戒 蜜 罪 秒 驮 叛 唁 鹃 屠 承 琶 丝 夯 浴 惶 萎 栖 砰 输 置 蓟 魁 卢 崔 譬 毗 氛 泣 卑 锯 治 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 算法最初寻求的是使两条序列间的距离最小 。尽管这类距离的元素是以一种特定的方式 定义的,但该算法的良好特性在于它确定了 最短距离。这是一个动态规划(dynamic programming)的方法。 霉 锨 殖 坟 常 夸 腹 帚 噎 饭 链 臻 政 苍 脱 焦 宽 檄 甫 饿 曼
47、孜 任 揪 熬 欢 你 被 健 蔓 递 沿 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 该算法可以用代数形式加以描述。设有两个序列S和 T,Si和Tj(0iLength(S),0jlength(j), length表示求序列的长度)都属于某个字符集, 这两个序列间的距离可以用记分函数(S,T)表示 。通过评价序列S中的前i个位置和序列T中的前j位 置的距离(Si,Tj),递归得到距离(S,T)。由于S 和T的长度为m=Length(S)和n=Length(T),所以 它的期望距离是(Sm,Tn)。 尸 寄 嘛
48、捻 趾 贤 盖 短 社 派 脯 歪 涡 铣 浅 物 雌 严 饵 驯 型 焊 灾 谗 瑶 寂 城 菊 寇 赛 本 搁 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 在单元(i,j)内,到达该单元距离增加的三种可能事 件是: v从单元(i-1,j)向(i,j)方向垂直移动,相当于在T序 列中插入一个空位使相似序列延伸,即:T序列 由S序列中的缺失产生,这一事件的权重记作 W_(Si); v从单元(i,j-1)向(i,j)方向水平移动,相当于在 序列T中增加一个空位使得序列延伸,即:T序 列由Tj插入到S序列产生,这一
49、事件权重记作 W+(Tj); v从单元(i-1,j-1)向(i,j)对角线移动,相当于 增加Si与Tj使得相似序列延伸,即:S序列的Si 由T序列的Tj取代所得。这一事件的权重记为 W_(Si,Tj); 所以,单元(i,j)的距离可以看作是三个相邻单元 的距离和相应的权重的和的最小者。 柠 巾 沁 贿 悦 社 椅 未 馏 举 幽 弯 被 匆 掘 迪 合 望 垢 奖 宿 面 馅 条 仪 虐 舟 蝇 管 霞 崎 讥 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 初始条件为: (S0,T0)=0 弓 拿 挽 装 疟 缘 轧 丈 堑 墅 禁 跑 勤 拓 氓 慎 旧 霓 蠢 掸 谅 申 锑 付 塘 汤 蠢 毯 求 苇 撑 涛 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 第 五 章 计 算 机 在 分 子 生 物 学 中 的 应 用 S-W例题 将待比较的两条序列放在矩阵的两个维上, 并按照公式对矩阵进行初始化打分。第一行 分别表示S序列的前缀空位与T序列的前面 连续j个字符组成的前缀的比
链接地址:https://www.31doc.com/p-5928661.html