生物信息学中的学习问题.pdf
《生物信息学中的学习问题.pdf》由会员分享,可在线阅读,更多相关《生物信息学中的学习问题.pdf(6页珍藏版)》请在三一文库上搜索。
1、收稿日期:2009205215 基金项目:国家自然科学基金项目(60671011 ,60741001 ,60871092) ;黑龙江省杰出青年科学基金项目(JC200611) ;黑龙江省自然科学重点基金项 目(Z JG0705) 作者简介:郭茂祖(19662 ) , 男,山东夏津人,教授、 博导,博士后,主要从事机器学习、 生物信息学研究. E2mail :maozuguo 3 通讯作者:邹权(19822 ) , 男,黑龙江佳木斯人,博士研究生,主要从事生物信息学研究. E2mail : guoer713108 文章编号:167223961(2009)0320001206 生物信息学中的学
2、习问题 郭茂祖 1 ,邹权 13 ,李文滨 2 ,韩英鹏 2 (1. 哈尔滨工业大学计算机科学与技术学院,黑龙江 哈尔滨150001; 2.东北农业大学大豆研究所(教育部大豆生物学重点实验室 ) , 黑龙江 哈尔滨150030) 摘要:生物信息学是结合了信息科学和生命科学的一门交叉学科,兴起于人类基因组计划.随着人类基因组计划 的完成与深入,生物信息的研究工作由原来的计算生物学时代进入后基因组时代,后基因组时代中一个最重要的 分支就是系统生物学.本文从信息科学的视角出发,详细论述了机器学习方法在计算生物学和系统生物学中的若 干应用. 关键词:机器学习;生物信息学;计算生物学;系统生物学 中图分
3、类号:TP18 文献标志码:A Learning in bioinformatics G UO Mao2zu 1 , ZOU Quan 13 , LI Wen2bin 2 , HAN Y ing2peng 2 (1. Department of Computer Science and Technology , Harbin Insititute of Technology , Harbin 150001 , China; 2. Soybean Research Institute (Key Laboratory of Soybean Biology of Chinese Education
4、Ministry) , Northeast Agricultural University , Harbin 150030 , China) Abstract: Bioinformatics is a cross2disciplinary field that involves various fields of information science and biological science , which emerges from the human genome project. With the development of human genome project , we en
5、ter into the post2genome era from the computational biology era. Systems biology isone of the most important fields in the post2genome era. This paper re2 views the application of machine learning in computational biology and systems biology. Most important , it comes from an infor2 mation researche
6、rs view. Key words: machine learning; bioinformatics; computational biology; systems biology 0 引言 人类对生命科学的研究逐渐走向微观化,从个 体到细胞,再从细胞到分子,在分子层面人们发现了 很多与遗传有关的机制.随着分子遗传学研究的逐 渐深入,生物学家需要处理越来越多的计算问题,因 此产生了一门交叉学科 生物信息学.为了辅助 遗传学的研究,生物信息研究者在基因组测序、 基因 寻找和功能标注等方面做了大量的工作,包括建立 模型、 设计算法、 解决问题等.这其中有很多地方应 用了机器学习方法,本文将对机
7、器学习方法在生物 信息学中的应用加以综述. 在测序为主的研究阶段,生物信息学偏重于研 究字符串序列,主要是处理大规模数据、 建模、 设计 启发式算法解决模型中的NP问题.这一阶段也通 常把生物信息学称为计算生物学.主要研究的问题 包括:多序列比对、 片断组装、 物理作图、 构建进化 树、 预测大分子结构、 寻找编码基因及功能元件等. 本文第2部分介绍了机器学习方法在几个主要计算 生物学问题上的典型应用. 随着人类基因组测序工作的完成,生物信息学 第39卷 第3期 Vol.39 No.3 山 东 大 学 学 报 (工 学 版) JOURNAL OF SHANDONGUNIVERSITY (ENG
8、INEERINGSCIENCE) 2009 年6月 Jun. 2009 的研究重点由对基因组的测序转向了对基因组的标 注.这时通常把生物大分子的一级序列、 分子结构和 功能统一起来当作一个系统来研究,这种思路也被 称为系统生物学.系统生物学研究中与信息科学相 关的问题主要有:建立基因调控网络、 处理微阵列数 据、 分子相互作用预测、 非编码RNA基因的识别、 DNA与组蛋白甲基化的预测、SNP(single nucleotide polymorphism)位点的寻找和与疾病的关联性分析 等.本文第3部分将着重介绍机器学习方法在几个 系统生物学问题上的应用. 1 计算生物学中的机器学习问题 计算
9、生物学主要是围绕着测序这一问题展开 的.对于多次测序得到的DNA片段 (EST 序列)需要 进行聚类、 拼接;当拼接出基因序列甚至基因组序列 后,需要分析不同基因之间、 不同物种之间的进化关 系;得到同一簇基因后,人们往往关心其共有的特 征,如上游的调控元件,典型的就是转录因子结合位 点;当DNA转录成RNA ,进而翻译成蛋白后,不同的 生物分子会形成各异的空间结构,进而行使不同的 功能,因此预测其二级结构也是分析大分子功能的 一个重要环节.下面依次介绍这些问题中会用到的 机器学习方法. 1. 1 EST序列聚类 表达序列标签(expressed sequence tags , ESTs)是
10、对一个cDNA克隆测序获得的部分片段,长度一般 为300500 bp. EST序列对于基因发现、 遗传作图、 基因组注释、SNP位点发现、 可变剪切位点的探测都 有重要意义. EST序列数据增长迅速,虽然每条EST序列不 长,但数量巨大.生物信息研究者需要对大规模的 EST序列进行处理,包括去噪、 聚类和拼接.去噪是 指去除EST序列中的污染序列.由于在测序时,EST 序列中通常会混入核糖体序列、 细菌基因组序列和 载体序列等.这些序列可以通过和已知的数据库中 的序列进行对比来筛除.与去噪相似,拼接主要用的 也是序列比对方法. 聚类的目的是将具有一定重叠区域的序列整合 至同一簇中.由于染色体中
11、的DNA序列中只有部分 基因片段被转录,EST序列不可能覆盖整个基因组, 所以要把同一基因组对应的EST序列聚类到同一 簇中. 聚类是机器学习中的经典问题之一.已有大量 的机器学习方法在聚类上有成功的应用. EST序列 的聚类和普通的聚类问题略有不同,普通聚类问题 的元素是高维空间中的向量,而EST序列聚类的元素 是核苷酸序列.虽然元素不同,但两者都能较容易得 构建出个元素间的两两距离矩阵.根据各元素间的距 离进行聚类,则又回到了机器学习中的聚类问题. 1. 2 构建进化树 构建进化树与EST序列聚类类似,也是处理若 干条序列的距离关系,与机器学习中的聚类问题相 似.与EST序列聚类问题不同,
12、构建进化树通常处 理的是若干条比对好的序列,这些序列一般是从同 一条祖先序列进化而来.进化树不但要重现进化的 过程,而且还要标明相邻的两个结点之间的进化距 离.因此可以认为构建进化树要解决两个关键问题, 一个是确定树的拓扑结构,另一个是确定树中每一 条边的长度. 构建进化树的数学模型有很多,目前被认为效 果最好的是最大似然模型.最大似然法是一种建立 在进化模型基础上的统计方法,具有一致性、 健壮 性,能够在一个统计框架内比较不同的树以及能够 充分利用原始数据等优点.最大似然法的第一步是 对每一种可能的拓扑结构找出一组枝长,使在该组 枝长下,该树的似然值最大.这是一个多元优化问 题,由于时间开销
13、大,通常使用期望最大化(expecta2 tion maximum , EM)方法来解决. EM方法是一种经典 的学习方法,其虽然有可能陷入局部最优,但它时间 复杂性低、 效果好,因此被用来处理构建进化树这种 运算量大的问题 1 . 还有一种构建进化树的模型被称为距离模型. 由于距离模型出现得早、 原理简单,目前还被许多生 物信息研究者使用.该方法可以处理没有比对过的 序列,因此通常在研究不同物种的基因组时使用该 模型.这时长的基因组序列转化为两两距离,根据距 离矩阵构建进化树,这又与多维空间的聚类问题类 似.一种典型的解决方法就是处理聚类问题的span2 ning2tree方法. 1. 3
14、识别转录因子结合位点 转录因子结合位点(transcription factor binding sites ,TFBS)是编码基因的重要功能元件,是基因发 现中的重要问题之一.转录因子结合位点的分析主 要包括3类问题 : (1) 在给定的基因组序列中寻找 给定的结合位点 ; (2) 在一系列共表达或共调控的 基因上游非编码区域内发现未知的结合位点 ; (3) 寻找由一个已知转录因子调控的未知基因.目前研 究的热点和难点主要是第2类问题 2 .该问题可以 形象地描述为:在若干个输入的DNA序列中找出共 2 山 东 大 学 学 报 (工 学 版)第39卷 有的子模式,通常这种模式被称为motif
15、.为了简单 化,通常研究者把motif视为一段子序列. 识别TFBS的方法可以分为两类:基于字串的 方法和基于概率模型的方法.由于基于字串的方法 运算量大,不易处理真实数据,因此概率模型是目前 识别TFBS的主要方法.基于概率序列模型的方法 主要有EM方法和吉布斯采样( G ibbs sampling)方 法.虽然每种概率序列模型都有不同之处,但它们预 测结合位点的最根本的思路是相同的,即先对motif 的信息进行某种近似的描述(基于位置权重矩阵或 保守序列建立序列motif模型 ) , 通过背景模型和mo2 tif模型构成整体的调控区域模型,然后通过似然最 大化或贝叶斯推断等方法进行参数估计
16、,对motif信 息进行调整优化,根据获得的参数找出motif中共有 的规律. 与似然法构建进化树类似,在处理motif寻优的 过程中,需要使用EM等学习方法.另外当混入噪声 数据时,还要对motif进行分类.这些都需要把恰当 的机器学习方法应用到特定的环境中. 1. 4 RNA二级结构预测 RNA二级结构预测是一个经典的计算生物学 问题.传统的预测方法是把其视为自由能最小的优 化问题.然而研究表明:有些RNA分子的真实二级 结构同具有最小自由能的二级结构不一致,而且迄 今为止尚没有精确的自由能计算方法 3 . 在研究RNA二级结构的过程中,人们发现:功 能同源的RNA分子具有结构同源性,例如
17、,tRNA分 子二级结构大都呈三叶草形状,动物microRNA和 siRNA的前体的二级结构都呈发夹形状.因此,在预 测RNA的二级结构时,可以同时研究多个该RNA 的同源分子,这些同源分子尽管在序列层次上存在 差异,但在二级结构上还具有高度的保守性.这种思 路被称为 “比较序列分析法”. 在比较序列分析法中,需要针对多个不同的序 列,根据RNA的配对规则 (A U ,GC ,GU发生配 对)找出一个最合理的一致结构.在相关的算法中效 果较好的是基于随机上下文无关文法(stochastic content free grammar , SCFG) 4 . SCFG与隐马尔可夫 模型(hidde
18、n Markov model , HMM)相似,是常用于自 然语言处理领域中的学习方法之一. 在该方法中,RNA的配对规则被写成SCFG的 语法规则,序列的每一种合理的二级结构都被视为 一颗合理的语法树.通过对已知二级结构的RNA分 子进行训练,得出每条规则发生的概率,然后根据这 个概率计算每一棵语法树发生的概率,进而通过动 态规划算法找出概率最大的那颗语法树,将其视为 预测结果. 同其它的机器学习分类方法一样,SCFG也要对 已知二级结构进行训练.不同的是经典的机器学习 方法在训练之后,是对新来的数据进行分类,而 SCFG是对新来的数据寻优.但无论是分类还是寻 优,都是建立在良好的训练过程的
19、基础上,训练过程 才是该方法的关键.因此从这个角度上说,SCFG也 可以视为一种基于概率模型的机器学习方法.基于 该方法预测同源RNA分子二级结构的服务器Pfo2 ld 5已被生物信息研究者广泛使用. 1. 5 蛋白质二级结构预测 同样是生物大分子的二级结构预测,蛋白质和 RNA是两个截然不同的计算问题.在最小自由能模 型下,RNA二级结构预测可以视为一个优化问题, 而蛋白质二级结构预测则是一个典型的分类问题. 蛋白质的二级结构在空间上有三种表象: 螺 旋、 片层和转曲.蛋白质二级结构预测问题就是输 入一个氨基酸序列,输出的是该序列上每一个字母 对应得是哪一种表象.实际上相当于对每一个字母 进
20、行分类,这里的分类还要考虑到相邻氨基的相互 影响. 通过对已知二级结构的氨基酸序列进行学习, 发现了一些规律,比如:螺旋一般含10个左右的 残基,古氨酸、 甲硫氨酸、 亮氨酸易出现在螺旋 中,片层一般含有5到10个残基,缬氨酸、 异亮氨 酸、 苯丙氨酸易出现在片层中,连接螺旋和 片层的部分是转曲等.利用这些学习到的规律和一 些功能相近、 结构已知的蛋白质分子进行训练,可以 设计出效果较好的分类器,这种预测方法的准确率 达到76 %以上.目前已有多种分类器以及集成的多 种分类器应用于预测蛋白质的二级结构 6 . 2 系统生物学中的机器学习问题 系统生物学中的重要问题就是从基因组的层面 上分析微观
21、世界的调节机制,其中最主要的两个问 题就是预测蛋白间的相互作用和预测基因调控网 络.随着microRNA研究的深入,人们发现microRNA 在基因调控方面起着至关重要的作用,因此挖掘 microRNA以及其他非编码RNA也成为了系统生物 学中的热点问题.另外,实验和统计表明,SNP位点 和某些疾病及表型存在着极为密切的联系,这对于 遗传研究、 法医鉴定和个性化医疗都有着极为重要 的作用.本节分别介绍这几个研究方向中的机器学 第3期郭茂祖,等:生物信息学中的学习问题3 习问题. 2. 1 蛋白质相互作用预测 蛋白质相互作用预测问题是指给定两个氨基酸 序列,判断其对应的蛋白质序列是否存在相互作用
22、, 进而对蛋白质组构建相互作用网络 7 .蛋白质相互 作用网络是系统生物学中最基本的问题之一. 蛋白质相互作用预测问题可以看成是一个典型 的分类问题.通过对已知存在相互作用的蛋白质分 子进行学习、 寻找规律,然后对待预测的一对蛋白质 进行分类,判别其是否存在相互作用.很明显,这是 一个二类分类问题,目前已有很多机器学习中的分 类方法被应用到该问题中,包括支持向量机等. 除了在分类器中用到了机器学习方法,蛋白质 相互作用的特征提取也是很重要的一部分.以往提 取的特征包括亲水性、 范德华力等.目前的研究又包 括域、motif、 二级结构等.只有用恰当的特征加上恰 当的分类器才能得到好的结果 8 .
23、 另外,在蛋白质相互作用预测过程中,从目前已 有的生物数据库中只能找到正例集(即存在相互作 用的蛋白质 ) , 反例集一般是人工或自动生成.因此 反例集会远大于来自实验验证的正例集.这种现象在 挖掘非编码RNA 9 、 分析基因表达数据 10 、 预测DNA 甲基化 11等多个生物信息学问题中都出现 ,值得深 入地研究适合处理这类不平衡数据的分类方法. 当预测到存在相互作用的蛋白之后,还要进一 步预测这两个蛋白在作用时的接触面,即蛋白质相 互作用位点的预测,以及进一步构建相互作用网络 都需要用到机器学习方法.当预测相互作用位点时, 需要在已知的相互作用位点中学习规律,然后对待 预测的蛋白质序列
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 中的 学习 问题
链接地址:https://www.31doc.com/p-5187877.html