书签分享收藏举报版权申诉 / 6

立即下载加入VIP免费专享

当前位置：首页 > 项目管理 > 生物信息学中的学习问题.pdf

生物信息学中的学习问题.pdf

上传人：韩长文

文档编号：5187877

上传时间：2020-02-16

格式：PDF

页数：6

大小：298.22KB

《生物信息学中的学习问题.pdf》由会员分享，可在线阅读，更多相关《生物信息学中的学习问题.pdf（6页珍藏版）》请在三一文库上搜索。

1、收稿日期:2009205215 基金项目:国家自然科学基金项目(60671011 ,60741001 ,60871092) ;黑龙江省杰出青年科学基金项目(JC200611) ;黑龙江省自然科学重点基金项目(Z JG0705) 作者简介:郭茂祖(19662 ) , 男,山东夏津人,教授、博导,博士后,主要从事机器学习、生物信息学研究. E2mail :maozuguo 3 通讯作者:邹权(19822 ) , 男,黑龙江佳木斯人,博士研究生,主要从事生物信息学研究. E2mail : guoer713108 文章编号:167223961(2009)0320001206 生物信息学中的学

2、习问题郭茂祖 1 ,邹权 13 ,李文滨 2 ,韩英鹏 2 (1. 哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001; 2.东北农业大学大豆研究所(教育部大豆生物学重点实验室 ) , 黑龙江哈尔滨150030) 摘要:生物信息学是结合了信息科学和生命科学的一门交叉学科,兴起于人类基因组计划.随着人类基因组计划的完成与深入,生物信息的研究工作由原来的计算生物学时代进入后基因组时代,后基因组时代中一个最重要的分支就是系统生物学.本文从信息科学的视角出发,详细论述了机器学习方法在计算生物学和系统生物学中的若干应用. 关键词:机器学习;生物信息学;计算生物学;系统生物学中图分

3、类号:TP18 文献标志码:A Learning in bioinformatics G UO Mao2zu 1 , ZOU Quan 13 , LI Wen2bin 2 , HAN Y ing2peng 2 (1. Department of Computer Science and Technology , Harbin Insititute of Technology , Harbin 150001 , China; 2. Soybean Research Institute (Key Laboratory of Soybean Biology of Chinese Education

4、Ministry) , Northeast Agricultural University , Harbin 150030 , China) Abstract: Bioinformatics is a cross2disciplinary field that involves various fields of information science and biological science , which emerges from the human genome project. With the development of human genome project , we en

5、ter into the post2genome era from the computational biology era. Systems biology isone of the most important fields in the post2genome era. This paper re2 views the application of machine learning in computational biology and systems biology. Most important , it comes from an infor2 mation researche

6、rs view. Key words: machine learning; bioinformatics; computational biology; systems biology 0 引言人类对生命科学的研究逐渐走向微观化,从个体到细胞,再从细胞到分子,在分子层面人们发现了很多与遗传有关的机制.随着分子遗传学研究的逐渐深入,生物学家需要处理越来越多的计算问题,因此产生了一门交叉学科生物信息学.为了辅助遗传学的研究,生物信息研究者在基因组测序、基因寻找和功能标注等方面做了大量的工作,包括建立模型、设计算法、解决问题等.这其中有很多地方应用了机器学习方法,本文将对机

7、器学习方法在生物信息学中的应用加以综述. 在测序为主的研究阶段,生物信息学偏重于研究字符串序列,主要是处理大规模数据、建模、设计启发式算法解决模型中的NP问题.这一阶段也通常把生物信息学称为计算生物学.主要研究的问题包括:多序列比对、片断组装、物理作图、构建进化树、预测大分子结构、寻找编码基因及功能元件等. 本文第2部分介绍了机器学习方法在几个主要计算生物学问题上的典型应用. 随着人类基因组测序工作的完成,生物信息学第39卷第3期 Vol.39 No.3 山东大学学报 (工学版) JOURNAL OF SHANDONGUNIVERSITY (ENG

8、INEERINGSCIENCE) 2009 年6月 Jun. 2009 的研究重点由对基因组的测序转向了对基因组的标注.这时通常把生物大分子的一级序列、分子结构和功能统一起来当作一个系统来研究,这种思路也被称为系统生物学.系统生物学研究中与信息科学相关的问题主要有:建立基因调控网络、处理微阵列数据、分子相互作用预测、非编码RNA基因的识别、 DNA与组蛋白甲基化的预测、SNP(single nucleotide polymorphism)位点的寻找和与疾病的关联性分析等.本文第3部分将着重介绍机器学习方法在几个系统生物学问题上的应用. 1 计算生物学中的机器学习问题计算

9、生物学主要是围绕着测序这一问题展开的.对于多次测序得到的DNA片段 (EST 序列)需要进行聚类、拼接;当拼接出基因序列甚至基因组序列后,需要分析不同基因之间、不同物种之间的进化关系;得到同一簇基因后,人们往往关心其共有的特征,如上游的调控元件,典型的就是转录因子结合位点;当DNA转录成RNA ,进而翻译成蛋白后,不同的生物分子会形成各异的空间结构,进而行使不同的功能,因此预测其二级结构也是分析大分子功能的一个重要环节.下面依次介绍这些问题中会用到的机器学习方法. 1. 1 EST序列聚类表达序列标签(expressed sequence tags , ESTs)是

10、对一个cDNA克隆测序获得的部分片段,长度一般为300500 bp. EST序列对于基因发现、遗传作图、基因组注释、SNP位点发现、可变剪切位点的探测都有重要意义. EST序列数据增长迅速,虽然每条EST序列不长,但数量巨大.生物信息研究者需要对大规模的 EST序列进行处理,包括去噪、聚类和拼接.去噪是指去除EST序列中的污染序列.由于在测序时,EST 序列中通常会混入核糖体序列、细菌基因组序列和载体序列等.这些序列可以通过和已知的数据库中的序列进行对比来筛除.与去噪相似,拼接主要用的也是序列比对方法. 聚类的目的是将具有一定重叠区域的序列整合至同一簇中.由于染色体中

11、的DNA序列中只有部分基因片段被转录,EST序列不可能覆盖整个基因组, 所以要把同一基因组对应的EST序列聚类到同一簇中. 聚类是机器学习中的经典问题之一.已有大量的机器学习方法在聚类上有成功的应用. EST序列的聚类和普通的聚类问题略有不同,普通聚类问题的元素是高维空间中的向量,而EST序列聚类的元素是核苷酸序列.虽然元素不同,但两者都能较容易得构建出个元素间的两两距离矩阵.根据各元素间的距离进行聚类,则又回到了机器学习中的聚类问题. 1. 2 构建进化树构建进化树与EST序列聚类类似,也是处理若干条序列的距离关系,与机器学习中的聚类问题相似.与EST序列聚类问题不同,

12、构建进化树通常处理的是若干条比对好的序列,这些序列一般是从同一条祖先序列进化而来.进化树不但要重现进化的过程,而且还要标明相邻的两个结点之间的进化距离.因此可以认为构建进化树要解决两个关键问题, 一个是确定树的拓扑结构,另一个是确定树中每一条边的长度. 构建进化树的数学模型有很多,目前被认为效果最好的是最大似然模型.最大似然法是一种建立在进化模型基础上的统计方法,具有一致性、健壮性,能够在一个统计框架内比较不同的树以及能够充分利用原始数据等优点.最大似然法的第一步是对每一种可能的拓扑结构找出一组枝长,使在该组枝长下,该树的似然值最大.这是一个多元优化问题,由于时间开销

13、大,通常使用期望最大化(expecta2 tion maximum , EM)方法来解决. EM方法是一种经典的学习方法,其虽然有可能陷入局部最优,但它时间复杂性低、效果好,因此被用来处理构建进化树这种运算量大的问题 1 . 还有一种构建进化树的模型被称为距离模型. 由于距离模型出现得早、原理简单,目前还被许多生物信息研究者使用.该方法可以处理没有比对过的序列,因此通常在研究不同物种的基因组时使用该模型.这时长的基因组序列转化为两两距离,根据距离矩阵构建进化树,这又与多维空间的聚类问题类似.一种典型的解决方法就是处理聚类问题的span2 ning2tree方法. 1. 3

14、识别转录因子结合位点转录因子结合位点(transcription factor binding sites ,TFBS)是编码基因的重要功能元件,是基因发现中的重要问题之一.转录因子结合位点的分析主要包括3类问题 : (1) 在给定的基因组序列中寻找给定的结合位点 ; (2) 在一系列共表达或共调控的基因上游非编码区域内发现未知的结合位点 ; (3) 寻找由一个已知转录因子调控的未知基因.目前研究的热点和难点主要是第2类问题 2 .该问题可以形象地描述为:在若干个输入的DNA序列中找出共 2 山东大学学报 (工学版)第39卷有的子模式,通常这种模式被称为motif

15、.为了简单化,通常研究者把motif视为一段子序列. 识别TFBS的方法可以分为两类:基于字串的方法和基于概率模型的方法.由于基于字串的方法运算量大,不易处理真实数据,因此概率模型是目前识别TFBS的主要方法.基于概率序列模型的方法主要有EM方法和吉布斯采样( G ibbs sampling)方法.虽然每种概率序列模型都有不同之处,但它们预测结合位点的最根本的思路是相同的,即先对motif 的信息进行某种近似的描述(基于位置权重矩阵或保守序列建立序列motif模型 ) , 通过背景模型和mo2 tif模型构成整体的调控区域模型,然后通过似然最大化或贝叶斯推断等方法进行参数估计

16、,对motif信息进行调整优化,根据获得的参数找出motif中共有的规律. 与似然法构建进化树类似,在处理motif寻优的过程中,需要使用EM等学习方法.另外当混入噪声数据时,还要对motif进行分类.这些都需要把恰当的机器学习方法应用到特定的环境中. 1. 4 RNA二级结构预测 RNA二级结构预测是一个经典的计算生物学问题.传统的预测方法是把其视为自由能最小的优化问题.然而研究表明:有些RNA分子的真实二级结构同具有最小自由能的二级结构不一致,而且迄今为止尚没有精确的自由能计算方法 3 . 在研究RNA二级结构的过程中,人们发现:功能同源的RNA分子具有结构同源性,例如

17、,tRNA分子二级结构大都呈三叶草形状,动物microRNA和 siRNA的前体的二级结构都呈发夹形状.因此,在预测RNA的二级结构时,可以同时研究多个该RNA 的同源分子,这些同源分子尽管在序列层次上存在差异,但在二级结构上还具有高度的保守性.这种思路被称为 “比较序列分析法”. 在比较序列分析法中,需要针对多个不同的序列,根据RNA的配对规则 (A U ,GC ,GU发生配对)找出一个最合理的一致结构.在相关的算法中效果较好的是基于随机上下文无关文法(stochastic content free grammar , SCFG) 4 . SCFG与隐马尔可夫模型(hidde

18、n Markov model , HMM)相似,是常用于自然语言处理领域中的学习方法之一. 在该方法中,RNA的配对规则被写成SCFG的语法规则,序列的每一种合理的二级结构都被视为一颗合理的语法树.通过对已知二级结构的RNA分子进行训练,得出每条规则发生的概率,然后根据这个概率计算每一棵语法树发生的概率,进而通过动态规划算法找出概率最大的那颗语法树,将其视为预测结果. 同其它的机器学习分类方法一样,SCFG也要对已知二级结构进行训练.不同的是经典的机器学习方法在训练之后,是对新来的数据进行分类,而 SCFG是对新来的数据寻优.但无论是分类还是寻优,都是建立在良好的训练过程的

19、基础上,训练过程才是该方法的关键.因此从这个角度上说,SCFG也可以视为一种基于概率模型的机器学习方法.基于该方法预测同源RNA分子二级结构的服务器Pfo2 ld 5已被生物信息研究者广泛使用. 1. 5 蛋白质二级结构预测同样是生物大分子的二级结构预测,蛋白质和 RNA是两个截然不同的计算问题.在最小自由能模型下,RNA二级结构预测可以视为一个优化问题, 而蛋白质二级结构预测则是一个典型的分类问题. 蛋白质的二级结构在空间上有三种表象: 螺旋、片层和转曲.蛋白质二级结构预测问题就是输入一个氨基酸序列,输出的是该序列上每一个字母对应得是哪一种表象.实际上相当于对每一个字母进

20、行分类,这里的分类还要考虑到相邻氨基的相互影响. 通过对已知二级结构的氨基酸序列进行学习, 发现了一些规律,比如:螺旋一般含10个左右的残基,古氨酸、甲硫氨酸、亮氨酸易出现在螺旋中,片层一般含有5到10个残基,缬氨酸、异亮氨酸、苯丙氨酸易出现在片层中,连接螺旋和片层的部分是转曲等.利用这些学习到的规律和一些功能相近、结构已知的蛋白质分子进行训练,可以设计出效果较好的分类器,这种预测方法的准确率达到76 %以上.目前已有多种分类器以及集成的多种分类器应用于预测蛋白质的二级结构 6 . 2 系统生物学中的机器学习问题系统生物学中的重要问题就是从基因组的层面上分析微观

21、世界的调节机制,其中最主要的两个问题就是预测蛋白间的相互作用和预测基因调控网络.随着microRNA研究的深入,人们发现microRNA 在基因调控方面起着至关重要的作用,因此挖掘 microRNA以及其他非编码RNA也成为了系统生物学中的热点问题.另外,实验和统计表明,SNP位点和某些疾病及表型存在着极为密切的联系,这对于遗传研究、法医鉴定和个性化医疗都有着极为重要的作用.本节分别介绍这几个研究方向中的机器学第3期郭茂祖,等:生物信息学中的学习问题3 习问题. 2. 1 蛋白质相互作用预测蛋白质相互作用预测问题是指给定两个氨基酸序列,判断其对应的蛋白质序列是否存在相互作用

22、, 进而对蛋白质组构建相互作用网络 7 .蛋白质相互作用网络是系统生物学中最基本的问题之一. 蛋白质相互作用预测问题可以看成是一个典型的分类问题.通过对已知存在相互作用的蛋白质分子进行学习、寻找规律,然后对待预测的一对蛋白质进行分类,判别其是否存在相互作用.很明显,这是一个二类分类问题,目前已有很多机器学习中的分类方法被应用到该问题中,包括支持向量机等. 除了在分类器中用到了机器学习方法,蛋白质相互作用的特征提取也是很重要的一部分.以往提取的特征包括亲水性、范德华力等.目前的研究又包括域、motif、二级结构等.只有用恰当的特征加上恰当的分类器才能得到好的结果 8 .

23、另外,在蛋白质相互作用预测过程中,从目前已有的生物数据库中只能找到正例集(即存在相互作用的蛋白质 ) , 反例集一般是人工或自动生成.因此反例集会远大于来自实验验证的正例集.这种现象在挖掘非编码RNA 9 、分析基因表达数据 10 、预测DNA 甲基化 11等多个生物信息学问题中都出现 ,值得深入地研究适合处理这类不平衡数据的分类方法. 当预测到存在相互作用的蛋白之后,还要进一步预测这两个蛋白在作用时的接触面,即蛋白质相互作用位点的预测,以及进一步构建相互作用网络都需要用到机器学习方法.当预测相互作用位点时, 需要在已知的相互作用位点中学习规律,然后对待预测的蛋白质序列

24、中的每一个位点进行分类.目前已有研究将条件随机域 12 、支持向量机 13 等方法应用于该问题,但效果还有待于进一步提高. 2. 2 基因调控网络的建立随着DNA微阵列技术的发展,目前已经可以在不同表达水平的条件下同时测量几千个基因的表达水平.因此刺激了生物信息研究者去研究不同基因之间的调控关系,从而建立基因调控网络. 可以这样理解构建基因调控网络的问题:它的输入是一个二维的布尔矩阵,表示的是不同的基因在不同的时间序列上的表达情况;输出则是该矩阵中出现的基因之间的调控关系.从二维布尔矩阵到最终调控网络的建立的过程,被称为 “推演” 过程.有许多机器学习算法应用到了推演过

25、程中,比如:模拟退火、神经网络、遗传算法等. Reinitz和Sharp 14利用加权矩阵模型构造了果蝇基因调控网络,得到了很好的效果. 最近,贝叶斯网络也被应用到基因调控网络的构建中来.在静态贝叶斯模型中,基因调控被表示为一个有向无环图.顶点可以表示基因、mRNA浓度、蛋白质浓度、蛋白质修饰或联合体、代谢物或其它小的分子、试验条件、基因信息或结论例如诊断结果或其他的预测结果等等.每一个随机变量都有一个基于其所有父节点的条件概率,有向无环图和这些条件概率共同定义一个静态贝叶斯网络,并且唯一指定了一个联合概率分布.贝叶斯网络也是一种典型的分类方法,通过贝叶斯网

26、络计算最终的概率值,从而最终对两个基因之间是否存在调控关系进行分类.这种基于概率的贝叶斯分类器在蛋白质相互作用预测中也经常被使用. 2. 3 非编码RNA基因的识别随着对中心法则研究的不断深入,人们发现 RNA有更多的功能与作用.在熟知的mRNA、tRNA 和rRNA之外,还存在着多种非编码RNA ,如microR2 NA、siRNA、snoRNA等.这些非编码RNA在基因的表达和调控上起着十分重要的作用. 基因组标注的工作中有一项十分重要的任务就是在基因组中找出这些非编码RNA.由于编码基因的特点较明显,可以通过启动子、转录因子结合位点、开始密码子、结束密码子等功能元件

27、来辨别,因此对发掘编码基因研究得较为成熟.而非编码基因在基因组中一般不具有类似的功能元件,识别时要根据具体的类别学习其前体及成熟体的特点,进而从基因组中筛选出候选的区域,然后再通过RT2 PCR、Northern Blot等生物学手段验证. 比如人们发现microRNA的前体具有发夹形式的二级结构,并且其核苷酸分布(如GC含量等)具有一定规律,通过对已知的microRNA基因及其前体进行学习,得到这些规律,而后使用支持向量机 15216 、随机森林 17 、贝叶斯网络 18 等分类器对未知的DNA序列进行分类,判断其是否是microRNA 基因.还有研究者发现tRNA大都

28、按照一定规则折叠成三叶草形状,因而使用随机上下文无关文法对已知的tRNA序列进行学习,得到文法的生成概率后,再到基因组中去搜索,找出那些可以以高概率生成的片段,从而在基因组中挖掘出更多的tRNA 19 . 由此可见,机器学习方法在非编码RNA的挖掘与辨别中起了关键的作用. 2. 4 SNP位点的寻找长期的科学研究表明:不同人种、不同人群和不同个体间表现特征差异;各种疾病,尤其是遗传性疾 4 山东大学学报 (工学版)第39卷病和特殊疾病的产生,其主要原因是在各种复杂的环境因素影响下,遗传过程中发生的多基因重组以及变异现象造成的各基因组序列间差异,也就是基因组

29、的多态性.由于在已有研究中发现不同人类个体基因组序列中约90 %的序列片段是相同的,影响个体表现特征和与疾病相关的存在差异的片断仅出现在较小的序列范围内;而基因组序列中发生变异的片断通常与其祖先以及其相近人群发生相似变异的片断相关联.因此,可以通过对基因组多态性的研究,发现各类疾病产生的原因,促进常见复杂疾病的治疗;也可以对不同人群进行分类,研究其相关遗传信息,辅助构建个人的基因组序列信息.为了能够进一步的研究基因组多态性与个体差异及各种疾病之间的联系,研究者需要获取更全面更具体的人群基因组多态性细节,为此美国、中国、英国等多个国家联合启动了国际单体型计划(The

30、International Hap2 map Project) . 任意两个不同人类基因组序列中,平均每1 000 个碱基中会存在一个有差异的核苷酸位点.这些差异位点包含的遗传信息影响了每个人类个体的身体性状、罹患疾病的可能性以及身体对外界环境物质的反应等.在基因组序列中出现概率高于1 %的差异均称为多态现象(polymorphism) ,这一现象通常发生在染色体包含的DNA序列中一个核苷位置上,也称为单核苷酸多态性SNP.已有的研究估计全人类基因组中大约有10 000 000个常见SNP位点,这些位点构成了人类基因组中90 %的差异变化类型.通过研究这些SNP位点有利于个

31、性化医疗甚至进行疾病预测. 另外,最新的研究发现,利用已知的SNP位点可以大幅度地对基因组序列进行压缩. Christley的研究 20表明 :目前每个人的基因组都可以被压缩到几兆,甚至用电子邮件发送即可.这项研究表明,在以后的基因预测或个性化医疗中,患者不必把刻有自己基因组序列的光盘送到医院或研究中心,等待人工处理,只需要在网上提交压缩后的基因组文件即可,服务器即可为患者进行预测并以邮件或网页的形式返回结果.这个过程避免了从前的人工操作, 不但节省了医疗资源,而且为患者节省了时间.因此,研究和挖掘SNP位点的意义十分重大. 目前SNP位点大部分来自于测序的数据,根据观测

32、到的颜色信号的峰值判断某一位是否是SNP 位点.这种方法的开销较大,且不容易找到地域间或人种间的SNP位点.因此研究者试图通过比对来自不同地域人种的EST以及基因组序列来发现SNP 位点.这时如何区分真实的SNP与比对错误、测序错误所引入的噪声则是一个典型的机器学习分类问题.该问题目前尚没有较好的分类方法. 3 总结无论是计算生物学还是系统生物学的研究,都大量地使用着机器学习方法.生物信息学的研究一直是一个建立模型、解决问题、细化模型、再解决问题这样的循环过程.一旦模型中涉及到分类、聚类或回归的问题,就会使用机器学习方法来处理.几乎机器学习中的每一种方法都被应用到

33、了生物信息学中,包括神经网络、支持向量机、遗传算法、贝叶斯网络、隐马尔可夫模型、EM算法、随机森林等.随着半监督学习在机器学习理论中的兴起,目前已经有研究者开始用共学习的方法处理生物信息问题,并取得了较好的效果 21 . 信息科学和生命科学是21世纪科学技术发展的两大前沿学科.作为这两大学科的交叉学科,生物信息学已成为学术界瞩目的焦点领域,它需要研究者熟练地掌握信息科学中的方法和透彻地理解生命科学中的问题.机器学习方法是解决生物信息问题的重要手段之一,研究者不但需要深入地理解每一种方法的原理,还需要结合具体生物学问题,有效地融合入领域知识,选取恰当的特征,使用

34、适当的模型,才能得到好的结果. 参考文献: 1李建伏,郭茂祖.系统发生树构建技术综述J .电子学报, 2006 ,34(11) :204722052. LIJianfu , G UO Maozu. A review of phylogenetic tree recon2 struction technologyJ . Acta Electronica Sinica , 2006 , 34 (11) :204722052. 2王峻,郭茂祖.转录因子结合位点识别算法的研究J . 电子学报,2007 ,35(12A) :83289. WANGJun , Guo Maozu. Studyon tr

35、anscriptionfactor bingding sites discovery algorimsJ . Acta Electronica Sinica , 2007 , 35 (12A) :83289. 3邹权,郭茂祖,张涛涛. RNA二级结构预测方法综述J . 电子学报,2008 ,36(2) :3312337. ZOU Quan , G UO Maozu , ZHANG Taotao. A review of RNA secondary structure prediction algorithmsJ . Acta Electronica Sinica , 2008 , 36(2)

36、:3312337. 4 K NUDSEN B , HEINJ. Using stochastic context free grammars and molecular evolution to predict RNA secondary structure J . Bioinformatics , 1999 , 15(6) :4462454. 5 K NUDSEN B , HEIN J. Pfold: RNA secondary structure pre2 第3期郭茂祖,等:生物信息学中的学习问题5 diction using stochastic context2free grammar

37、sJ . Nucleic Ac2 ids Research , 2003 , 31(13) :342323428. 6 SHEN Hongbin , CHOU Kuochen. Ensemble classifier for pro2 tein fold pattern recognition J . Bioinformatics , 2006 , 22 (14) :171721722. 7于建涛,郭茂祖,蔡禄.蛋白质相互作用及其网络预测方法研究进展J .电子学报,2007 , 35(12A) :127. Y UJiantao , G UO Maozu , CAI Lu. Progress

38、in approaches to predicting protein2protein interaction and its networkJ . Acta Electronica Sinica , 2007 , 35(12A) :127. 8 LI Minghui , WANGXiaolong , LINLei , et al. Effect of exam2 ple weights on prediction of protein2protein interactions J . Computational Biology and Chemistry , 2006 , 30:386239

39、2. 9 MALIK Y OUSEF, SEG UN JUNG, LOUISE C SHOWE, et al. Learningfrom positive examples when the negative class is un2 determined microRNA gene identificationJ . Algorithms For Molecular Biology , 2008 , 3(1) :2. 10李建中,杨昆,高宏,等.考虑样本不平衡的模型无关的基因选择方法J .软件学报,2006 ,17(7) :148521493. LI Jianzhong , Y ANG K

40、un , G AO Hong , et al. Model2free gene selection method by considering unbalanced samples J . Journal of Software , 2006 , 17(7) :148521493. 11 DING ZJ , FENG Y, ZHENG Y G. Granular decision fusion systems for effective protein methylation predictionC 2008 IEEE Symposiumon Computational Intelligenc

41、e in Bioinforma2 tics and Computational Biology (CIBCB 2008) . Sun Valley , Idaho :s. n. , 2008. 12 LI M H, LIN L , WANG XL. Protein2protein interaction site prediction based on conditional randomfieldsJ . Bioinforma2 tics , 2007 , 23(5) :5972604. 13 BRADFORD J R , WESTHEAD D R. Improved prediction

42、of protein2protein binding sites using a support vector machines approachJ . Bioinformatics , 2005 , 21(8) :148721494. 14 REINITZJ , SHARP D H. Mechanism of eve stripe formation J . Mechanisms of Development , 1995 , 49(122) :1332158. 15 XUE Chenghai , LI Fei , HE Tao , et al. Classification of real

43、 and pseudo microRNA precursors using local structure2se2 quence features and support vector machineJ . BMC Bioin2 formatics , 2005 , 69(1) :310. 16 KWANGLOONGSTANLEYN G, SANTOSH KMISHRA. De novo SVM classification of precursor microRNAsfrom genomic pseudo hairpins using global and intrinsic folding

44、 measures J . Bioinformatics , 2007 , 23(11) :132121330. 17 JIANG Peng , WU Haonan , WANG Wenkai , et al. MiPred: classification of real and pseudo microRNA precursors using random forest prediction model with combined featuresJ . Nucleic Acids Research , 2007 , 35:W3392W344. 18 Y OUSEF M, NEBOZHY N

45、 M, SHATK AY H, et al. Combin2 ing multi2species genomic data for microRNA identification us2 ing a naive bayes classifier J . Bioinformatics , 2006 , 22 (11) :132521334. 19 LOWE T M, EDDY S R. tRNAscan2SE: a program for im2 proved detection of transfer RNA genes in genomic sequence J . Nucleic Acid

46、s Research , 1997 , 25(5) :9552964. 20 SCOTT CHRIST LEY, YIMINGL U , CHEN L I, et al. Hu2 man genomes as email attachmentsJ . Bioinformatics , 2009 , 25(2) :2742275. 21 NAM J W, SHIN K R , HAN J , et al. Human microRNA prediction through a probabilistic co2learning model of se2 quence and structureJ . Nucleic Acids Research , 2005 , 33 (11) :357023581. (编辑:许力琴) 6 山东大学学报 (工学版)第39卷

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 生物信息学中的学习问题

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：生物信息学中的学习问题.pdf
链接地址：https://www.31doc.com/p-5187877.html