书签分享收藏举报版权申诉 / 11

立即下载加入VIP免费专享

当前位置：首页 > 其他 > 一个基于隐马尔可夫模型和生物知识修正.doc

一个基于隐马尔可夫模型和生物知识修正.doc

上传人：yyf

文档编号：3621795

上传时间：2019-09-18

格式：DOC

页数：11

大小：710KB

《一个基于隐马尔可夫模型和生物知识修正.doc》由会员分享，可在线阅读，更多相关《一个基于隐马尔可夫模型和生物知识修正.doc（11页珍藏版）》请在三一文库上搜索。

1、精品论文一个基于隐马尔可夫模型和生物知识修正的 CpG 岛识别系统徐瑜，兰曼5（华东师范大学信息科学技术学院，上海 200241）摘要： CpG 岛的存在能识别某些基因的启动子，而且 CpG 岛的异常甲基化多与人类肿瘤的发生有关，因此 CpG 岛的识别在生物基因组测序中很重要。本文实现了一个基于隐马尔可夫模型（HMM）和后期生物知识修正的 CpG 岛识别系统，在 EMBL 的 DNA 序列数据集上10进行系统性能测试的结果显示，该系统对于 CpG 岛有较好的识别能力，同时又比较精确地定位 CpG 岛的位置。与其它常用 CpG 岛识别工具的对比实验结果表明，该系统的识别准确性不亚于其它软件

2、。此外，该系统的优点是一经训练，可以用于自动识别。关键词：隐马尔可夫模型；机器学习；CpG 岛识别；知识修正中图分类号：请查阅中国图书馆分类法15A CpG Island Identification System Based on HMM andDomain Knowledge RevisionXU Yu, LAN Man(School of Information Science and Technology, East China Normal University, Shanghai20200241)Abstract: CpG Islands are often associated

3、with the promoters of most housekeeping genes and many tissue-specific genes. Finding candidate regions for aberrant DNA methylation contributesto the understanding of the epigenetic causes of cancer. Therefore, identification of CpG Islands isvery important in genome mapping projects. In this work,

4、 we implemented an automatic CpG25Islands identification system, i.e. CpG-Discover, based on Hidden Markov Model (HMM) and post-processing revision including biologic domain knowledge. The experimental results on the data set of human DNA sequences from EMNL showed that this system has good identifi

5、cation performance. Moreover, in comparison with other popular tools, CpG-Discover shows comparable effectiveness. In addition, the significant advantage is it can be applied to other data sets once built30on an annotated training data set.Key words: Hidden Markov model; machine learning; CpG Island

6、s identification; knowledge modification0引言生物学上，CpG岛（CpG islands）是指DNA上包含大量相邻的胞嘧啶（C）、鸟嘌呤（G），35以及使两者相连的磷酸酯键（p）的一个区域。通常，CpG岛的长度为几百到几千个碱基对（nucleotides，单位bp）。在人的基因组中，如果双碱基对CG出现，则C通常被甲基化。并且，甲基化的C很快会突变成T，因此基因组中CpG岛非常少。然而，在基因的起始位置（启动子），因为功能的保守性，其序列很少突变，在哺乳类基因中的启动子上含有约40%的CpG 岛，人类基因中含有约70%的CpG岛，因此，CpG岛的存在

7、能识别某些基因的启动子，并可40作为限制酶的辨识位置。从已知的DNA序列统计来看，几乎所有的管家基因（house-keeping genes）及约40%的组织特异性基因（tissue-specific genes）的附近(通常是在5上游区域)都含基金项目：教育部博士点基金(20090076120029)作者简介：徐瑜（1988-），女，硕士研究生，自然语言处理，文本挖掘通信联系人：兰曼（1974-），女，副教授，自然语言处理，数据挖掘，生物文本挖掘等. E-mail:- 2 -有非甲基化的CpG岛，其序列可能包括基因转录的启动子的第一外显子1。因此，CpG岛的识别在生物基因组测序工作中是

8、非常重要的。此外，人类肿瘤的发生与多种肿瘤相关基因的CpG岛的甲基化水平有关，CpG岛甲基化可以调控基因转录的效率，使基因转录失活，是细45胞内DNA转录状态的重要表观遗传学标记，因此，启动子区域的CpG岛的异常甲基化也是识别癌症的重要标志之一。针对CpG岛的定义，1987年，Gardiner-Garden和Formmer2认为长度在200bp以上，G+C 含量大于50，并且实际CpG含量与期望CpG含量的比值(ObsCpGExpc G)大于0.6的区域即为CpG岛。2002年，Daiya Takai 和 Peter A. Jones3的研究认为，长度在500bp以上，G+C50含量大于5

9、5，并且实际CpG含量与期望CpG含量的比值(ObsCpGExpc G)大于0.65的区域更可能和基因的5区域有关。因此，根据研究的不同的目的，生物学研究人员可以采用不同的参数进行CpG岛预测。DNA序列中的CpG岛既可以通过生物学实验的方法识别，也可以通过计算机来识别可能的CpG岛。由于DNA序列的多样性，如果借助于生物信息和计算机工具首先识别出潜在的55CpG岛，就可以大大减少生物实验的成本和盲目性，极大地提高生物实验的时间效率和针对性。近年来，利用计算机开发CpG岛识别工具，吸引了许多生物学领域和传统计算机领域研究人员的兴趣，他们已经开发出许多有用的工具来帮助生物学家提高工作效

10、率。根据这些工具所采用的方法，我们将它们大致分为两类。第一类方法是采用传统的滑动窗口（sliding window），这些工具包括CpGIS3，CpGProD4和CpGIE5等。滑动窗口法从头至尾对DNA60序列进行扫描（每次移动1n位），分别计算窗口内序列是CpG岛 (用“+”表示) 和不是CpG 岛 (用“-”表示) 的概率值（通常采用log-odds ratio），如果高于设定的域值，则认为窗口内的序列是CpG岛，否则认为不是。采用滑动窗口法的不足之处在于：（1）窗口的大小很难确定，通常窗口的大小直接影响CpG岛的长度和数量，如果窗口过大，一些长度较短的CpG 岛会被合并在一起，从

11、而被预测成一个大的CpG岛，降低识别的准确率；（2）窗口只能向65一个方向移动，对于之前错误的判断结果，不能在后面得到发现和修改，从而影响识别的精度；（3）系统运行时间较长。第二类方法是采用聚集（clustering）的技术，这些工具包括 CpGCluster6和CpGIF7等。这类工具的基本思想是基于CpG岛定义中的密度或物理距离等生物学属性，不断迭代地扫描序列，并将符合这些属性的相邻CpG岛合并为大的CpG岛簇。聚集方法的提出是为了解决滑动窗口方法的不足，然而它带有如下的缺陷：（1）识别的结果70依赖于扫描序列的顺序，而不同的扫描顺序则会识别出不同的CpG岛，因此系统稳定性不足；（2

12、）识别的敏感度较低，倾向于识别长度较长的CpG岛序列。与上述两类方法不同，在本文，我们尝试使用隐马尔可夫模型（HMM）建立一个自动识别CpG岛的系统，并结合生物知识对预测结果进行后期修正，从而达到较为理想的识别预测结果。隐马尔可夫模型是一种机器学习的方法，它广泛应用于序列分析和模式识别的研究75中，例如语音识别、手写识别，命名实体识别等。这类应用的一个重要特点是，数据的序列性。这种序列可以被认为是后一状态依赖于前一状态的时间序列，即具有马尔可夫性。正是因为考虑到DNA序列（碱基对）也可以被看做是具有马尔可夫性的有序数据，我们在本文中利用HMM模型实现了一个自动从人类DNA序列中识别C

13、pG岛的系统，即CpG-Discover系统。80本文中，我们首先介绍结合HMM模型和生物知识修正的CpG-Discover系统的框架结构。然后在欧洲分子生物学实验室（EMBL）发布的人类基因中CpG岛的数据集上测试本系统的性能，并与其它常用的CpG岛识别工具（基于滑动窗口和聚集技术）进行对比实验，深入分析和讨论实验结果。最后我们总结这一工作和未来的方向。1CpG-Discover 系统框架85CpG-Discover 系统的框架结构主要包括三个子系统：（1）建立 HMM 模型的参数系统；（2）基于 HMM 模型建立 CpG 岛识别系统；（2）基于生物知识的后期识别修正系统。下面我们分

14、别详细介绍这三个子系统的工作。1.1建立 HMM 模型的参数系统这个子系统完成对 HMM 模型的求解过程，即实现参数初始化、参数逼近和参数投票这90三个步骤，建立起 HMM 模型的参数系统。在参数初始化阶段，针对 4 种碱基（A，C，T， G）分别在 CpG 岛内外的状态，我们标记此 HMM 模型包括 8 个状态，分别是 A+, C+, G+, T+, A, C, G,T，标号中“+”和“”分别表示此核苷酸在和不在 CpG 岛上。这 8 个状态之间的转移方式如图 1 所示。这 8 个状态间的状态转移概率可以从有标识的训练序列中得到，后面会详细叙述。本文中，我们基于欧洲分子生物学实验室（EM

15、BL）核苷序列数据库进行实验95建立 HMM 模型，因此，在以下三个参数求解的过程中，我们以 ID 为 BC008880 的人类 DNA序列为例来进行说明。C+G+A+T+A-T- C-G- 11 -1001.1.1参数初始化图 1HMM 模型中 8 个状态之间的转移图示Fig. 1 The transform of 8 states in HMM105110这个步骤完成 HMM 模型中状态转移概率矩阵（A）、发射概率矩阵（B）和状态概率矩阵（）的初始化，作为下一步参数逼近的输入种子。三个概率矩阵的初始化步骤如下：（1）初始化状态转移概率矩阵 A：对于每个训练样本序列，我们采用基于长度为 2

16、的滑动窗口的方法来初始化参数，即通过计算从第一个状态转移到第二个状态的出现频数，来计算转移概率。（2）初始化发射概率矩阵 B：假设一个状态到一个符号的发射概率都为 0 或 1。（3）初始化状态概率矩阵：每个状态的初始化概率由序列中各个状态的出现频数计算。参数完成初始化后，我们得到初始化后的各个概率矩阵。表 1 显示了人类 DNA 序列BC008880 经过初始化之后的三个概率矩阵的分布结果。1.1.2参数逼近在第二步中，我们采用 Baum-Welch 算法来重新估计基于训练序列的概率矩阵。上一步的三个初始化概率矩阵作为 Baum-Welch 算法的输入，输出期望的转移和发射概率矩阵

17、，再115将得到的期望概率代替旧的参数，这个过程不断迭代进行直至达到收敛。在每次迭代过程中，模型概率的准确度都得到提高，直到一个极限概率，整个迭代过程最终收敛于一个局部最优解。参数估计后，对每个训练序列，我们都得到三个逼近后的概率矩阵。表 2 显示了人类 DNA 序列 BC008880 经过 Baum-Welch 近似之后的三个概率矩阵的分布结果。120A+C+T+G+A-C-T-G-0.19150.23450.51060.063800000.18520.23460.34570.22220.01230000.12930.32760.33620.206900000.13730.23530.50

18、980.1176000000000.39360.13650.23290.236900000.40830.1750.10.3167000.005400.32970.15680.25950.248600000.19180.16440.29680.347A：A+ C+ T+ G+ A- C- T- G-:表 1 人类 DNA 序列 BC008880 经过初始化之后的三个概率矩阵的结果Tab. 1 The result of initialization of DNA sequence (BC008880)ACTG10000100001000011000010000100001B： A+ C+ T+

19、G+ A-C- T- G-0.04388 0.0756 0.0476 0.1092 0.2334 0.1120 0.2045 0.1718125A+C+T+G+A-C-T-G-0.00610.04830.00580.94060.00120.00160.00170.00200.56020.02560.12330.29120.00110.00150.00160.00230.00570.48620.16540.33490.00170.00460.00570.00280.01780.23530.50980.11760.00120.00140.00210.00350.00110.00110.00110.

20、00110.87760.11810.00360.00330.00120.00110.00110.00110.01670.26820.70460.01300.00110.00120.00110.00120.01660.28190.01690.68710.00110.00110.00110.00110.00280.22230.29170.4856A： A+ C+ T+ G+ A-C- T-G-表 2 人类 DNA 序列 BC008880 经过 Baum-Welch 逼近之后的三个概率矩阵的结果Tab. 2 The result of initialization of DNA sequence (

21、BC008880)B：ACTGA+0.43010.04100.31770.2140C+0.05590.59650.00800.3426T+0.00530.24020.71210.0454G+0.13010.14830.00830.7163A-0.92480.03080.0040.0450C-0.35340.54340.02170.0845T-0.55900.00970.42400.0103G-0.06590.01960.40140.5162：0.001113 0.999155 0.001543 0.001164 0.001001 0.001019 0.001002 0.0010031301.1

22、.3参数投票至此，对每个 DNA 训练序列，我们都得到三个逼近后的概率矩阵。为了整合各个不同长度的训练序列的概率矩阵，我们采取投票（vote）平均技术，就是说，对每个概率矩阵，根据每个训练序列的长度对其进行归一化（Normalization），每个 DNA 训练序列的权重计算公式为： W = ni，其中，n 表示第 i 个训练序列中核苷酸的数目，N 表示训练集中的核i N i135苷酸总数。采用投票平均后，我们得到最终的 HMM 模型的参数。表 3 显示了使用 1400 条 “BC”打头的人类 DNA 序列作为 HMM 系统的训练数据，经过加权平均（投票）之后的 HMM 模型的三个概率矩阵

23、的分布结果（关于数据集见后面 2.1 节）。1401451.2基于 HMM 模型建立 CpG 岛识别系统经过求解和加权平均之后得到的 HMM 模型，可以通过 Viterbi 解码算法来寻找能够产生给定符号序列的最大似然状态序列，即对每个测试 DNA 序列中的每个碱基对（ATCG）， Viterbi 解码算法能够输出每个碱基对对应的状态为”+”或者”-”（其中“+”标识碱基对在 CpG 岛内，”-”表示碱基对在 CpG 岛之外），并使得标识后的 DNA 序列输出状态序列为最优解。表 3 使用 1400 条以“BC”开头的人类 DNA 序列作为训练数据集，经过加权平均（投票）之后的 HMM模型的

24、三个概率矩阵分布Tab. 3 The result of majority vote, using 1400 DNA-sequenceA：A+C+T+G+A-C-T-G-A+0.238770.17100.14740.31790.00880.03950.03450.0492C+0.22390.26740.30300.08320.02120.05930.03230.0165T+0.051780.26000.20220.37280.00660.03770.03200.0437G+0.188420.30830.14300.22190.02210.03620.03050.0565A-0.006390.0

25、1700.01230.02340.55030.09970.09690.201C-0.066440.06970.04020.01890.17580.24300.30320.0898T-0.015650.03810.03130.03670.05420.21380.23460.3825G-0.057660.03640.03300.05960.17050.26060.15760.2317B：ACTGA+0.80710.06550.06470.0657C+0.06990.83340.04080.0589T+0.10640.07040.75500.0712G+0.04570.06380.05280.840

26、6A-0.87800.03400.04130.0497C-0.08120.81540.04100.0654T-0.13210.06330.73610.0715G-0.05260.05790.05540.8371150155160165170：0.05035 0.1919 0.03460 0.2662 0.04592 0.1488 0.03663 0.23251.3基于生物知识的后期识别修正系统由Viterbi 算法求解出的DNA序列输出状态是基于训练模型计算而得，系统输出的状态序列并不一定满足生物学上对CpG岛的定义。为了进一步提高结果的精度，我们结合CpG岛的生物定义，如CpG岛中C和G

27、的概率、相邻CpG片段间距以及CpG片段的长度阈值等，对 HMM模型识别DNA序列产生的误差进行后期的知识修正。我们对CpG岛作如下的限定：至少包含140个碱基对的长度，区域内GC所占含量超过60%，且CpG的观察值预测值比例必须高于0.6（根据研究的不同目的，可以在软件系统中自行修改这些限定的值）。这个后期识别修正系统包含下面三个模块：（1）相邻CpG岛的合并模块：由于计算误差，系统经常把CpG岛中少量的核苷酸（通常长度在1bp到15bp之间）错误地识别为非CpG岛上的核苷酸。为了解决这个问题，我们对相邻CpG岛设定最小距离限定。经过多次实验，这个最小距离的阈值设定为20，即，如果

28、识别出的两个相邻CpG岛间的距离小于20，系统就修改这些间隔中的非CpG岛核苷酸状态，使之状态转变为CpG岛上核苷酸，即合并这两个相邻CpG岛为一条长CpG岛。合并后的CpG岛需要进一步经过后面两个模块的修正。（2）密度检测过滤模块：生物学上，CpG岛通常含有较高的G/C（或C/G）含量(密度高于60%)，如果前一步的错误合并或者系统识别的误差，可能产生不满足C/G含量要求的CpG 岛序列。因此，对识别出的不能满足最低密度要求的CpG岛序列，即区域内GC所占含量至少达到60%，这个密度检测过滤模块将改变这些CpG岛中所有核苷酸状态为非CpG岛状态。（3）长度检测过滤模块：除了（2）中

29、的密度约束模块外，这个系统还进行了长度约束，即根据CpG岛的长度定义，去除长度少于140个碱基对的CpG岛序列，即，对识别出的长度175180小于140bp的CpG岛将被改变为非CpG岛状态。经过以上三个后期修正模块之后的输出序列状态，才成为CpG-Discover系统的最终输入结果。表4列出了人类DNA序列BC009465在修正前后的对比结果，其中491255分别表示CpG岛序列的起始位置为第49个碱基对和结束位置为第1255个碱基对，这6个评估指标的含义在后面2.2节中有详述。从表4可以看到，基于生物知识修正后的识别结果除了Correlation coefficient指标没有变化外，其

30、它的指标都有提高，特别是Specificity，从原来的33.76%增至了51.68%（提高60.15%）。原来预测位置在1284和2961509的两条CpG岛因为相隔只有12个碱基对（bp），小于最小间隔阈值20bp，因而被修正合并为一条长的CpG岛；而原来预测位置在15841695的CpG岛序列长度只有120bp，在后处理模块中由于长度过短，不满足生物学上CpG岛的长度要求，因而被过滤除去。表 4 人类 DNA 序列 BC009465 基于生物知识的修正前后识别结果的对比Tab. 4 The comparison of domain knowledge revision (BC00945

31、6)评测指标未修正的结果修正后的结果真实CpG岛的始末端位置491255491255系统识别的CpG岛的始末端位置128429615091584169511509Accuracy76.80%83.51%Sensitivity99.09%100%Specificity33.76%51.68%Positive predictive value74.29%79.99%Performance coefficient73.78%79.99%Correlation coefficient47.72%47.72%1851901952002实验部分为了对 CpG-Discover 系统的性能做一个准确而全面的

32、分析和比较，我们从欧洲分子生物学实验室(EMBL)的核苷序列数据库（http:/www.ebi.ac.uk/embl/）中下载了关于人类基因的 CpG 岛数据库 emb173hum（ftp:/ftp.ebi.ac.uk/pub/databases/cpgisle），并在这个数据集上测试了本系统的性能。这个数据库是由欧洲生物信息中心负责维护，与日本基因数据库（DDBJ）和美国国立生物技术信息中心（NCBI）相互合作，他们之间每天都要交换最新的核苷序列数据。此外，为了比较 CpG-Discover 系统与其它常用的 CpG 岛识别工具（基于滑动窗口和聚集技术）的性能，我们还在这个数据集上

33、选择部分 DNA 序列进行了对比实验。2.1数据来源emb173hum 数据库包含了当前 EMBL 数据库发布的已标定 CpG 岛位置的人类 DNA 序列，共有 233,004 条 DNA 序列和 142,325 个 CpG 岛，其中只有 61,051 条 DNA 序列中包含有一个或者若干个 CpG 岛，平均每条 DNA 序列含有 2.33 个 CPG 岛。我们下载了这个数据库中以“AB”标记开头的 1,955 条 DNA 序列和以“BC”标记开头的 6,124 条 DNA 序列，除去数据库中的空序列和有错误信息的序列之后，我们得到近 8,000 条 DNA 序列。其中，以“AB” 标

34、记开头的 DNA 序列中平均每条 DNA 序列含有 1.70 个 CpG 岛，以“BC”标记开头的 DNA 序列中平均每条 DNA 序列含有 1.34 个 CpG 岛。为了使实验结果真实合理有效，我们从以 “AB”和“BC”标记开头的 DNA 序列中分别选择了 1400 条训练数据和 200 条测试数据（共有2800 条训练数据和 400 条测试数据），选择的原则是这个数据子集里面的 CpG 岛的分布分别与原来“AB”和“BC”标记开头的 DNA 序列中 CpG 岛的分布相同，目的是使我们的实验数据尽可能符合原来 CpG 岛在 DNA 序列中的真实数据分布概率。2052.2评价手段为了对系

35、统进行准确客观的评价，对每一条测试 DNA 序列，我们使用以下 6 种评估指标对 CpG-Discover 系统识别出的 CpG 岛位置和真实数据库中标定的 CpG 岛位置进行对比。这 6 种评估指标都在生物信息学领域有广泛的应用，它们的表示公式如下：(nTP+nTN)（1） Accuracy (Ac)：(nTP+nFN+nFP+nTN)nTP210（2） Sensitivity (Sn)：（3） Sepcificity (Sp)：nTP+nFN nTN nTN+nFPnTP（4） Positive Predictive Value (PPV)：（5） Performance Coeffi

36、cient (PC):nTP+nFPnTP（6） Correlation Coefficient (CC)：nTP+nFP+nFN215220225nTP*nTN-nFN*nFP(nTP+nFN) * (nTN+nFP) * (nTP+nFP) * (nTN+nFN)其中各个参数的定义如下：lnTP：是 CpG 岛内的碱基且被正确的预测为 CpG 岛内碱基的碱基个数。lnFN: 是 CpG 岛内的碱基且被错误的预测为非 CpG 岛内碱基的碱基个数。lnFP: 不是 CpG 岛内的碱基且被错误的预测为 CpG 岛内碱基的碱基个数。lnTN: 不是 CpG 岛内的碱基被正确的预测为非 CpG 岛内

37、碱基的碱基个数。2.3实验结果与分析在下面的实验过程中，根据 CpG 岛的定义，参考其它软件给出的可选参数，我们选择了如下的参数作为我们的筛选参数：长度在 140bp 以上，G+C 含量大于 60。为了研究训练数据集的大小对系统测试结果的影响，我们分别把“AB”和“BC”开头的DNA 序列训练数据集分成 7 组不同大小的训练数据集，即分别取200, 400, 600, 800, 1000,1200, 1400条训练数据来建立 HMM 系统，然后使用预先留出的 200 条测试 DNA 序列来评估系统的性能参考。图 2 和图 3 分别显示对以“AB”和“BC”开头的不同训练数据集对 6 个系

38、统性能评估指标的结果。230235图 2 AB 序列的测试结果Fig.2 The test result of NDA sequence(AB)图 3 BC 序列的测试结果Fig.3 The test result of NDA sequence(BC)从图 2 和图 3 显示的结果可以看出，对每一种性能评价指标来说，随着训练数据数量的增加，系统的性能指标的均值总体是增加趋势，而当训练数据集包含大约 1000 条数据的时240245250255260265270275候，系统的各个性能指标趋于稳定。这个结果表明，当系统在接受 1000 条训练数据之后，即可以输出相对稳定的测试结果。此外，从图

39、2 和图 3 的对比结果还可以看出，“BC”开头的 DNA 序列数据测试结果相对于“AB”开头的数据的测试结果要更加稳定。通过对 DNA 序列数据的分析，我们认为可能的原因如下：l首先，从训练数据来看，“AB”开头的数据中，每条 DNA 序列中的 CpG 岛的数量波动范围集中在为 17，而以“BC”开头的数据中，每条 DNA 序列中的 CpG 岛的数量波动范围集中在 14。l其次，“AB”开头的 DNA 序列平均长度为 5924bp, “BC”开头的 DNA 序列平均长度为1985bp。因此，相对“AB”开头的 DNA 序列，“BC”开头的数据本身长度短，CpG 岛数量波动小，比“AB

40、”开头的数据更加规范和集中，因而系统的波动性也更小，表现出较为平稳的结果趋势。从上述实验结果可以看出，CpG-Discover 系统的 Sensitivity 性能很高，最高达到了 97%，即使选择不同训练数据集大小，系统的平均 Sensitivity 值也超过 90%，尤其是“BC”开头的较短 DNA 序列数据。从 Sensitivity 的定义来看，CpG 岛内 90%的碱基都能被正确识别标定出来，也证明 CpG-Discover 系统能达到较为满意的从人类 DNA 序列中自动识别 CpG 岛的作用。此外，在最好的情况下，CpG-Discover 系统的 Accuracy 可以达到近

41、 80%的正确率，而且绝大部分的 Accuracy 也超过了 50%。2.4与其它工具的对比为了进一步全面地评估系统的性能，我们随机地从测试样本中选择若干条 DNA 序列，将 CpG-Discover 系统与前面提到过的基于滑动窗口和聚集技术的工具进行了对比实验。我们选取了目前较为有名的 CpG 岛识别工具或者系统，例如基于滑动窗口技术的 CpGProD4 和 CpGIE5，基于聚集技术的工具 CpGCluster6和 CpGIF7来进行比较，这些工具软件涵盖了当前广泛采用的算法，并且在 CpG 岛挖掘方面公认有较好的性能。表 5 列出了部分 DNA 序列分别使用这 5 个系统工具预测

42、的 CpG 岛位置和真实 CpG 岛位置的对比结果此外，为了更全面比较 CPG-Discover 与其它同类软件的结果，我们对其他软件的预测结果使用 2.2 节中的 5 种评价指标进行衡量比较。表 6 以 AB046787 和 BC011652 这两条 DNA 序列为例，列出了各个系统对这两条 DNA 序列进行识别的 5 个性能评价指标的结果。从表 5 和表 6 的结果可以看出，当相邻的 CpG 岛的间隔较小的时，以上五个软件都不能准确确定 CpG 岛的起始边界位置，CpGIF 和 CpGPord 倾向于将间隔较小的两个 CpG 岛合并成一个 CpG 岛，而 CpG-Discover 则

43、不能将其间隔准确定位（如 BC008956、BC017346），而 CpGIE 和 CpGCluster 出现了较多无法预测出 CpG 岛的情况。CpGCluster 较其他软件而言有很好的 Specificity 和 Positive predictive value，这表明 CpGCluster 识别出来的 CpG 岛极可能是真正的 CpG 岛。但是 CpGCluster 的 Sensitivity 却与其他软件有很大的差距，这说明对于很多是 CpG 岛的区域，CpGCluster 很可能不能识别出来而将其判成了非 CpG 岛的区域。原因是 CpGCluster 的识别结果与输入序列有关，如果待测序列的非岛区域较大，则会导致其 CpG 岛区域的 p-Value 偏低，因此造成了 CpGCluster 将 CpG 岛的区域判断成非 CpG 岛的区域的情况。CpGProd 的 Specificity 相对于其他软件而言

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一个基于隐马尔可夫模型生物知识修正

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：一个基于隐马尔可夫模型和生物知识修正.doc
链接地址：https://www.31doc.com/p-3621795.html