如何同时使用Nucleus与TensorFlow解决基因组学领域的机器学习问题.doc
《如何同时使用Nucleus与TensorFlow解决基因组学领域的机器学习问题.doc》由会员分享,可在线阅读,更多相关《如何同时使用Nucleus与TensorFlow解决基因组学领域的机器学习问题.doc(5页珍藏版)》请在三一文库上搜索。
1、如何同时使用Nucleus与TensorFlow解决基因组学领域的机器学习问题简介在本文中,我们将 DNA 测序纠错表述为多级分类问题,并提出两种深度学习解决方案。第一种方法是在单次读取中纠错,而第二种方法(如图 1 所示)则通过多次读取来达成共识,以预测正确的 DNA 序列。我们的Colab 笔记教程使用Nucleus和TensorFlow库实现第二种方法。本文旨在向您展示如何同时使用 Nucleus 与 TensorFlow 解决基因组学领域的机器学习问题。问题概览尽管 DNA 测序日渐快捷和便宜,其过程仍容易出错。使用Illumina等公司开发的新一代测序 (NGS) 技术处理原始数据时
2、,错误率约为 1%。第三代技术,例如Pacific BioSciences(PacBio) 公司开发的技术,正日益普及,其错误率约为 15%。测序错误可分为替换、插入和缺失,后两者通常称为 indel。所有这些错误均不利于下游的分析步骤,例如变异检测和基因组组装。如要获取较高质量的数据集,一个简单的方法是舍弃可能包含错误的数据,丢弃全部读取内容或去除低质量区域皆可。该方法并非理想之选,因为这会导致最终的数据集会变小。此外,某些序列上下文本来就有较高的错误率,进而导致采样出现偏差。因此,大量研究都侧重于开发更成熟的纠错方法。大多数已开发的方法均可归类为以下两组之一:对单次读取进行操作的方法,旨在
3、确定正确的读取序列对多次读取进行操作的方法,以共识为基础,旨在确定正确的基础 DNA 序列深度学习概览本文中阐述的两种方法均使用深度神经网络,学习将输入映射至输出的函数。神经网络由若干层线性与非线性运算构成,而这些运算会依次应用至输入。神经网络已成功应用于包括图像分类和自然语言翻译在内的多个问题领域。最近,神经网络也被用于解决基因组学问题,例如蛋白质结构预测和变异检测。方法Nucleus我们的实现需要Nucleus,这是由 Google Brain 的 Genomics 团队开发的内容库,用于处理基因组学数据。Nucleus 使用专门的 reader 对象与 writer 对象,可轻松读取、写
4、入和分析常见基因组文件格式(如 BAM、FASTA 和 VCF)中的数据。Nucleus 让我们能够:针对指定基因组区域中的所有变异查询 VCF 文件针对映射至指定基因组范围的所有读取内容查询 BAM 文件针对从指定位置开始的参考序列查询 FASTA 文件我们还能使用 Nucleus 将数据写入TFRecords,这种二进制文件格式由协议缓冲区消息构成,可由 TensorFlow 轻松读取。读取 TFRecords 文件后,我们会使用Estimator API训练和评估卷积神经网络。数据以下是我们在实现过程中所使用的文件列表。所有数据均公开提供,且此 教程包含下载链接与说明。NA12878_s
5、liced.bam 从 20 号染色体(位置 10,000,00010,100,000)获得的 Illumina HiSeq 读取内容,降采样至 30x 的覆盖度NA12878_sliced.bam.bai NA12878_sliced.bam 的索引NA12878_calls.vcf.gz 瓶中基因组 NA12878 变异的真值集合NA12878_calls.vcf.gz.tbi NA12878_calls.vcf.gz 的索引hs37d5.fa.gz hs37d5 的参考基因组hs37d5.fa.gz.fai 和 hs37d5.fa.gz.gzi hs37d5.fa.gz 的索引文件注:教
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 同时 使用 Nucleus TensorFlow 解决 基因组 领域 机器 学习 问题
链接地址:https://www.31doc.com/p-3426428.html