基于小波变换SAM方法的差异表达基因筛选研究.pdf
《基于小波变换SAM方法的差异表达基因筛选研究.pdf》由会员分享,可在线阅读,更多相关《基于小波变换SAM方法的差异表达基因筛选研究.pdf(4页珍藏版)》请在三一文库上搜索。
1、第2 7 卷第5 期北京生物医学工程 V 0 1 2 7N o 5 2 0 0 8 年lO 月 B e i j i n gB i o m e d i c a lE n g i n e e r i n g O c t o b e r2 0 0 8 基于小波变换S A M 方法的差异表达基因筛选研究 伍亚舟张玲易东刘岭 摘要目的基于微阵列表达数据,探索差异表达基因筛选的新的有效方法。方法 采用基于小波变换一 S A M 方法,通过调节值,计算对应的假阳性率( F P R ) ,从而筛选差异表达基因。结果相对于小波变换前,基于 小波变换S A M 方法获得更好的筛选效果。结论本方法适用于微阵列表达数
2、据获得更好的差异表达基因筛选 效果,并且比传统的方法更具灵活性。 关键词基因芯片;差异表达基因;小波变换;S A M 中图分类号R 3 1 8 0 4文献标识码A文章编号1 0 0 2 3 2 0 8 ( 2 0 0 8 ) 0 5 0 4 5 4 0 4 I d e n t i f y i n gd i f f e r e n t i a le x p r e s s i o ng e n e sb a s e d - w a v e l e tt r a n s f o r m S A Mm e t h o d s W UY a z h o u ,Z H A N GL i n g ,y ,
3、 D o n g ,L l UL i n gD e p a r t m e n to fH e a t hS t a t i s t i c s M t l “q r yP r e v e n t i v eM e d i c i n eC o l l e g e 。T h i r dM i l i t a r yM e d i c a lU n i v e r s i t y , C h o n g q i n g 4 0 0 0 3 8 【A b s t r a c t 】 O b j e c t i v e T os e a r c han e wa n de f f e c t i v
4、 em e t h o df o rs c r e e n i n gd i f f e r e n t i a le x p r e s s i o ng e n e sb a s e do n m i c r o a r r a ye x p r e s s i o nd a t a M e t h o d s B a s e dw a v e l e tt r a n s f o r m S A M ,d i f f e r e n t i a le x p r e s s i o ng e n e sw e r es c r e e n e dt h r o u g h a d j u
5、 s t i n g v a l u ea n dc o m p u t i n gt h ec o r r e s p o n d i n gf a l s ep o s i t i v er a t e ( F P R ) R e s u l t s T h eb e t t e rr e s u l t so fd i f f e r e n t i a l e x p r e s s i o ng e n e sw e r eo b t a i n e dw i t hw a v e l e tt r a n s f o r m ( W T ) 一S A Mm e t h o d sc
6、 o m p a r e dt o n o n t r a n s f o r m C o n c l u s i o nT h e m e t h o di ss u i t a b l et oa n a l y z em i c r o a r r a ye x p r e s s i o nd a t aa n ds c r e e ns i g n i f i c a n tg e n e s W h a t Sm o r e t h em e t h o di sm o r e f l e x i b l et h a nt r a d i t i o n a lm e t h o
7、 d s 【K e yw o r d s 】m i c r o a r r a y ;d i f f e r e n t i a le x p r e s s i o ng e n e s ;W T ;S A M l 研究背景 基因芯片又称D N A 微阵列( m i c r o a r r a y ) ,它将 设计好的探针,有序高密度地在载体上排列成D N A 微阵列,待测样品与芯片杂交后通过扫描系统检测 信号强度并对信号进行综合分析后,获得样品中大 量基因序列及表达信息。生物学家们可望在浩如烟 海的数据库中寻找有意义的信息。在对基因表达数 据的挖掘过程中,寻找差异表达基因是比较基础和 前期
8、的研究方法。所谓差异表达基因就是在若干实 验组中表达水平有明显差异的基因( 或称为“显著 性基因”) “。为了降低数据的维度和排除假阳性, 往往都需要筛选在不同条件下差异表达的基因。因 此挑选差异表达基因往往是芯片数据分析的非常关 键的第一步,生物学家通过芯片实验挑选出这些基 基金项目:第三军医大学科研创新基金( 2 0 0 7 X G 2 0 ) 资助 作者单位:第i 军医大学军事预防医学院卫生统计学教研室( 重庆 4 0 0 0 3 8 ) 作者简介:伍哑舟( 1 9 7 7 一) 男,讲师,主要从事生物信号、生物信息 与统计数据处理等方面研究。E m a i l :a s i a w u
9、 S s i n s c o r n 因,为进一步的实验和研究提供线索。差异表达基 因筛选的关键是控制假阳性率,同时要保持较高的 筛检效率。 然而,D N A 微阵列技术产生的海量数据由于其 大规模、高噪声、高维度的特点,在数据挖掘和处理 分析方面仍没有满意的解决方法。一般而言,基因 芯片数据的噪声较高,其来源可分为三方面,即基因 在人群分布的变异,基因在个体由于时间等原因造 成的表达变异和试验中引入的噪声。但在数据分析 时无法区分这三种变异,因而在拟合模型时往往将 其同等视之,为此在模拟上也不对这三个来源进 行区分。由于噪声偏大的原因,目前在生物学研 究中往往利用芯片进行全基因组的扫描来初筛
10、可 能的差异表达基因,然后再采用R T P C R 或 N o r t h e r nB l o t 等实验手段来对基因芯片筛选到的 差异表达基因进行验证。在此前提下,生物学家 们希望筛选到尽可能多的差异表达基因,同时又 要保证较低的假阳性个数,否则将大大增加后续 验证工作的工作量。 万方数据 第5 新 基于小波变换- S A M 方法的差异表达基因筛选研究 4 5 5 目前,针对差异表达基因的筛选,现阶段存在多 种方法“引,包括传统的倍数法( r a t i o 分析) 、t 检验 和方差分析、W i l e o x o n 非参数法,B o n f e r r o n i 修正法 等,也有
11、专门针对芯片数据特点的S A M ( s i g n i f i c a n c ea n a l y s i so fm i c r o a r r a y ) 。川方法等,这些 方法都或多或少存在某些缺陷。“:倍数法没有考虑 基因表达的变异情况,结论没有经统计学的检验;差 异表达倍数受极端值的影响严重,而极端值是微阵 列实验中的常见现象;统计量可能由于分母( 标准 误) 非常小,而在分子较小的情况下( 基因在不同状 态下的表达相差很小) 得到较大的值,在大量的基 因中通常会有一部分基因具有很小的标准误,从而 造成假阳性率( f a l s ep o s i t i v er a t e ,
12、F P R ) 较高。这些 缺点给大规模差异基因的筛选带来了困难,同时造 成了较高的假阳性。 本文在对这些传统方法研究和比较基础上,提 出了基于小波变换( w a v e l e tt r a n s f o r m ,W T ) 一S A M 方 法来筛选差异表达基因。该方法应用于已有的数据 集后获得的结果,同其他方法和专业比较来看,获得 了比较理想的效果。 2原理方法 如何有效地消除微阵列实验基因表达数据存在 的各种噪声,对于差异表达基因的筛选和后续的基 因功能分析等方面有着重要的影响。目前来说,在 差异表达基因筛选的几种方法中,S A M 相对来说更 为有效,但是也存在一些问题,比如难以
13、辨别的噪 声、假阳性率大小的控制等。 基于小波变换的S A M 分析方法的基本思想:在 进行差异表达基因筛选前,对基因表达数据利用小 波变换进行去噪处理,然后再进行S A M 分析,从而 得到经小波分析后的差异表达基因分析结果。 2 1 小波变换的基本原理和特点 小波分析是近l O 多年来发展起来的一种新的 时频分析方法。由于利用小波基代替了经典的正弦 波基,小波分析能以不同的时间和频率分辨率分析 信号,小波变换系数能反映信号在时域及频域的局 部信息,使得它具有多分辨率分析( M R A ) 的特点, 即在低频部分具有较岛的频率分辨率和较低的时间 分辨率,在高频部分具有较高的时间分辨率和较低
14、的频率分辨率,所以被誉为数学显微镜。正是这种 特性,使得小波变换具有对信号的自适应性;而且小 波分析并非是对单个点或单个频率进行处理的过 程,因而具有很强的抑制噪声的能力。 本文正是基于小波分析的这些特点,对含有大 量噪声的微阵列数据进行处理,以减少噪声带来的 假阳性结果。 2 2 S A M 方法原理 S A M 的基本原理及算法可参考文献1 “,校 正参数的估计采用使统计量d j 的变异系数最小化 的方法得到: 小等 ( 1 ) 式中,d 。为差异表达基因的统计量值;p 和p :分布 为试验组和对照组第i 个基因表达值的样本均数;5 为样本残差标准误;s 。为样本残差标准误的校正值, s
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 变换 SAM 方法 差异 表达 基因 筛选 研究
链接地址:https://www.31doc.com/p-3704323.html