基于家系数据的连锁不平衡的统计方法研究与应用.doc
《基于家系数据的连锁不平衡的统计方法研究与应用.doc》由会员分享,可在线阅读,更多相关《基于家系数据的连锁不平衡的统计方法研究与应用.doc(39页珍藏版)》请在三一文库上搜索。
1、基于家系数据的连锁不平衡的统计方法研究与应用 中山大学博士学位论文论文题目:基于家系数据的连锁不平衡的统计方法研究与应用专 业:流行病与卫生统计博士生:李彩霞导 师:方积乾 教授论文答辩委员会:答辩委员会成员签名主席:委员: 避妒7q小本课题研究受国家自然科学基金30170523资助基于家系数据的连锁不平衡的统计方法研究与应用论文题目: 基于家系数据的连锁不平衡的统计方法研究与应用专 业: 流行病与卫生统计博士生: 李彩霞指导教师: 方积乾教授摘 要统计分析已经广泛应用在遗传学的众多领域,尤其在复杂疾病的基因定位中,包括连锁定位,连锁不平衡定位。本学位论文讨论了连锁不平衡定位中盼些问题,提出了
2、解决这些问题的基于家系数据的连锁不平衡的统计方法,并把这些方法应用到IgA肾病与原发性高血压ESH的定位中。本学位论文分为五章。第1章 核心家系的紧密连锁位点的单体型频率估计。在对单体型进行重构或进行连锁不平衡分析时,往往首先要估计单体型频率。本文针对家系数据,提出了紧密连锁位点的单体型频率估计方法。利用子代信息减少亲代单体型的不确定性,构建家系数据的似然函数,把家系中的个体潜在的单体型看成缺失数据,采用EM迭代算法,给出家系数据单体型频率的极大似然估计。并通过模拟考察误差。其结果表明,家系数据紧密连锁位点的单体型频率估计可通过简单的递归迭代进行,后一步的单体型的频率估计即为前一步的加权单体型
3、频率。估计误差由两部分组成,一部分为样本频率与总体频率的差别,另一部分为估计频率与样本频率的差别。第2章亲代传递非独立对传递不平衡的对称性检验与边缘齐性检验的影响。对称性检验与边缘齐性检验是传递不平衡检验nT的非参数检验方法。当TDT的零假设成立时,同一家系中父亲的传递与母亲的传递并不一定相互独立。为了探讨父母传递的独立性条件对检验统计量的影响,把父亲的传递与母亲的传递联合进行考虑。利用联合传递的概率分布规律推导检验统计量的分布。我们发现,亲代传递的不独立性并不影响检验统计量在零假设下的统计分布,但影基于象系数据的连锁小平衡柏统计方往研究与应用响它们的检验效能。因此,即使父母传递不独立喇,列称
4、性检验与边缘齐性检验仍然适合检验连锁与连锁不平衡。钊对紧密连锁位点,基于核心家系数据的单体型频率估计,我们重构检验传递不平衡的传递/呆传递的交叉分类表,从m进?步给出单体型传递不平衡的对称性检验与边缘齐性检验。第3章紧密连锁位点的单体型传递的条件logistic回归模型。利用紧密连锁位点,我们探讨了有协变量情形的单体型传递不平衡检验,把协变量的作用引入基因型与单体型的条件相对风险,在相对风险乘积模型下,针对亲代传递概率,j单体型效应以及协变量效应的关系,建立了匹配的受累子代病例与虚拟子代对照的加权条件logistic回归方程。连锁相存在不确定性时,采用EM算法给出了参数的极大似然估计,并给出极
5、大似然估计的方差一协方差用于检测参数估计的标准误。假设检验采用似然比检验方法。第4章患病一未患病同胞的关联分析回归模型。当核心家系中无父母信息时,经典的TDT已不再适用。此时,我们把家系中的受累同胞作为病例,未受累同胞作为匹配的对照,建立非均衡的条件logistic回归模型。更进一步,当受累同胞的发病时问已知时,以家系作为层,建立分层的Cox回归模型。第5章基于核心家系的传递不平衡检验的模拟研究。在这里,我们讨论了传递不平衡检验中如何产生核心家系模拟样本。并在给定样本含量,外显率,连锁不平衡系数,重组率等指标的28个模拟条件下对检验功效进行模拟。在每个模拟条件下,都产生了500份随机模拟样本,
6、用以估计检验功效。对每一份样本,采用条件logistic回归模型,对称性检验与边缘齐性检验方法检验传递不平衡。结果表明,传递不平衡的检验功效与疾病相对风险,样本含量,连锁不平衡程度,连锁程度等因素有关。条件logistic回归模型的功效与边缘齐性检验的功效相近,而对称性检验较不灵敏。当存在人群分层等协变量的影响时,条件logistic同归模型比其他两个方法优越。关键词:连锁,连锁不平衡,传递不平衡,核心家系IJ茎王塞墨塑塑堕堡堂至!堂盟蒸盐互堡堑塑皇堡旦Title:StatisticalMe hodsforLinkageDisequilibriumwithFamilyDataandTheirA
7、pplicationsMajor:EpidemiologyandMedicalStatisticsName:LiCa xiaSupervisor:Prof.FangJiqianABSTRACTStatisticalanalysesareusedxtensivelynmanyfieldsofgenetics,especiallyingenemapping,includinglinkagemappinga dlinkagedisequilibriummapping,forcomplexdiseases.Inthisdissertation,wediscusssomeissuesinlinkaged
8、isequilibriummapping,andproposesomestafisficalmethodsforlinkagedisequilibriummappingwithfamilydatatosolvetheproblems.ThesemethodshavebeenappliedforesearchprojectsonImmunoglobulinAOgA ephropathyandessentialhypertensionESH.Themarefivechapt rsinthisdissertation.ChapterI Hapiotypefrequencyestimationfort
9、ightlylinkedlociusingnuclearf milydata.Haplotypefrequenciesmustbeestimatedfirstwhenhaplotypesarereconstructedorlinkagedisequilibriumistasted.BaRdonnuclearf milydata,haplotypefrequencystimationfortightlylinkedlociwasgiven.Theinformationfromoffspringwasusedtoreducetheuncertaintyofp盯emshaplotype?Thelik
10、elihoodfunctionwasgivenforfamilydata.Theunderlyinghaplotypeswereregardedasmissingdata,andthentheMLEimumlikelihoodestimateofhehaplotypefrequenciesforthefamilydatavianEMalgorithmwasgiven.Theerrorobservedthroughsimulation.Theresultsshowedhaplotypefrequencyfortightlylinkedlocifromfamilydatacouldbeestima
11、tedusingasimpleiterativeprocedure.Thesuccessivehaplotypefrequencyestimationwastheweightedhaplotypefrequencyoftheprecedingstep.Theerrorwasdividedintotwoparts,oneistheIlI基r家系数据的连锁不平衡的统计方法研究与应用differencebetweensamplef quencyandpopulationfrequency,theotheristhedifterencebetweenstimatedfr quencya dsample
12、fr quency.Chapter2 Impactofdependencebetweenparentstransmissiononsymmetrytestandmarginalhomogeneitytestfortransmissiondisequilibrium.rhesymmetrytestandmarginalhomogeneitytestbasedoncontingencytablearelion?parametricm hodsforTDTtransmissiondisequilibriumtest.Thereayexistsdependencebetweenpaternaltran
13、smissionandmaternallransmissionevenwhennullhypothesisinTDTistrue.Toinvestigatetheimpactofsuchdependence,thedistributionsoftesttatisticsba edonthejointdistributionoftheparentstransmissionpaRemwerecomputedrespectively.Wefoundthathedependencebetweentheparentstransmissionshadnoanyeffectonthedistribution
14、ofsymmetrystatisticormarginalhomogeneitystatisticunderthenullhypothesis.Butthedependencehadeffectonthetestspower.Weconcludemathesymmetrytestorhomogeneitytestarealsosuitabletod tectlinkagendlinkagedisequilibriumevenwhenthereisdependencebetweentheparentstransmissions.Basedonhaplotypefrequencystimation
15、w thnuclearf milydata,theransmission/non?transmissioncross-tableinTDTwasreconstructedfortightlylinkedloci.Andthensymmetrytestandhomogeneitytestweregiventodetecthaplotyperansmissiondi qulibrium.Chapter3 Conditionallogisticregressionmodelforhaplotypetransmissionsoft ghtlylinkedloci.Haplotypetransmissi
16、onoft ghtlylinkedlociwasdiscussedincorporatingwi hcovariates.Undermultiplicativeassumption,aweightedconditionall gisticregressionformatchedpair,affectedoffspringcaseandpseudo?offspringcontr01,wasbuiltfortherelationshipbetweentheparentaltransmissionprobabilityandtheffectsofhaplotypeandcovariates.EMal
17、gorithmwasusedtocalculatetheMLEimized?likelihood?estimationofparam terswhenthereareuncertaintieslinkagephase.Thevariance?covarianceoftheMLEwasgiventodetectthestandarderror.Likelihood-ratiotestswe eusedtotestheeffects.Chapter4 Regressionmodelsforassociations udybetweenaffectedanunaffectedsiblings.Whe
18、ntheinformationofparentsarenotavailableinthnuclearTV基于家系数据的连锁不平衡的统训方法研究与应用family,classicalTDTarenolongersuitable.Insuchacase,usingaffectedsiblingsascases,andUnaffectedsiblingsasmatchedcontrols,anunbalancedconditionalregressionmodelwasproposed.Furthermore,astratifiedCoxmodelwasgivenwhentheonsettimeof
19、thecaseswereknowninwhicht efamiliesorsibships,wereregardedasstrata,Chapter5 SimulationstudyforTDTwithnuclearf milydata.Wehavediscussedhowtogeneratesimulatednuclearf milydataforTDT.Under28differentsimulatedcon itionswheretheindexes,includingsamplesize,penetrancerate,linkagedisequilibriumcoefficient,r
20、ecombinationrate,etc,weregiven,thepowerswereestimatedbysimulation.Undereachsimulatedcondition,500replicatedsamplesw regeneratedtoassesstatisticalpower.Foreacheplicatedsample,conditionallogisticregressionmodel,symmetrytestandmarginalhomogeneitytestwereappliedr spectivelytod tecttransmissiondisequilib
21、rium.Theesultsshowedthattherelativeriskofthedisease,sampleize,linkagedisequilibriumandl nkagedegree,etc,hadeffectonthepower.Thepowerofconditionall gisticregressionmodelWaSclosetothatofmarginalhomogeneitytest,whilethesymmetrytestwasnotsensitive.Theconditionall gisticregressionmodelshowedpowersuperior
22、ityovertheothertwotestswhentherew restratifiedfactorscovariates.KeyWords:Linkage,Linkagedisequilibrium,Transmissiondisequilibrium,NuclearfamilyV基于家系数据的连锁不平衡的统计方法研究与应用基于家系数据的连锁不平衡的统计方法研究与应用引言分子遗传学的最新发展给人类复杂遗传疾病的遗传研究提供了机遇。复杂遗传疾病一般由多种遗传与环境因素以及它们的相互作用确定,在人群中比较常见,如糖尿病、肥胖症、骨质疏松症、高血压、心血管疾病等。确定可能影响此类疾病的基因位置
23、对病因研究极为重要。复杂性状疾病具有以下特点:遗传模式尚未确定、群体遗传异质性强、外显率低、多基因参与、单基因作用微弱,同时还受一组环境因素的作用刘天承,2003;赵进英,1999。基因定位的任务是参照某些已明确位置的遗传标记来推测某种表型的易感基因在染色体上的位置,基因定位的统计分析方法效能直接影响到定位和克隆研究的进程。目前人类疾病基因定位的理论策略主要包括以下两种分析方法:基于连锁1inkage的分析方法、基于关联association或连锁不平衡1inkagedisequilibrium,LD的分析方法TerwiltigerJD,2000,Elston,2000;JohnsonGL,2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 家系 数据 连锁 不平衡 统计 方法 研究 应用
链接地址:https://www.31doc.com/p-5050166.html