硕士毕业论文蛋白质生物功能的机器学习方法研究37075.doc
《硕士毕业论文蛋白质生物功能的机器学习方法研究37075.doc》由会员分享,可在线阅读,更多相关《硕士毕业论文蛋白质生物功能的机器学习方法研究37075.doc(74页珍藏版)》请在三一文库上搜索。
1、上海大学硕士学位论文 2010年5月中图分类号: 单位代号:10280密 级: 学 号:07720172 硕士学位论文SHANGHAI UNIVERSITYMASTER DISSERTATION题目蛋白质生物功能的机器学习方法研究作 者 朱昱倍学科专业 物理化学导 师 陆文聪 教授完成日期 二零壹零年五月66A Dissertation Submitted to Shanghai University for the Masters Degree in ScienceUsing Machine Learning MethodsIn Invesigation of Proteins Biolog
2、ical FunctionsM. D. Candidate:Zhu YubeiSupervisor:Prof. Lu WencongMajor:Physical ChemistryScience College, Shanghai UniversityMay, 2010摘要近些年来,随着信息技术和生物检测手段的不断发展,生命科学的数据资源急剧膨胀。实验工作者在产生大量数据的同时,也对理论研究者提出了更多的难题。利用机器学习这一方法来分析这些数据,我们可以从中找出隐含的规律和模式,从而进一步加深对事物的认识。本文就是采取这一研究方法,对蛋白质的生物功能进行建模和预报。 在本文的工作中,我们使用了
3、机器学习方法来对蛋白质和小分子的相互作用、蛋白质糖基化位点的识别进行建模和预报。另外我们还探讨了一系蛋白质列生物功能在线预报系统的建设和优化。本文的主体工作分为三个部分:1. 用集成学习算法对蛋白质和小分子的相互作用进行研究。我们针对代谢途径下的酶和底物之间的相关作用,建立了相互作用预报模型。通过对数据集的变量筛选和降维的评价,我们保留了原有的变量集合。在后续的建模过程中分别用AdaBoost,Bagging, SVM, KNN, 决策树对酶和底物进行建模。10组交叉验证和独力测试集的结构显示,集成学习方法AdaBoost,Bagging的分类能力最好,都达到了71%以上。而我们接着又把不同的
4、分类器组合集成后发现,前2个性能最好的集成学习算法和KNN组合后的体系具有最好的推广能力,其独立测试集中正样本的正确率又在原先最好的结果下提高了近4%,而其总体正确率也达到了84.6%。结果证明,多重集成学习算法可以用来研究蛋白质和小分子相互作用,所得到的模型有很好的预测性能。此外,我们根据所建立的酶和底物相互作用的预测模型,同时开发了相应的在线预报系统。 2. 用CFS-Wrapper筛选变量法结合AdaBoost集成方法对蛋白质O端糖基化位点进行研究。在许多的生化过程中都需要有O-端糖链的参与。然而糖基化是一个复杂的过程,迄今为止还未得出一个固定的模式。我们对收集到的糖基化和非糖基化肽段,
5、 并用肽段中残基的物化参数,以AAIndex库中的数据进行表征。分别尝试了CFS方法以及PCA主成分变换进行变量筛选。在进行初步的变量筛选后,分别用SVM、KNN、C4.5、AdaBoost、Bagging对不同的变量筛选方法进行多组交叉验证和独立测试集的评价。接着确定以AdaBoost建模和CFS变量筛选结果为基础,做进一步的Wrapper筛选。最终筛选出23个变量的子集。其十组交叉验证正确率在88.1%、独立测试集正确率在87.5%。根据该模型,我们开发了蛋白质糖基化点位的在线预报系统。3. 利用Java网页技术、weka软件、第三方开发包等工具开发出了一系列蛋白质生物功能在线预报系统。我
6、们分别从设计原理,实现方法以及优化手段等提出了自己的看法和见解。这些在线预报系统涉及到亚细胞定位、翻译后修饰、蛋白质相互作用、酶和底物作用等方面的内容。其中采取MVC的设计模式简化了构建在线预报服务的实现工作,提高了工作效率。并且在诸如weka、httpclient、多线程等技术的使用下使我们的预报系统具有更好的用户体验。关键词:蛋白质生物功能、机器学习,集成学习,组合分类器,酶和底物,O端糖基化,AdaBoost, CFS,在线预报服务器AbstractIn recent years, data resources of biology are growing rapidly for the
7、 developments in IT and detection technology. When the experimental scientists get their research data, they also create many problems to the theoretical scientists. Using machine learning methods to explore and process the data, we can reveal the rules and patterns behind the data and obtain furthe
8、r understandings of the research objects. So, we used the machine learning methods to model and predict some biological functions of proteins. In our thesis, several machine learning algorithms were used for the prediction of interaction between proteins small molecules and the O-glycosylation sites
9、 of proteins. Also we built a series of online prediction services of proteins biological functions and discussed the way of construction and optimization of these services. The main work of this thesis contains three parts:1. Ensemble learning methods were used to investigate the interaction betwee
10、n proteins and small molecules. The prediction model was built by the interactions in metabolic pathways. By comparing with the results of feature selection, we keep the original data sets. In the further process, AdaBoost, Bagging, SVM, KNN, Decision tree were used to model the interactions between
11、 enzymes and compounds. According to the evaluation result of 10 cross validation and independent test, ensemble methods, AdaBoost and Bagging outperform other classifiers. Then the combination systems of multiple classifiers were taken to model the data. The results of 10-cv and independent test co
12、nclude that the combination of 2 good ensemble classifiers and KNN shows the best generalization ability. The true prediction rate in independent test was 75.5%,almost 4% better than previous 2 ensemble classifier. While the overall prediction rate still as high as 84.6%. It could be concluded the m
13、ultiple ensemble system is a good model on predicting the interaction between small molecules and enzymes. An online prediction service of our model based on this research has been built and available to public.2. Correlation-based feature subset (CfsSubset) selection and wrapper methods with AdaBoo
14、st were applied to study the site of O-glycosylation in proteins. The O-glycosylation involve in many biological processes. However, the mechanism of O-glycosylation is so hard to recognize that the patterns of O-glycosylation are still unsure. Here some peptides contain O-glycosylation sites or non
15、O-glycosylation sites were collected and encoded with the physchemical parameters in AAIndex databases. CFS and PCA were used in the feature selection. After the first step feature selection, SVM、KNN、C4.5、AdaBoost、Bagging were used to evaluate the subsets with 10-cv and independent test set. Then t
16、he wrapper selection with AdaBoost was conducted on the subset from CFS. As a result, twenty-three biochemistry features were found based on jackknife test. The prediction model obtains accuracy rate of 88.1% for jackknife test and 87.5% for independent set test.3. By using Java web technology、weka
17、and third party develop package, a series of online prediction service were built to predict the biological functions of proteins. Design theory, implement methods and optimization ideas were disscused here. These online services deal with subcell location, PTM, protein interaction, interaction betw
18、een enzyme and small molecule. The MVC pattern is used in building the online server which makes our work clear and efficient. The use of weak, httpclient, multithread ensure the better user experiences of our services.Keywords: biological function of protein, machine learning, ensemble learning, co
19、mbining classifiers, enzyme and compound, O-glycosylation, AdaBoost, CFS , online prediction service目录摘要VAbstractVII目录IX第一章绪论11.1机器学习方法概述11.2蛋白质的生物学基础21.3机器学习在蛋白质生物功能注释中的应用31.3.1表征手段31.3.2算法应用41.4生物在线Web预报系统简介51.5论文的主要内容6第二章机器学习算法原理72.1基本学习算法72.1.1人工神经网络算法72.1.2SVM算法72.1.3决策树分类算法82.1.4最近邻算法92.2集成学习算
20、法102.2.1投票算法Voting102.2.2AdaBoost算法102.2.3Bagging算法122.3变量压缩 / 筛选算法132.3.1主成分变换132.3.2CFS算法142.4本章小结15第三章蛋白质-小分子相互作用预报的集成学习研究163.1引言163.2数据来源与表征163.2.1数据来源163.2.2数据表征173.3结果与讨论213.3.1试验方法的选择213.3.2变量筛选结果223.3.3建模与分析233.4本章小结28第四章 蛋白质糖基化位点预报的数据挖掘研究304.1引言304.2数据来源与表征314.2.1数据来源314.2.2数据表征314.3结果与讨论33
21、4.3.1试验方法的选择334.3.2初步变量筛选334.3.3Wrapper变量筛选354.3.4建模与分析354.4本章小结39第五章 蛋白质生物功能在线Web预报系统的建设405.1引言405.2在线Web预报系统设计架构与原理415.2.1在线预报系统设计架构415.2.2在线预报系统设计原理435.3在线预报服务器的实现以及优化445.3.1蛋白质间相互作用分类在线预报系统445.3.2蛋白质翻译后修饰sumo位点的在线预报系统465.3.3蛋白质和小分子相互作用的在线预报系统485.4本章小结50第六章 总结与展望526.1全文总结526.2工作展望53参考文献54作者在攻读硕士学
22、位期间公开发表的论文和专利61致谢62第一章绪论1.1机器学习方法概述机器学习是人工智能领域中与算法相关的一个子领域,其研究主旨是使用计算机模拟人类的学习活动,也就是说如何使机器不断地进行学习,当然,这里的学习是指从数据中学习1。这就相当于将一组数据传递给算法,然后去由这些算法预报出和这些数据相关的一些属性和信息。其重点在于对未知的数据进行预报。机器学习之所有这种作用,是因为在同一主题的大量数据中一般都含有某些模式,通过对数据的学习,可以对这些隐含的模式进行归纳和整理,以此得到一个模型。而做出预报的就是这个学习后的模型2。在机器学习领域中有许多不同的算法,从宏观上可以把这些算法分成有人监督学习
23、无人监督学习、半监督学习等。应该说所有算法都各有千秋、各有所长,并适应于不用的问题,有些算法直观明了,比如决策树。而有的算法比如人工神经网络其学习过程则是一个黑箱。应该说机器学习仍然是一门高速发展的学科,我们也要看到其缺点和限制。大部分的方法受限在大规模样本的学习情况,而对于小样本数据集的学习可能会产生错误的学习和理解。然而在进行大规模数据处理的时候控制计算复杂度、缺失值的处理和分析、非均衡样本的分类界限等课题都迫切地需要有效地解决。对于机器学习这一迷人的方法,我们应抱着辩证的角度去看。机器学习的结果更应该被视作为一种获取新信息、新知识的途径。从模型中我们提取有益的信息并利用之。对于机器学习
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 硕士 毕业论文 蛋白质 生物 功能 机器 学习方法 研究 37075
