酶识别支持向量机特征提取自检法留一法硕士论文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于特征提取的酶识别问题研究
【关键词】酶识别; 支持向量机; 特征提取; 自检法; 留一法;
【英文关键词】enzyme identification; support vector machine; feature selection; self-consistency test; leave-one-out test;
【中文摘要】在生物信息学中,将酶从蛋白质识别出来一直是对酶进行进一步研究的一个前提。

其研究方法都是将已知的酶作为研究对象,找出一种对已知酶进行准确识别的方法,然后推广到对未知酶识别的应用中。

传统的酶识别方法多是采用序列比对的方法,虽然后人对这种方法有不断地改进,但是仍需要较大的存储空间与比对时间。

近些年,机器学习的方法也开始的应用到这个领域中。

支持向量机(Support V ector Machine, SVM)——一种基于统计学理论的机器学习方法,借助自己的无局部最小点和防止过适应等优点,迅速成为研究的热点并且在酶识别领域表现出不错的效果。

为了得到好的机器学习效果,机器学习需要研究者根据实际问题的不同提出一套完整的机器学习方案。

本文以支持向量机为基础,采用了一种基于特征提取的机器学习方案,通过选取合适数量的特征作为训练数据形成分类精度最高的酶识别器。

之所以选用特征提取的方法主要是因为:在实验中,蛋白质的功能域被看做它的特征,并不是所有的功能域都对形成准确的分类器起到好的作用,并且我们推测这些功能域特征中存在噪声,因此应该剔除其中一些起到反作用的特征。

基于以上的原因,文中选用了1-rule法和信息增益法两种...
【英文摘要】In bioinformatics, identifying enzymes from proteins is a prerequisite for further research in enzymes. Its method of research is that
taking known enzymes as research object and finding a method could identify enzymes with high accuracy, then applying in identifying unknown enzymes. The traditional method used in enzymes identification is alignment. Although many scientists do lots of work to improve alignment, the method still needs big storage space and computing time. In recent years, machine learning h...
摘要5-6
Abstract 6
第1章绪论9-14
1.1 研究的背景、目的及意义9-10
1.2 国内外研究现状及评价10-12
1.3 本文的内容和章节安排12-13
1.4 本文的创新点13-14
第2章基础理论14-24
2.1 支持向量机的理论知识14-17
2.1.1 线性可分14-16
2.1.2 线性不可分16-17
2.2 特征提取的原因17-18
2.2.1 什么是特征17
2.2.2 原因17-18
2.3 几种特征提取方法18-24
2.3.1 1-rule 18-20
2.3.2 信息增益法20-24
第3章实验步骤24-32
3.1 实验数据24-25
3.1.1 蛋白质酶的获取24
3.1.2 非酶蛋白质的获取24-25
3.2 实验数据的筛选25
3.3 基于功能结构域组成的蛋白质数字化表示25-27
3.3.1 Pfam 数据库25-26
3.3.2 数字化表示26-27
3.4 特征信息计算27-28
3.4.1 1-rule 法特征信息计算27-28
3.4.2 信息增益法特征信息计算28
3.5 学习机的选择28-29
3.6 训练数据的选择与测试29-31
3.7 实验过程流程图31-32
第4章实验结果分析32-39
4.1 误差率32
4.2 自检法32-33
4.3 留一法33
4.4 实验结果33-36
4.4.1 1-rule 法实验结果33-35
4.4.2 信息增益法实验结果35-36
4.5 实验结果分析36-39
4.5.1 对比对象36-37
4.5.2 分析37-39
第5章总结与研究展望39-41
5.1 总结39
5.2 存在的问题39
5.3 展望39-41
参考文献。

相关文档
最新文档