机器学习大作业机器学习与生物信息学

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习大作业
机器学习与生物信息学
摘要
本文首先介绍了生物信息学的概念、产生的背景、主要的研究方法、研究方向以及机器学习的相关概念。

然后通过比较两者所需解决的问题得到机器学习在解决生物信息学相关问题方面可以得到应用，并结合现实的应用，介绍了机器学习在生物信息学各方面的现实已有应用。

最后对两者关系进行总结，得出两者在未来会相互促进、共同发展。

关键字：生物信息学机器学习
目录
第一章生物信息学的基本概念以及产生背景 (1)
1.1生物信息学的定义 (1)
1.2生物信息学的产生背景 (1)
第二章生物信息学的研究方法及一般步骤 (3)
2.1生物信息学的研究方法 (3)
2.2研究生物信息学的一般步骤 (3)
第三章当前生物信息学的主要研究方向 (4)
3.1序列比对 (4)
3.2蛋白质结构比对和预测 (4)
3.3基因识别非编码区分析研究 (5)
3.4分子进化和比较基因组学 (5)
3.5序列重叠群（Contigs）装配 (6)
3.6遗传密码的起源 (6)
3.7基于结构的药物设计 (6)
3.8生物系统的建模和仿真 (6)
3.9生物信息学技术方法的研究 (7)
3.10生物图像 (7)
3.11其他 (7)
第四章机器学习与生物信息学 (8)
4.1机器学习 (8)
4.2机器学习与生物信息学 (8)
第五章结论 (11)
第一章生物信息学的基本概念以及产生背景
1.1生物信息学的定义
生物信息学时生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科：以核酸、蛋白质等生物大分子数据库作为所要研究的对象，并利用数学、信息学、计算机科学等手段，以计算机硬件、软件和计算机网络为主要工具，对数量极其庞大的原始数据进行存储、管理、注释、加工，使之成为具有明确生物意义的生物信息。

并通过对生物信息的查询、探索、比较、分析，从中获取基因编码、基因调控、核苷酸和蛋白质结构功能及其相互关系等理性知识。

在大量的信息和知识的基础上，探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中的重大问题，搞清它们的基本规律和时空联系，建立“生物学周期表”。

它通过对生物学实验数据的获取、加工、存储、检索和分析，从而达到揭示数据所蕴含的生物学意义的目的。

目前其主要的研究重点为基因组学（Genomics）和蛋白组学（Proteomics）两方面，具体说，是从核酸和蛋白质序列出发，分析序列中表达的结构和功能的生物信息。

目前基因组学的研究出现了几个重心转移：一个是将一直基因序列与功能联系在一起的功能基因组学的研究；一个是从作图为基础的基因分离转向以序列为基础的基因分离；三是从研究疾病的起因装箱探索发病机理；四是从疾病诊断转向疾病易感性研究。

生物芯片的应用将为上述研究提供最基本和必要的信息和依据，将作为基因组学研究的主要技术支撑。

生物信息学的发展为生命科学的进一步突破以及药物研制过程中革命性的改革提供了一个机会。

就人类基因组来说，得到序列仅仅是第一步，后一步工作时所谓后基因组时代（post-genome era）的任务，即收集、整理、检索和分析序列中表达的蛋白质的结构和功能信息，找出规律。

1.2生物信息学的产生背景
生物信息学是建立在分子生物学的基础上的，因此，要了解生物信息学，就必须先对分子生物学的发展有一个简单的了解。

研究生物细胞的生物大分子的结构与功能很早就已经开始，1866年孟德尔从实验上提出了假设：基因是以生物成分存在，1871年Miescher从死的白细胞核中分离出脱氧核糖核酸（DNA），在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前，人们仍然认为染色体蛋白质携带基因，而DNA是一个次要的角色。

1944年Chargaff发现了著名的Chargaff规律，即DNA中鸟嘌呤的量与胞嘧定的量总是相等，腺嘌呤与胸腺嘧啶的量相等。

与此同时，Wilkins与Franklin用X射线衍射技术测定了DNA 纤维的结构。

1953年James Watson和FrancisCrick在Nature杂志上推测出DNA的三维结构（双螺旋）。

DNA以磷酸糖链形成发双股螺旋，脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。

这个模型表明DNA具有自身互补的结构，根据碱基对原则，DNA 中贮存的遗传信息可以精确地进行复制。

他们的理论奠定了分子生物学的基础。

DNA双螺旋模型已经预示出了DNA复制的规则，Kornberg于1956年从大肠杆菌（E.coli）中分离出DNA聚合酶I（DNA polymerase I），能使4种dNTP连接成DNA。

DNA的复制需要一个DNA作为模板。

Meselson与Stahl(1958）用实验方法证明了DNA复制是一种半保留复制。

Crick于1954年提出了遗传信息传递的规律，DNA是合成RNA的模板，RNA又是合成蛋白质的模板，称之为中心法则（Central dogma），这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。

经过Nirenberg和Matthai(1963）的努力研究，编码20氨基酸的遗传密码得到了破译。

限制性内切酶的发现和重组DNA的克隆（clone）奠定了基因工程的技术基础。

正是由于分子生物学的研究对生命科学的发展有巨大的推动作用，生物信息学的出现也就成了一种必然。

2001年2月，人类基因组工程测序的完成，使生物信息学走向了一个高潮。

由于DNA自动测序技术的快速发展，DNA数据库中的核酸序列公共数据量以每天106bp速度增长，生物信息迅速地膨胀成数据的海洋。

毫无疑问，我们正从一个积累数据向解释数据的时代转变，数据量的巨大积累往往蕴含着潜在突破性发现的可能，"生物信息学"正是从这一前提产生的交叉学科。

粗略地说，该领域的核心内容是研究如何通过对DNA序列的统计计算分析，更加深入地理解DNA序列，结构，演化及其与生物功能之间的关系，其研究课题涉及到分子生物学，分子演化及结构生物学，统计学及计算机科学等许多领域。

生物信息学是内涵非常丰富的学科，其核心是基因组信息学，包括基因组信息的获取，处理，存储，分配和解释。

基因组信息学的关键是"读懂"基因组的核苷酸顺序，即全部基因在染色体上的确切位置以及各DNA片段的功能；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行药物设计。

了解基因表达的调控机理也是生物信息学的重要内容，根据生物分子在基因调控中的作用，描述人类疾病的诊断，治疗内在规律。

它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律"，解释生命的遗传语言。

生物信息学已成为整个生命科学发展的重要组成部分，成为生命科学研究的前沿。

第二章生物信息学的研究方法及一般步骤
2.1生物信息学的研究方法
1.建立生物数据库：核酸序列数据库有GenBank,EMBL,DDB等，蛋白质序列数据库有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等，蛋白质片段数据库有PROSITE,BLOCKS, PRINTS等，三维结构数据库有PDB,NDB,BioMagResBank,CCSD等，与蛋白质结构有关的数据库还有SCOP,CATH,FSSP,3D-ALI,DSSP等，与基因组有关的数据库还有ESTdb, OMIM,GDB,GSDB等，文献数据库有Medline,Uncover等。

另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广，分布分散且格式不统一,因此一些生物计算中心将多个数据库整合在一起提供综合服务，如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库，三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具，用户可以进行多个数据库的多种查询。

2.数据库检索：如Blast（Basic Local Alignment Search Tool）、FASTA、SMART、等
3.序列比对：序列对位排列、同源比较、进化分析等；
4.统计模型：如隐马尔科夫模型（hidden Markov model，HMM）--基因识别、药物设计；最大似然模型（maximum likelihood model，ML）、最大简约法（Maximum parsimony，MP )---分子进化分析等；
5.算法：动态规划算法、贝叶斯统计、人工神经网络、遗传算法、蒙特卡洛方法、模拟退火算法、支持向量机等
2.2研究生物信息学的一般步骤
1.确定研究生物学体系。

比如：生物芯片数据分析；蛋白质三级结构与功能。

2.确定研究问题。

已有哪些计算方面的工作？是否需要实验支持？
3构建生物学/数学模型。

例如：ligand结合位点预测，构造特异性识别微点的结构模式和模型。

4.计算方法的选择或开发：HMM，SVM，ANN或新方法。

5.计算结果分析，与同类工具做比较。

构建相应数据库/软件/在线网站等、
6.扩展及应用。

有哪些用处？
第三章当前生物信息学的主要研究方向
生物信息学在短短十几年间，已经形成了多个研究方向，以下简要介绍一些主要的研究重点。

3.1序列比对
序列比对（Sequence Alignment）的基本问题是比较两个或两个以上符号序列的相似性或不相似性。

从生物学的初衷来看，这一问题包含了以下几个意义：从相互重叠的序列片断中重构DNA的完整序列。

在各种试验条件下从探测数据（probe data）中决定物理和基因图存贮，遍历和比较数据库中的DNA序列，比较两个或多个序列的相似性，在数据库中搜索相关序列和子序列，寻找核苷酸（nucleotides）的连续产生模式，找出蛋白质和DNA序列中的信息成分。

序列比对考虑了DNA序列的生物学特性，如序列局部发生的插入，删除（前两种简称为indel）和替代，序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和，对齐的方法包括全局对齐，局部对齐，代沟惩罚等。

两个序列比对常采用动态规划算法，这种算法在序列长度较小时适用，然而对于海量基因序列（如人的DNA序列高达10^9bp），这一方法就不太适用，甚至采用算法复杂性为线性的也难以奏效。

因此，启发式方法的引入势在必然，著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。

3.2蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。

蛋白质的结构与功能是密切相关的，一般认为，具有相似功能的蛋白质结构一般相似。

蛋白质是由氨基酸组成的长链，长度从50到1000~3000AA（Amino Acids），蛋白质具有多种功能，如酶，物质的存贮和运输，信号传递，抗体等等。

氨基酸的序列内在的决定了蛋白质的3维结构。

一般认为，蛋白质有四级不同的结构。

研究蛋白质结构和预测的理由是：医药上可以理解生物的功能，寻找dockingdrugs的目标，农业上获得更好的农作物的基因工程，工业上有利用酶的合成。

直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留，同时也包含了较AA序列更多的信息。

蛋白质3维结构研究的前提假设是
内在的氨基酸序列与3维结构一一对应（不一定全真），物理上可用最小能量来解释。

从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。

同源建模（homology modeling）和指认（Threading）方法属于这一范畴。

同源建模用于寻找具有高度相似性的蛋白质结构（超过30%氨基酸相同），后者则用于比较进化族中不同的蛋白质结构。

然而，蛋白结构预测研究现状还远远不能满足实际需要。

3.3基因识别非编码区分析研究
基因识别的基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置。

非编码区由内含子组成（introns），一般在形成蛋白质后被丢弃，但从实验中，如果去除非编码区，又不能完成基因的复制。

显然，DNA序列作为一种遗传语言，既包含在编码区，又隐含在非编码序列中。

分析非编码区DNA序列目前没有一般性的指导方法。

在人类基因组中，并非所有的序列均被编码，即是某种蛋白质的模板，已完成编码部分仅占人类基因总序列的3~5%，显然，手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子（codon）的频率，一阶和二阶马尔可夫链，ORF（Open Reading Frames），启动子（promoter）识别，HMM（Hidden Markov Model）和GENSCAN，Splice Alignment等等。

3.4分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化，构建进化树。

既可以用DNA序列也可以用其编码的氨基酸序列来做，甚至于可通过相关蛋白质的结构比对来研究分子进化，其前提假定是相似种族在基因上具有相似性。

通过比较可以在基因组层面上发现哪些是不同种族中共同的，哪些是不同的。

早期研究方法常采用外在的因素，如大小，肤色，肢体的数量等等作为进化的依据。

近年来较多模式生物基因组测序任务的完成，人们可从整个基因组的角度来研究分子进化。

在匹配不同种族的基因时，一般须处理三种情况：Orthologous：不同种族，相同功能的基因；Paralogous：相同种族，不同功能的基因；Xenologs：有机体间采用其他方式传递的基因，如被病毒注入的基因。

这一领域常采用的方法是构造进化树，通过基于特征（即DNA序列或蛋白质中的氨基酸的碱基的特定位置）和基于距离（对齐的分数）的方法和一些传统的聚类方法（如UPGMA）来实现。

3.5序列重叠群（Contigs）装配
根据现行的测序技术，每次反应只能测出500或更多一些碱基对的序列，如人类基因的测量就采用了短枪（shortgun）方法，这就要求把大量的较短的序列全体构成了重叠群（Contigs）。

逐步把它们拼接起来形成序列更长的重叠群，直至得到完整序列的过程称为重叠群装配。

从算法层次来看，序列的重叠群是一个NP-完全问题。

3.6遗传密码的起源
通常对遗传密码的研究认为，密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的，并被固定在现代生物的共同祖先里，一直延续至今。

不同于这种"冻结"理论，有人曾分别提出过选择优化，化学和历史等三种学说来解释遗传密码。

随着各种生物基因组测序任务的完成，为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。

3.7基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构，功能，相互作用以及与各种人类疾病之间的关系，寻求各种治疗和预防方法，包括药物治疗。

基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。

为了抑制某些酶或蛋白质的活性，在已知其蛋白质3级结构的基础上，可以利用分子对齐算法，在计算机上设计抑制剂分子，作为候选药物。

这一领域目的是发现新的基因药物，有着巨大的经济效益。

3.8生物系统的建模和仿真
随着大规模实验技术的发展和数据累积，从全局和系统水平研究和分析生物学系统，揭示其发展规律已经成为后基因组时代的另外一个研究热点-系统生物学。

目前来看，其研究内容包括生物系统的模拟（Curr Opin Rheumatol，2007，463-70），系统稳定性分析（Nonlinear Dynamics Psychol Life Sci，2007，413-33），系统鲁棒性分析（Ernst Schering Res Found Workshop，2007，69-88）等方面。

以SBML（Bioinformatics，2007，1297-8）为代表的建模语言在迅速发展之中，以布尔网络（PLoS Comput Biol，2007，e163）、微分方程（Mol Biol Cell，2004，3841-62）、随机过程（Neural Comput，2007，3262-92）、离散动态事件系统等（Bioinformatics，2007，336-43）方法在系统分析中已经得到应用。

很多模型的建立借鉴了电路和其它物理系统建模的方法，很多研究试图从信息流、熵和能量流等宏观分析思想来
解决系统的复杂性问题（Anal Quant Cytol Histol，2007，296-308）。

当然，建立生物系统的理论模型还需要很长时间的努力，现在实验观测数据虽然在海量增加，但是生物系统的模型辨识所需要的数据远远超过了目前数据的产出能力。

例如，对于时间序列的芯片数据，采样点的数量还不足以使用传统的时间序列建模方法，巨大的实验代价是目前系统建模主要困难。

系统描述和建模方法也需要开创性的发展。

3.9生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。

海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。

巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难，需要像非参数统计（BMC Bioinformatics，2007，339）、聚类分析（Qual Life Res，2007，1655-63）等更加灵活的数据分析技术。

高维数据的分析需要偏最小二乘（partial least squares，PLS）等特征空间的压缩技术。

在计算机算法的开发中，需要充分考虑算法的时间和空间复杂度，使用并行计算、网格计算等技术来拓展算法的可实现性。

3.10生物图像
没有血缘关系的人，为什么长得那么像呢？
外貌是像点组成的，像点愈重合两人长得愈像，那两个没有血缘关系的人像点为什么重合？有什么生物学基础？基因是不是相似？
3.11其他
如基因表达谱分析，代谢网络分析；基因芯片设计和蛋白质组学数据分析等，逐渐成为生物信息学中新兴的重要研究领域；在学科方面，由生物信息学衍生的学科包括结构基因组学，功能基因组学，比较基因组学，蛋白质学，药物基因组学，中药基因组学，肿瘤基因组学，分子流行病学和环境基因组学，成为系统生物学的重要研究方法。

从现在的发展不难看出，基因工程已经进入了后基因组时代。

我们也有应对与生物信息学密切相关的如机器学习，和数学中可能存在的误导有一个清楚的认识。

第四章机器学习与生物信息学
4.1机器学习
机器学习是人工智能研究较为年轻的分支。

学习是人类所具有的一种重要的智能行为，但究竟什么是学习，长期以来没有一个明确的定义。

同样对于什么叫机器学习？至今我们仍不能给出一个唯一的定义。

总的来说，机器学习就是通过学习获得经验，并以经验来修正系统的过程。

我们也可给出稍微严格的提法：机器学习是一门研究及其获取新知识和新技能，并识别现有知识的学问，我们这里所说的极其，指的就是电子计算机，但以后可能是种子计算机、光子计算机甚至是神经计算机。

学习是一种复杂的与智能相关的活动，学习的过程是与推理过程紧密联系的。

按照学习中使用推理的多少，其学习策略大体可分为4种：机械学习，通过传授学习，类比学习，通过实例学习。

学习中所用推理越多，系统的能力也就越强。

环境向系统的学习部分提供某些信息，学习部分利用这些信息修改知识库，以增进系统执行部分完成任务的效能，执行部分根据知识库完成任务，同时把获得的信息反馈给学习部分。

在具体的应用中，环境，知识库和执行部分决定了具体的工作内容，学习部分所需要解决的问题完全由上述3部分确定。

这三部分也既是机器学习系统的基本结构。

4.2机器学习与生物信息学
机器学习的观点是设计出一种像人类一样可以学习的机器，在复杂的环境中获得经验并从中获得智慧即从而在现有资料中挖掘出所需的信息。

生物信息学所研究的课题涉及到从高度复杂的生物系统获得的大量数据中找到我们所需要的数据，因此机器学习对于研究生物信息学相关问题是适用的。

生物信息的大规模给数据挖掘提出了新课题和挑战，需要新的思想的加入。

常规的计算机算法仍可以应用于生物数据分析中，但越来越不适用于序列分析问题。

究其原因，是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论。

西蒙曾给出学习的定义：学习是系统的变化，这种变化可使系统做相同工作时更有效。

机器学习的目的是期望能从数据中自动地获得相应的理论，通过采用如推理，模型拟合及从样本中学习，尤其适用于缺乏一般性的理论，"噪声"模式，及大规模数据集.因此，机器学习形成了与常规方
法互补的可行的方法。

机器学习使得利用计算机从海量的生物信息中提取有用知识，发现知识成为可能。

机器学习方法在大样本，多向量的数据分析工作中发挥着日益重要的作用，而目前大量的基因数据库处理需要计算机能自动识别，标注，以避免即耗时又花费巨大的人工处理方法。

早期的科学方法——观测和假设，面对高数据的体积、快速的数据获取率和客观分析的要求，已经不能仅依赖于人的感知来处理了。

因而，生物信息学与机器学习相结合也就成了必然。

机器学习中最基本的理论框架是建立在概率基础上的，从某种意义来说，是统计模型拟合的延续，其目的均为提取有用信息。

机器学习与模式识别和统计推理密切相关，学习方法包括数据聚类，神经网络分类器和非线性回归等等。

同时隐马尔可夫模型也广泛用于预测DNA的基因结构。

目前研究重心包括：1）观测和探索有趣的现象。

目前ML研究的焦点是如何可视化和探索高维向量数据，一般的方法是将其约简至低维空间，如常规的主成分分析（PCA），核主成分分析（KPCA），独立成分分析（Independent component analysis），局部线性嵌套（LocallyLinear embedding）。

2）生成假设和形式化模型来解释现象，大多数聚类方法可看成是拟合向量数据至某种简单分布的混合，在生物信息学中聚类方法已经用于microarray数据分析中，癌症类型分类及其他方向中。

机器学习也用于从基因数据库中获得相应的现象解释。

以下是目前机器学习在生物信息学各方面的具体应用：
1.学习算法在序列比对中的应用：
序列比对时生物信息学基础，基本问题是比较两个和两个以上符号序列的相似性。

目前英语对比分析的主要方法有：Needliman Wunsch动态规划算法、Smith Waterman算法以及Blast，Fasta等相似性比较程序，通过它们可进行进行两序列、多序列、局部序列乃至完整基因组的比较。

2.学习算法在人类基因组研究中的应用：
人类基因组研究的目的是获取人的整套遗传密码，人类有32亿个碱基，要得到全部遗传密码首先要把人的基因组打碎，测完后再重新拼接。

随着人类基因组的研究发展，利用机器学习进行基因识别正被广泛应用，这些方法主要有：神经网络算法、基于规则的方法、决策树和概率推理的等。

此外基于隐马尔科夫模型EM训练算法和Viterbi序列分析算法以及FDR（False Discovery Rate）等方法在这一方面也都有成功的应用。

3.学习算法在蛋白质研究中的应用
对蛋白质进行结构预测需要具体问题具体分析，在不用一直条件下对于不同的蛋白质采。

机器学习大作业 机器学习与生物信息学

机器学习大作业机器学习与生物信息学