生物信息学的发展历程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学的发展历程
生命科学领域原始研究,尤其是序列数据的快速积累,为发现重大学规律提供了可能。然而,原始数据并不等同于信息和知识,如何通过对海量数据的存储、比较、注释和分析,挖掘出这些数据所蕴含的生物学意义,是生命科学领域中最为关键的问题之一。在这一背景下,早期的生物信息学应运而生。它主要定位为一种技术支撑,其研究内容则主要取决于算法所服务或适用的分析领域,包括基因测序与序列装配、识别与注释、序列相似性比对、结构比对和预测等。一些着名的生物信息学工具和库,如序列分析工具BLAST、基因预测工具GeneScan、序列数据库GenBank等,对生命科学研究产生了深远的影响。
自从20世纪80年代启动人类组测序计划以来,各种高通量技术引起生物的指数增长。2004年,被誉为生命“阿波罗计划”的人类基因组计划宣告完成,自此人们开始了对基因组功能的系统解读,标志着生命科学研究进入“后基因组学”时代。生物学数据的积累不仅表现在序列方面,与其同步的还有的一级结构和高级结构数据、高通量转录表达谱数据和蛋白表达谱数据、表观遗传学数据、相互作用数据、疾病易感性数据和高通量成像数据等。
此外,分子演化和比较基因组学、基于结构的药物设计、生物系统的建模和仿真、代谢网络分析等多个前沿交叉领域均产生了海量数据,分子生物学的研究进入到一个通量化的“组学”时代。Nucleic Acids Researc杂志连续21年在其每年的第一期中详细介绍最新版本的各类生物数据库。根据该杂志的统计,截止到2013年1月,在上述海量数据基础上派生、整理出来的数据库已有1512个。海量生物数据的积累,促成了生物信息学由起初单纯的技术支撑,逐步发展到对生物学问题的系统诠释;从简单地提供数据管理和算法支持,发展为从海量数据出发,通过计算技术对其进行分析、整合、模拟,并在必要时辅以实验验证,最终发现生命科学新规律的新型学科体系。
近年来,新一代测序技术(next generation sequencing,又名深度测序技术)的兴起进一步加速了人们探索未知生命现象的进程,而生物信息学在这一新的时代背景下焕发出新的活力。以HiSeq 2000新一代测序技术平台为例,该平台满负荷运转可实现在一周内完成对四个人类个体的全基因组重测序,而一个人全基因组测序仅需5000美元。在此平台基础上,经过对前期样本处理的适当调整,可实现在全基因组范围内对基因表达的精确定量、对基因结构和可变剪切事件的准确定义、对转录因子和microRNA结合位点的准确鉴定等。
通过巧妙的前期样本处理,这一核酸测序平台甚至可用于解决蛋白表达定量、DNA三级结构等难题,例如,通过巧妙地对核糖体保护的mRNA片断进行测序,核糖体图谱技术可实现在全基因组范围内对蛋白表达的定量,并对蛋白的翻译速度进行估计,很好地补充了现有的蛋白质组学技术。而通过对染色体相邻位置的交联和深度测序,Hi-C等新技术实现了对染色体三维结构的从头重构,对理解长程的表达调控提供了结构基础。这些改进极大地拓展了新一代测序技术在多层次组学调控研究中的应用,而生物信息学则紧随这一进程,逐渐渗透到生命科学的各个研究环节,利用学科交叉优势创新尖端的技术,提出崭新的假设并最终致力于探索生命的新规律。
下面,我们将围绕现代信息学研究生物医学问题的三个重要角度,结合实例,阐述如何运用生物信息学方法研究多层次的整体组学调控、如何运用演化理论解读医学组学信息、以及如何运用生物信息学数据库与在线软件,在整合丰富注释信息的组框架下理解功能与复杂疾病。