全基因组序列拼接研究进展_曾培龙

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2012-06-11

作者简介:曾培龙(1987-),男,河南商丘人,硕士研究生,主要研究方向:生物信息学;

王亚东(1964-),男,辽宁锦州人,硕士,教授,博士生导师,主要研究方向:人工智能、机器学习、知识工程等。

0引言

新一代测序技术正在引领生命科学研究进入一个崭新阶段。人类基因组计划完成之后,获得个体基因组的全部序列对于生物学研究、探索与认识生命的本质具有十分重要的科学意义[1,2]。

新一代测序技术作为目前生命科学研究的基础手段,随着应用领域的迅速扩增与不断深入,对生物信息学提出了必须正视的基础研究课题。而全基因组序列拼接作为生物信息学的核心问题,面临的主要挑战有:

(1)海量的数据(覆盖深度一般为40-200倍,数据量达20-200GB ),

迫切需要海量数据的拼接组装算法;(2)测序数据中的错误,容易导致错拼;

(3)基因组中重复片段大量存在,

由于读取片段reads 长度过短,一般只有几十个碱基,这使得重复序列的处理变得困难。

针对新一代测序数据reads 长度较短、数据海量的特点,全基因组测序方面的数据分析软件的研发,已成为生物信息学领域最迫切、最重要的研究课题。虽然目前已开发有一些全基因组拼接软件,但是基本都局限在大型计算平台上完成数据分析过程,难以满足一般的研究需求,而且数据处理速度仍然远远落后于数据产生速度,已经成为整个基因组图谱绘制工作的瓶颈,并且其拼接结果在准确性方面还有待提高。

1全基因组序列拼接的含义

基因组序列拼接的核心思想是利用序列之间的交叠关

系,通过类似于“搭积木”的方式重建目标基因组序列。其

基本方法是将序列之间的交叠关系转换成计算机可以识别的结构,通过不断迭代扩展的方式延长目标序列,然后利用配对数据,确定各个目标序列的相对方向和位置关系,最终还原目标基因组序列。

基于新一代测序数据的基因组序列拼接,通常分为如下三个阶段:

(1)数据的预处理阶段。该阶段通过特定的方法,移除测序数据中的错误碱基;

(2)基因组连续片段(contigs )生成阶段。该阶段将reads 拼接成contigs ;

(3)超长序列片段(scaffoldings )组装阶段。该阶段使用配对数据,确定contigs 之间的方向和位置关系,生成scaffoldings 。

2全基因组序列拼接的发展动态

新一代测序技术的出现为生命科学重大问题研究提供

新的手段的同时,其海量数据及其长度短、精度相对较低等特点,为生物信息学设置了前所未有的时代挑战。海量reads 数据的处理能力远远落后于测序数据的爆炸性增长速度,测试数据的快速、准确分析已经成为生命科学研究的短板[3]。如图1所示,从2006~2010年积累的新一代短片段数据量远远超过了过去10年所获得的基因组测序数据的总和。

符合SRA 标准的新一代测序数据从2005~2010年的增长情况如图2所示。与图1相比可以看出,数据分析速度远远落后于数据产生速度,尤其是2010年数据的增长更是属于

“爆炸式的”,而这些还只占目前产生的新一代测序数全基因组序列拼接研究进展

(哈尔滨工业大学计算机科学与技术学院,哈尔滨150001)

摘要:全基因组序列拼接是生物信息学研究领域的核心问题。针对新一代测序数据读取片段reads 长度短、

数据海量、精确度低等特点带来的严峻挑战,能够满足实际应用的序列拼接软件的研发,已成为生物信息学领域最为迫切的研究课题。深入探讨全基因组序列拼接的发展动态、所采用的主要策略等方面,总结序列拼接相关理论,并为未来新算法的研发提出具体的改进建议。

关键词:中图分类号:TP391

文献标识码:A

文章编号:2095-2163(2012)04-0004-05

Research Progress of Whole Genome Assembly

ZENG Peilong,WANG Yadong

Abstract :Whole genome assembly is the core issue of bioinformatics.On conditions that next generation sequencing brings bioinfor-

matics an unprecedented challenge due to its data of mass,short length and relatively low precision,development of sequence assembly soft-ware that could meet practical application has become the most important research topic.This paper analyses the development progress and main strategies of whole genome assembly deeply,sums up the relevant theory and provide specific suggestions for future algorithms.

Key words:全基因组序列拼接;生物信息学;新一代测序

Whole Genome Assembly ;Bioinformatics ;Next-Generation Sequencing

(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China )

曾培龙,王亚东

智能计算机与应用

INTELLIGENT COMPUTER AND APPLICATIONS

Vol.2No.4第2卷第4期2012年8月

Aug.2012

相关文档
最新文档