基因组序列拼接

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.转化为Euler Path问题
EULER是这类算法的代表。与传统方 法沿着“Overlap—Layout—Consensus” 路线不同,它不计算各个read之间的 Overlap,即没有Overlap步骤。
它的大致想法如下: 为了排除read中的错误,获得ErrorFree的read,将所有的read切割成小片nmers。
拼接算法评价
以上拼接问题的四个难点不仅极大的增 加了解决实际拼接问题的难度,而且从某种 程度上说无法完整地恢复出原始DNA序列来。 即实际上仅能构建出若干个contig(重建的 fragments的一种排列形式,它覆盖基因组 上一段连续区域)这些contig将指导测序项目 finishing阶段的实验方法最终构建DNA完整 序列。
基因组序列拼接
序列拼接
序列拼接任务即将测序生成的reads短 片段拼接起来,恢复出原始的序列。该问 题是序列分析的最基本任务,是基因组研 究成功与失败的关键,拼接结果直接影响 到序列标注,基因预测、基因组比较等后 续任务。 基因组序列的拼接也是基因组研究必须 解决的首要难题。其困难不仅来自它的海 量数据(以人类基因组序列为例,从数量为 10兆级的片断恢复出长度为亿级的原始序 列),而且源于它含有高度重复的序列。
他们都是遵循“overlap-layoutconsensus”的框架。首先,为了构建图。计 算任意两个read间可能的比对情况。其次, 通过去除歧义的或者不确信的边得到较为准 确的图,并在其上寻找非交叉的简单路的集 合,该集合对应于contig的集合。最终,通过 对包含在一个简单路上的所有read进行多序 列比对,为每一个contig构建一个一致性序列 (consensus sequence)。
1.转化为Hamilton Path问题
每个DNA片段(read)相当于图中一个结 点,如果两个片段之间存在着重叠(overlap) 关系,则在两个结点之间定义一条边,而沿 着DNA原始序列从头到尾,则必然经过每个 结点一次且仅一次,即是一条Hamilton路径。 一条contig表示图中一条简单路,此类算法 以Phrap,百度文库IGR Assembler,CAP3, GigAssemble等为代表。
3.序列所在链不确定 由于测序过程中无法确定特定片断属于DNA 双链中的哪一条链上,所以我们在拼接过程中并 不清楚使用的是read的正义链,还是其互补链。
4.重复序列的干扰 DNA序列自身含有高度重复的子序列,它们 一种表现为短序列的串级重复,比如:(GGAA)n。 或AmTn等。另一种表现为大量相似序列(其拷贝数 可达几十万)散布在基因组的各个地方。Repeat 的存在,将导致fragments间overlap的不真实性, 进而产生错拼的结果。因此在拼接过程中耍确定 这些序列的形式及大小,才能保证以高概率恢复 出其在原始真实序列中的位置.
现有算法的主要问题
虽然已经开发了以上的算法,基因组 序列拼接问题尚未彻底解决,以上两类算 法都存在着各自的缺陷。
对于第一类算法来说,实际上是在图中寻找 一条使得评价函数值最优的Hamilton路径,这是 一个NP完全问题。 一般都采用greedy-merging的算法近似求解。 由于这种step-by-step的局部贪心算法,其明显 的局部特性忽略了reads间“长距离”或者整体 性的联系,从而导致了拼接错误,即拼接结果和 真实的DNA原始序列不同。最近研究指出,在对 已知序列的流行性感冒嗜血杆菌基因组的拼接过 程中,无论是Phrap,TIGR Assembler,还是 CAP3,都发生了拼接错误的现象。
将每个read和Gk的近似进行比对,寻 求read的最小改变能够使得read的所有nmers包含在Gk的近似集合中。从而构建了 高质量序列,而对于Poor read,直接抛弃, 对Chimeric read(两端在n-mers中但整体不 在的reads)进行特殊处理。
初始的想法是要实现去除reads中的 测序错误的目的,如果知道原始序列G, 那么直接使用测序获得的read和G进行比 较即可。 但是实际上G并不可知,那么退而求 其次, G的序列片断Gk亦可,事实上Gk亦 不可知。所以将所有的read切割成小片nmers,所有Solid的n-mers形成的集合称 为Gk的近似。最后,构造De Bruijn图。
2.不完全覆盖性 不是所有的碱基被测序的次数都等于 平均测序覆盖度。极端的情况,可能会出 现源基因组序列上部分区域未被测序的情 况(这段区域称为gap)。即,测序的reads 集合不是原始基因组序列一个完整覆盖。 此时需要借助于各种图谱如:基因组指纹 图谱(genome fingerprint map), 基因组级 物理图谱(genome-wide physical map),细 胞发生图谱(cytogenetic maps)等协助对 reads进行定位.
拼接问题的难点
DNA测序数据有其固有的四个的特点, 他们也正是解决实际的序列拼接问题的难点 所在: 1.测序有误差 2.不完全覆盖性 3.序列所在链不确定 4.重复序列的干扰
1.测序有误差
由于测序技术的局限,难免会出现测序 错误,尤其是在序列的末端,一般错误率 可控制在1%以下。所以对每个碱基一般有 一个正确概率,以质量打分的形式给出。 因此每个ri都有个可信度。而read与read之 间有不同程度的重叠,由此导致有的重叠 可信度高,有的重叠可信度低。
目前,国际上对拼接软件的公认评价 标准包括两方面,即重建出的contig的数目 和准确度。我们发展的基因组序列拼接新 算法的目标是在确保准确性的前提下,构 建尽量少的contig,以减少测序后期大量的 人力和财力的投入。
基因组序列拼接算法研究现状
现在最常用的拼接程序使用的拼接算 法可分成两类,一类是将拼接问题转化为 在图中寻找的Hamilton路径的问题;另一 类是将拼接问题在某种特殊情况下转化成 寻求图中的Euler路径的问题。他们均有其 成功的典型算法。
相关文档
最新文档