4基因组测序与序列组装4.8
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3) 支架(scaffold):一组已锚定在染色体上的重 叠群,内部含间隙或不含间隙。
4) 草图序列(draft sequence):人类基因组测序计 划定义为经Phred Q20软件认可覆盖测序克隆 片段3-4倍的DNA顺序。含间隙或无间隙,排 列方向和位置未定。
5) 精确序列(finished sequence):顺序差错率(错误 碱基数)低于0.01%的DNA序列, 排列方向确定, 内部不含间隙,一般测序覆盖率在8-10个当 量。
4.4 基因组测序的其他路线
4.4.1 重要区域优先测序
人们对感兴趣的基因或与疾病相关的基因优 先测序。 如:人类主要组织相容性复合区位于第6号染 色体,与人类免疫系统有关,因而优先测序。
第三代测序技术(单分子测序,直接测序)
近期出现的Helicos公司的Heliscope单分子测序仪、 Pacific Biosciences公司的SMRT技术和 Oxford Nanopore Technologies 公司正在研究的纳米孔单分 子技术, 被认为是第三代测序技术。 纳米孔:不再基于目前所用测序技术广泛使用的边 合成边测序的思想,而是使用外切酶从ssDNA的末 端逐个切割形成单碱基,被切下来的单个碱基会落 入纳米孔,并和纳米孔内的环糊精相互作用,短暂 地影响流过纳米孔的电流强度,这种电流强度的变 化幅度就成为每种碱基的特征。 利用不同碱基产生的电信号进行测序。
测序结果略高预计结果, 42个物理间隙和98个顺序间隙
4.2.3 序列间隙与物理间隙
测序后将DNA序列进行组装,会发现存在不连续 的区段,它们产生于:
1) 因覆盖率的原因而留下的未能测序的序列, 仍存在于克隆文库中, 这类间隙称为序列间隙。 2) 因克隆载体自身的限制或DNA顺序特殊的组 成等原因造成某些顺序丢失或未能克隆, 这类 间隙称为物理间隙。
技术路线:
将双链DNA样品变为单链 ↓ 每个单链的同一方向末端都用放射性同位素 标记,以便显示DNA条带 ↓ 分别用不同方法处理,获得只差一个核苷酸 的降解DNA群体 ↓ 电泳,读取DNA的核苷酸顺序
化学降解法所用的化学技术
碱基 特异修饰方法
G
A+G
Ph8.0,用硫酸二甲酯对 N7进行甲基化, 使 C8-C9键对碱基裂解有特殊敏感性 pH2.0 哌啶甲酸可使嘌呤环的N原子化, 从而导致脱嘌呤,并因此消弱腺嘌呤和鸟 嘌呤的糖苷键
毛细 管电 泳技 术的 创新
毛细管装置有96个泳道, 每次可同时进行96次测序。
毛细管
Sanger等发明的双脱氧核苷酸末端终止法 和Gilbert等发明的化学降解法,标志着第 一代测序技术的诞生。
4.1.4 其它测序方法
1. 光点测序(焦磷酸测序): 往反应液中每次只加入1种核苷酸,当加入的核 苷酸结合时,反应液发出亮点,记录核苷酸种类。 原理:脱氧三磷酸核苷酸连接到DNA 3’-末端时 会释放1个焦磷酸(PPi) ,焦磷酸在磷酸化酶的作 用下转化为化学能,并发出光亮。 当核苷酸未结合时,反应液中的核苷酸酶迅速分 解此核苷酸,由此来测定DNA序列。
流感嗜血杆菌基因组鸟枪法测序结果预测
1) 流感嗜血杆菌基因组总长: 1.8 Mb 2) 两端测序, 每次有效的可读顺序为460 bp, 每个克 隆为920 bp. 3) 随机挑选质粒载体克隆9600个, 两端测序共获得 测序总长为8.84 x 106, 覆盖面约5, P0=e-5=0.67%. 4) 预计丢失的顺序为Le-m=1.8 Mb x 0.0067=1.25 x 104bp. 5) 空隙长度为: L/n=1.8 Mb /(9600 x 2) (L为基因组 总长, n为测序数)=100 bp. 6) 空隙数为:1.25 x 104bp/100 bp=128
几种不同生物基因组的测序
1) 2) 3) 4) 4) 5) 大肠杆菌基因组测序----作图法 流感嗜血杆菌基因组测序---鸟枪法 果蝇基因组测序---鸟枪法 人类基因组测序---作图法和鸟枪法 拟南芥基因组测序—作图法 水稻基因组测序---作图法和鸟枪法
大肠杆菌基因组测序
流感 嗜血 杆菌 基因 组鸟 枪法 测序 流程
《高通量测序方法日渐成熟》
4.2 基因组测序的策略
1. 作图测序 (克隆依次测序,限制测序) 2. 全基因组随机测序 (全基因组鸟枪法测序,随机测序)
4.2.2 基因组测序的覆盖面
测序覆盖率计算, P定义为丢失的概率. P0=e-m, m为覆盖面, 即当量数 若m=1 P0=e-1=0.37 若m=5 P0=e-5=0.0067=0.67% 若m=10 P0=e-10=0.000045=0.0045% 要使测序的覆盖率达到99.99%,就必须使覆盖 面达到8次以上。
测序技术展望
非光学显微镜成像:确定 DNA 序列的最直接方法之一 就是将核苷酸的空间线性排 列方式可视化。如果一个 DNA 链的图片具有足够高的 分辨率, 可以将DNA 链上 的4 种碱基区分开来, 那么 序列将非常容易地被读出。 这正是目前显微镜领域科研 人员所努力实现的。
《DNA测序技术发展及其展望》 《下一代测序技术: 技术回顾与展望》
链 终 止 法 测 序
DNA
4个泳道显 示了4种碱 基的终止位 置,彼此间 隔为一个碱 基。序列读 取由下至上。
链终止法对DNA聚合酶的要求
目前普遍采用的测序酶为Sequenase, 来自T7噬菌体
链终止法测序要求单链作为模板
制备单链DNA的方法有以下几种:
1. 将DNA克隆到质粒载体中。
4.3.1 作图 法测 序与 序列 组装
Baidu Nhomakorabea
支架组装
利用 长度 不同 插入 子克 隆两 端测 序搭 建支 架
果蝇基因组测序---染色体组成
果蝇基因组测序---主要结果
1) 方法: 鸟枪法(第一个完全采取鸟枪法完成基因组测序的真核生物) 2) 测序
载体 插入子(kb) 测序次数 可读长度(bp) 覆盖面 ----------------------------------------------------------------------------------
肼可打开嘧啶环,后者重新环化成五元环 后易除去 1.5mol/L NaCl存在时,可用肼除去胞嘧啶
C+T C
以尿苷酸G反应为例
化学降解测序法不需要进 行酶催化反应,因此不会 产生由于酶催化反应而带 来的误差;对未经克隆的 DNA片段可以直接测序。
4.1.3 自动化测序
荧光染料标记物的发明:
使链终止法用于自动化测序,用不同的荧光 色彩标记ddNTP,如ddATP标记红色荧光, ddCTP标记蓝色荧光,ddGTP标记黄色荧光, ddTTP标记绿色荧光。由于每种ddNTP带有 各自特定的荧光颜色,而简化为由1个泳道同 时判读4种碱基。
用于测序的流感嗜血杆菌基因组文库
构建了两套基因组文库: 1) 1.6-2 kb大小插入子基因组文库。2 kb大小插
入子可减少扩增时的变异率。 此外2 kb大小 降低了克隆片段含有完整基因的可能性,有 些完整基因的表达产物对宿主菌是有害的。 2) 15-20 kb大小插入子文库,用于支架搭建。 上述两套基因组文库的克隆测序均为两端测序。
玉米基因组甲基化过滤测序法
1) 大肠杆菌McriA和McriB系统可以破坏入侵的含有 胞嘧啶甲基化的外源DNA,动物和植物DNA对这一 系统也很敏感。 2) 用甲基化敏感的限制酶切割玉米基因组DNA,将 克隆载体转化大肠杆菌McriA和McriB系统菌系, 凡是含有胞嘧啶甲基化的克隆均被淘汰。 3) 采用甲基化过滤法可将玉米基因组中93%的甲基 化序列除去。
序列间隙缝合
物 理 间 隙 缝 合
4.3 基因组序列组装的概念定义
1) BAC末端序列(BAC-end sequenced) :一个 BAC克隆插入片段两端的已测序的序列,不包括 内部序列。可用于确定BAC的排列方向以及重叠 群(contig)在支架(scaffold)中的排列方向。
2) 重叠群(contig) :一群相互重叠的克隆或DNA 序列,可以是草图序列或精确序列, 包括连续 的(内部无间隙)或不连续的(内部含间隙)DNA 序列。
玉米基因组如何测序
1) 玉米基因组大小为2500 Mb(2.5 x 109),约85%的序列是重复序 列,由逆转座子组成。 2) 虽然利用EST可从基因组中抽提 出基因组序列,但因表达丰度过 低或组织专一性表达的原因, ESTs库会丢失50%的基因成员。 3) 绝大多数逆转座子和非基因编码 区都被甲基化,而95%的基因未 甲基化。 因此采用大肠杆菌 McriA和McriB系统构建玉米基 因组文库,用以富集基因序列。 引自:Science 302:2115-217,2003
2. 以M13载体克隆单链DNA。
3. 以噬粒载体克隆DNA。
4. PCR产生单链DNA。
PCR产生单链DNA
引物的序列决定了DNA测序的起点
不同类型的引物用于链终止法测序
4.1.2 化学降解法
(Maxam-Gilbert)
链终止法测序的一个局限: 链内碱基配对能干扰链终止 法测序。 化学降解法:将一个DNA片 段的一端作放射性标记,再 分别采用不同的化学方法修 饰和裂解特定碱基,从而产 生一系列长度不一片段,这 片段群通过凝胶电泳分离, 确定各片段末端碱基。
第4章 基因组测序与序列组装
学习要点:
1) 基因组测序的方法
2) 序列组装的程序与方法
4.1 DNA测序的方法
DNA测序有几种方法,但到目前为止最常用的
是20世纪70年代中期发明的链终止法(Sanger
法)
Sanger is the only chemist to have received two Nobel Prizes in Chemistry, the first as the sole recipient in 1958 for his work on insulin, and the second in 1980, shared with Paul Berg and Walter Gilbert, for the sequencing of nucleic acids.
质粒(高拷贝) 2.0 1 903 468 570 7.3 x 质粒(低拷贝) 10.0 1 278 386 567 5.4 x BAC 130.0 19 738 500 0.07 x -----------------------------------------------------------------------------------注: 测序总长1.2 x 1010, 组装后草图为116.2 Mb. 3) 果蝇基因组总长180 Mb, 草图顺序占其2/3. 其余顺序为异染色质区, 约60 Mb. 因异染色质区重复顺序大多, 不能有效克隆或组装. 4) 果蝇基因组草图仍有1000个间隙. 5) 草图序列包含97.5%基因.
链终止法:合成与单链DNA互补的多核苷酸
链,由于合成的互补链可在不同位置随机终止
反应,产生只差一个核苷酸的DNA分子,从而 来读取待测DNA分子的顺序。
技术路线:
制备单链模板 ↓ 将单链模板与一小段引物退火 ↓ 加入DNA聚合酶 4种脱氧核苷酸
分别加入少量4种双脱氧核苷酸 ↓ 将4种反应产物分别在4条泳道电泳 ↓ 根据4个碱基在4条泳道的终止位置读出基因序列
只需要精确 的向反应混 合物中重复 的连续加入 核苷酸,就 可以很容易 的自动进行 测序。
进入21世纪后,以Roche 454、Illumina Solexa和ABI SOLiD为代表的第二代测序技术诞生了,并迅速掀起了你 追我赶的技术比拼高潮。 第二代测序技术——循环阵列合成测序法
第二代测序技术采用了高通量测序技术,使测序 通量大大提高,从Sanger测序法一次读取一条序 列到毛细管测序的一次读取96条序列再到现在的 一次读取几百万条序列的实现,不得不说这是对 第一代测序技术的一次革命性的变革。 然而第二代测序技术并不完美,由于其在测序前 要通过PCR手段对待测片段进行扩增,因此增加 了测序的错误率。并且其测序结果比较短,更适 合重测序,而不太适用于没有基因组序列的全新 测序。