高通量测序生物信息学分析(内部极品资料,初学者必看)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图 3 Mate pair 文库构建方法
3.基因组 De Novo 测序的策略?
由于不同物种的基因组大小和复杂程度可能千差万别, 因此全基因组测序可以根据经费预 算和基因组预分析结果, 灵活选择不同的测序平台或平台组合。
(1) 在基因组较小的物种测序计划中可以选择 Roche 454 或 Solexa 测序平台。 (2) 对于复杂的植物大基因组可以选择两种或以上的测序平台测序,通常利用 Roche 454 的鸟枪法测序完成基因组的初步组装, 产生 454 contigs, 然后利用 Solexa 或 ABI SOLiD 的 双末端测序数据确定 454 contigs 之间的顺序和方向, 形成 scaffolds。最后利用 Solexa 或 ABI SOLiD 数据填充部分 contigs 之间的空隙, 是一个比较合理和经济的测序策略。 (3) 另外,由于 Solexa 的读长已经升级到 150 bp,也可以直接利用 Solexa 的 paired-end 和 mate-pair 两种测序方式结合测序,完成较大物种的基因组拼接。 4.制定测序策略前,如何估算新物种的重复序列结构?
重复片段分布不一样,举例说明,人基因组中长的重复片段较多、果蝇基因组中短的重复片段较 多。要跨越片段长度较长重复序列,必须选取更大的插入片段双端测序文库, 但是长的插入片 段文库的偏差较大,不能准确的定位较短重复序列的问题,因此,一般长插入片段和短的插入片 段的文库都是需要。但是,插入片段越长,割胶回收时片段的分布越广。2k 的插入片段至少有 1%的偏差,即 200bp 的偏差。如下图所示,短插入片段文库基本符合预期,但是长插入片段文
图 1 测序量与测序覆盖度的关系
图 2 覆盖度与 contig N50 值的关系 7 哪些因素会影响测序结果的质量?
-5-
(1)个体的杂合度:个体的杂合度越高,拼接难度越大,甚至可能导致序列无法拼接。 (2)物种基因组的多态性:由于一些物种的个体太小,单个个体提取的基因组 DNA 的量可能 难以满足测序的要求(如一些寄生虫),如此便需要混合多个个体进行基因组 DNA 抽提以用于测 序。对于这类情况,需要评估该物种基因组的多态性,如果基因组的多态性太高,会影响后续基 因组的拼接。 (3)DNA 样本的质量:对于细菌与真菌而言,样品来源一定要单一菌落无污染,动植物样本 也要尽量纯合,且无污染,否则会严重影响测序结果的质量。另外制备基因组不能小于 23Kb, 如果片段过小,在基因组片段化(Fragment)的过程中容易造成小片段丢失,导致构建的测序文库 不能完整的覆盖全基因组,对测序结果产生重大的影响。 (4)另外如果基因组的某些区域的 GC 含量过高(GC%≥65%)会使测序过程中出现偏向性,导 致某些区域的覆盖率太低,从而影响后续的拼接和注释。 (5)对于重复序列过多的物种,大量重复序列的存在会产生许多错误的重叠,造成拼接产生 的 contigs 过短,从而导致结果的严重偏差。
单端测序(Single-read)首先将 DNA 样本进行片段化处理形成 200-500bp 的片段,引物序列 连接到 DNA 片段的一端,然后末端加上接头,将片段固定在 flow cell 上生成 DNA 簇,上机测 序单端读取序列(图 1)。
Paired-end 方法是指在构建待测 DNA 文库时在两端的接头上都加上测序引物结合位点, 在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互 补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图 2)。
9.如何检验基因组组装的准确性?
组装的准确度对于新物种基因组组装是至关重要的,一般有下面几种方法来检验组装的准确度: (1) 构建 BAC 或 Fosmid 文库,并用 Sanger 法测序得到序列,将 BAC 序列与所拼接出来
的 contigs 做比对来查看基因组组装的准确率。如,熊猫基因组拼接后,构建了 9 条 BACs,每 条 BAC 都 map 到唯一的一条 scafflold 上,而 98%的 BAC 都和拼接好的 contigs 很好的比对上。
8.全基因组 De Novo 测序的拼接标准怎样?
全基因组 De Novo 测序拼接国际标准:
基因框架图
基因组精细图
基因组覆盖率>90%
基因组覆盖率>95%
基因区覆盖率>95%
基因区覆盖率>98%
Contig N50 >5kb
Contig N50 >20kb
Scaffold N50 >20kb
Scaffold N50 >300kb
进行深度测序,完成基因组拼接。 采用 De Novo 测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部
的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及 进行比较基因组学研究,为后ห้องสมุดไป่ตู้的相关研究奠定基础。
实验流程:
公司服务内容
1.基本服务:DNA 样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准
基因组测序基础知识
㈠De Novo 测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分
析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组 De Novo 测序方法有三种: 1. 用 Illumina Solexa GA IIx 测序仪直接测序; 2. 用 Roche GS FLX Titanium 直接完成全基因组测序; 3. 用 ABI 3730 或 Roche GS FLX Titanium 测序,搭建骨架,再用 Illumina Solexa GA IIx
果会随着测序深度的提升而下降。基因组 De Novo 测序覆盖率的选择需要考虑测序所采用的策
略。由于物种基因组的大小相差比较大,如细菌、真菌等微生物,其基因组一般比较小,可以单 独采用 Roche 454(20-30x)或 Solexa 采用高覆盖率(60×左右)的策略进行测序。而对于一些基因 组比较大(100M 以上)的物种(如植物),会采用一些技术平台组合的方法进行测序。考虑到平台
一般来说,基因组 De Novo 采用多种长度的插入片段文库进行拼接,主要是为了跨越不
同长度的重复序列,因此,了解基因组中的重复系列结构有助于实验方案的设计。由于不同物种 基因组的重复序列结构分布不同,如人基因组中的重复片段较多,也较长,而果蝇基因组中的重
-3-
复片段较少,也较短,因此二者采用的拼接策略也略有不用。 新物种的重复序列结构的估计一般是基于近缘物种基因中的重复序列结构,认为系统发育
图 1 Single-read 文库构建方法
图 2 Paired-end 文库构建方法
-2-
Mate-pair 文库制备旨在生成一些短的 DNA 片段,这些片段包含基因组中较大跨度(2-10 kb) 片段两端的序列,更具体地说:首先将基因组 DNA 随机打断到特定大小(2-10 kb 范围可选); 然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的 DNA 分子打断成 400-600 bp 的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末 端修饰和加上特定接头后建成 mate-pair 文库,然后上机测序(图 3)。
相近的物种,它们的重复序列结构相近。用一定长度的 k-mer 为框,连续截取基因组,从而得 到一系列的 unique cluster 和 repeat cluster,画出这些 cluster 的分布图,估算这种长度重复序 列的分布,如下图所示,人类基因组中长度在 10K 以上的重复序列占了很多,而果蝇基因组中
则主要集中在 100bp~10K 范围之内,所以用短序列 De Novo 组装人类基因组的时候,需要增
加插入片段长度为 10K 的 mate-pair 数据。
5.如何选择不同的插入片段组合达到最佳? 文库构建过程中插入片段的长度选择应考虑以下几个因素: (1) 一般来说短的插入片段用来拼接 contigs,而长的插入片段用来搭建骨架(scaffold); (2) 选择不同的插入片段组合的策略主要是为了跨越不同长度的重复序列区。不同的生物
间的成本差异及各平台的优势,为更经济有效的完成基因组 De Novo 测序,各种平台的覆盖率
选择也不同。如由于 Roche 454 测序成本较 Solexa 和 ABI SOLID 4 要高,一般在采用 Roche 454 搭建骨架时覆盖率选择比较低(10×),然后再用 Solexa 和 ABI SOLID 4 进行高覆盖率的测序组 装 scaffolds 和填补 gap。另外,覆盖率的选择还要考虑所选择的测序方式,不同测序方式插入 片段的长度有所差异,一般来讲长插入片段文库测序深度不能太大,会影响测序准确度(详见问 题 5)。
基因组 De Novo 测序过程中,Roche 454 的单端测序读长可以达到 400 bp,经常用于基因组
骨架的组装,而 Solexa 和 ABI SOLID 双端测序可以用于组装 scaffolds 和填补 gap。下面以 solexa 为例,对单端测序(Single-read)和双端测序(Paired-end 和 Mate-pair)进行介绍。Single-read、 Paired-end 和 Mate-pair 主要区别在测序文库的构建方法上。
(2) 对于植物, 样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或 单倍体。基因组完整无降解(23 kb 以上),OD 值在 1.8~2.0 之间;样品浓度大于 30 ng/μl;样 品总量不小于 500 μg,详细要求参见项目合同附件。
(3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯 合。基因组完整无降解(23 kb 以上),OD 值在 1.8~2.0 之间;样品浓度大于 30 ng/μl;样品总 量不小于 500 μg,详细要求参见项目合同附件。
库中发现有 5%的插入片段在 0~500bp 的读段,将有可能增加 De Novo 拼接的错误率。因此,
长插入片段文库的测序深度不建议太大。 (3) 由于没有基因组信息,需要调查近缘物种的重复序列分布,能够帮助实验设计。详情
见问题 4
-4-
6.基因组 De Novo 需要多大的覆盖率?
基因组的覆盖率是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量 的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结
2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组 De Novo 测序对 DNA 样品有什么要求?
-1-
(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基 因组完整无降解(23 kb 以上), OD 值在 1.8~2.0 之间;样品浓度大于 30 ng/μl;每次样品制备 需要 10 μg 样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。
(4) 基因组 De Novo 组装完毕后需要构建 BAC 或 Fosmid 文库进行测序验证,用于 BAC 或 Fosmid 文库构建的样品需要保证跟 De Novo 测序样本同一来源。
2. De Novo 有几种测序方式
目前 3 种测序技术 Roche 454,Solexa 和 ABI SOLID 均有单端测序和双端测序两种方式。在
单碱基错误率<0.01%
单碱基错误率 <0.01%
N50 即覆盖 50% 所有核苷酸的最大序列重叠群长度,把 contig 或 scaffold 从大到小排序, 并对其长度进行累加,当累加长度达到全部 contig 或 scaffold 长度一半时,最后一个 contig 或 scaffold 长度。
(2) 将已知的基因序列与拼接出来的 scaffolds 做比对,如果两者序列结果相吻合的话,说 明基因组组装较好。而且已知的基因序列越多,评价结果越可靠。
3.基因组 De Novo 测序的策略?
由于不同物种的基因组大小和复杂程度可能千差万别, 因此全基因组测序可以根据经费预 算和基因组预分析结果, 灵活选择不同的测序平台或平台组合。
(1) 在基因组较小的物种测序计划中可以选择 Roche 454 或 Solexa 测序平台。 (2) 对于复杂的植物大基因组可以选择两种或以上的测序平台测序,通常利用 Roche 454 的鸟枪法测序完成基因组的初步组装, 产生 454 contigs, 然后利用 Solexa 或 ABI SOLiD 的 双末端测序数据确定 454 contigs 之间的顺序和方向, 形成 scaffolds。最后利用 Solexa 或 ABI SOLiD 数据填充部分 contigs 之间的空隙, 是一个比较合理和经济的测序策略。 (3) 另外,由于 Solexa 的读长已经升级到 150 bp,也可以直接利用 Solexa 的 paired-end 和 mate-pair 两种测序方式结合测序,完成较大物种的基因组拼接。 4.制定测序策略前,如何估算新物种的重复序列结构?
重复片段分布不一样,举例说明,人基因组中长的重复片段较多、果蝇基因组中短的重复片段较 多。要跨越片段长度较长重复序列,必须选取更大的插入片段双端测序文库, 但是长的插入片 段文库的偏差较大,不能准确的定位较短重复序列的问题,因此,一般长插入片段和短的插入片 段的文库都是需要。但是,插入片段越长,割胶回收时片段的分布越广。2k 的插入片段至少有 1%的偏差,即 200bp 的偏差。如下图所示,短插入片段文库基本符合预期,但是长插入片段文
图 1 测序量与测序覆盖度的关系
图 2 覆盖度与 contig N50 值的关系 7 哪些因素会影响测序结果的质量?
-5-
(1)个体的杂合度:个体的杂合度越高,拼接难度越大,甚至可能导致序列无法拼接。 (2)物种基因组的多态性:由于一些物种的个体太小,单个个体提取的基因组 DNA 的量可能 难以满足测序的要求(如一些寄生虫),如此便需要混合多个个体进行基因组 DNA 抽提以用于测 序。对于这类情况,需要评估该物种基因组的多态性,如果基因组的多态性太高,会影响后续基 因组的拼接。 (3)DNA 样本的质量:对于细菌与真菌而言,样品来源一定要单一菌落无污染,动植物样本 也要尽量纯合,且无污染,否则会严重影响测序结果的质量。另外制备基因组不能小于 23Kb, 如果片段过小,在基因组片段化(Fragment)的过程中容易造成小片段丢失,导致构建的测序文库 不能完整的覆盖全基因组,对测序结果产生重大的影响。 (4)另外如果基因组的某些区域的 GC 含量过高(GC%≥65%)会使测序过程中出现偏向性,导 致某些区域的覆盖率太低,从而影响后续的拼接和注释。 (5)对于重复序列过多的物种,大量重复序列的存在会产生许多错误的重叠,造成拼接产生 的 contigs 过短,从而导致结果的严重偏差。
单端测序(Single-read)首先将 DNA 样本进行片段化处理形成 200-500bp 的片段,引物序列 连接到 DNA 片段的一端,然后末端加上接头,将片段固定在 flow cell 上生成 DNA 簇,上机测 序单端读取序列(图 1)。
Paired-end 方法是指在构建待测 DNA 文库时在两端的接头上都加上测序引物结合位点, 在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互 补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图 2)。
9.如何检验基因组组装的准确性?
组装的准确度对于新物种基因组组装是至关重要的,一般有下面几种方法来检验组装的准确度: (1) 构建 BAC 或 Fosmid 文库,并用 Sanger 法测序得到序列,将 BAC 序列与所拼接出来
的 contigs 做比对来查看基因组组装的准确率。如,熊猫基因组拼接后,构建了 9 条 BACs,每 条 BAC 都 map 到唯一的一条 scafflold 上,而 98%的 BAC 都和拼接好的 contigs 很好的比对上。
8.全基因组 De Novo 测序的拼接标准怎样?
全基因组 De Novo 测序拼接国际标准:
基因框架图
基因组精细图
基因组覆盖率>90%
基因组覆盖率>95%
基因区覆盖率>95%
基因区覆盖率>98%
Contig N50 >5kb
Contig N50 >20kb
Scaffold N50 >20kb
Scaffold N50 >300kb
进行深度测序,完成基因组拼接。 采用 De Novo 测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部
的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及 进行比较基因组学研究,为后ห้องสมุดไป่ตู้的相关研究奠定基础。
实验流程:
公司服务内容
1.基本服务:DNA 样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准
基因组测序基础知识
㈠De Novo 测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分
析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组 De Novo 测序方法有三种: 1. 用 Illumina Solexa GA IIx 测序仪直接测序; 2. 用 Roche GS FLX Titanium 直接完成全基因组测序; 3. 用 ABI 3730 或 Roche GS FLX Titanium 测序,搭建骨架,再用 Illumina Solexa GA IIx
果会随着测序深度的提升而下降。基因组 De Novo 测序覆盖率的选择需要考虑测序所采用的策
略。由于物种基因组的大小相差比较大,如细菌、真菌等微生物,其基因组一般比较小,可以单 独采用 Roche 454(20-30x)或 Solexa 采用高覆盖率(60×左右)的策略进行测序。而对于一些基因 组比较大(100M 以上)的物种(如植物),会采用一些技术平台组合的方法进行测序。考虑到平台
一般来说,基因组 De Novo 采用多种长度的插入片段文库进行拼接,主要是为了跨越不
同长度的重复序列,因此,了解基因组中的重复系列结构有助于实验方案的设计。由于不同物种 基因组的重复序列结构分布不同,如人基因组中的重复片段较多,也较长,而果蝇基因组中的重
-3-
复片段较少,也较短,因此二者采用的拼接策略也略有不用。 新物种的重复序列结构的估计一般是基于近缘物种基因中的重复序列结构,认为系统发育
图 1 Single-read 文库构建方法
图 2 Paired-end 文库构建方法
-2-
Mate-pair 文库制备旨在生成一些短的 DNA 片段,这些片段包含基因组中较大跨度(2-10 kb) 片段两端的序列,更具体地说:首先将基因组 DNA 随机打断到特定大小(2-10 kb 范围可选); 然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的 DNA 分子打断成 400-600 bp 的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末 端修饰和加上特定接头后建成 mate-pair 文库,然后上机测序(图 3)。
相近的物种,它们的重复序列结构相近。用一定长度的 k-mer 为框,连续截取基因组,从而得 到一系列的 unique cluster 和 repeat cluster,画出这些 cluster 的分布图,估算这种长度重复序 列的分布,如下图所示,人类基因组中长度在 10K 以上的重复序列占了很多,而果蝇基因组中
则主要集中在 100bp~10K 范围之内,所以用短序列 De Novo 组装人类基因组的时候,需要增
加插入片段长度为 10K 的 mate-pair 数据。
5.如何选择不同的插入片段组合达到最佳? 文库构建过程中插入片段的长度选择应考虑以下几个因素: (1) 一般来说短的插入片段用来拼接 contigs,而长的插入片段用来搭建骨架(scaffold); (2) 选择不同的插入片段组合的策略主要是为了跨越不同长度的重复序列区。不同的生物
间的成本差异及各平台的优势,为更经济有效的完成基因组 De Novo 测序,各种平台的覆盖率
选择也不同。如由于 Roche 454 测序成本较 Solexa 和 ABI SOLID 4 要高,一般在采用 Roche 454 搭建骨架时覆盖率选择比较低(10×),然后再用 Solexa 和 ABI SOLID 4 进行高覆盖率的测序组 装 scaffolds 和填补 gap。另外,覆盖率的选择还要考虑所选择的测序方式,不同测序方式插入 片段的长度有所差异,一般来讲长插入片段文库测序深度不能太大,会影响测序准确度(详见问 题 5)。
基因组 De Novo 测序过程中,Roche 454 的单端测序读长可以达到 400 bp,经常用于基因组
骨架的组装,而 Solexa 和 ABI SOLID 双端测序可以用于组装 scaffolds 和填补 gap。下面以 solexa 为例,对单端测序(Single-read)和双端测序(Paired-end 和 Mate-pair)进行介绍。Single-read、 Paired-end 和 Mate-pair 主要区别在测序文库的构建方法上。
(2) 对于植物, 样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或 单倍体。基因组完整无降解(23 kb 以上),OD 值在 1.8~2.0 之间;样品浓度大于 30 ng/μl;样 品总量不小于 500 μg,详细要求参见项目合同附件。
(3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯 合。基因组完整无降解(23 kb 以上),OD 值在 1.8~2.0 之间;样品浓度大于 30 ng/μl;样品总 量不小于 500 μg,详细要求参见项目合同附件。
库中发现有 5%的插入片段在 0~500bp 的读段,将有可能增加 De Novo 拼接的错误率。因此,
长插入片段文库的测序深度不建议太大。 (3) 由于没有基因组信息,需要调查近缘物种的重复序列分布,能够帮助实验设计。详情
见问题 4
-4-
6.基因组 De Novo 需要多大的覆盖率?
基因组的覆盖率是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量 的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结
2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组 De Novo 测序对 DNA 样品有什么要求?
-1-
(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基 因组完整无降解(23 kb 以上), OD 值在 1.8~2.0 之间;样品浓度大于 30 ng/μl;每次样品制备 需要 10 μg 样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。
(4) 基因组 De Novo 组装完毕后需要构建 BAC 或 Fosmid 文库进行测序验证,用于 BAC 或 Fosmid 文库构建的样品需要保证跟 De Novo 测序样本同一来源。
2. De Novo 有几种测序方式
目前 3 种测序技术 Roche 454,Solexa 和 ABI SOLID 均有单端测序和双端测序两种方式。在
单碱基错误率<0.01%
单碱基错误率 <0.01%
N50 即覆盖 50% 所有核苷酸的最大序列重叠群长度,把 contig 或 scaffold 从大到小排序, 并对其长度进行累加,当累加长度达到全部 contig 或 scaffold 长度一半时,最后一个 contig 或 scaffold 长度。
(2) 将已知的基因序列与拼接出来的 scaffolds 做比对,如果两者序列结果相吻合的话,说 明基因组组装较好。而且已知的基因序列越多,评价结果越可靠。