动植物基因组denovo常见问题

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

动植物基因组de novo常见问题

基础知识

1、什么是基因组de novo测序

答：对某一物种进行高通量测序，利用高性能计算平台和生物信息学方法，在不依赖于参考基因组的情况下进行组装，从而绘制该物种的全基因组序列图谱。

2、普通基因组的定义

答：单倍体，纯合二倍体或者杂合度<%，且重复序列含量<50%，GC 含量为35%到65%之间的二倍体。

3、复杂基因组的定义

答：杂合率＞%，重复序列含量＞50%，GC含量处于异常的范围（GC 含量＜35%或者GC含量＞65%＝的二倍体，多倍体。

诺禾致源对二倍体复杂基因组进一步细分为微杂合基因组（%＜杂合率＜%＝、高杂合基因组（杂合率＞%）以及高重复基因组（重复序列比例>50%）。

4、怎么查询基因组的大小

答：查询植物基因组大小的网站：；

查询动物基因组大小的网站：。

5、基因组的项目周期

6、基因组承诺的组装指标

答：简单基因组：contig N50>20K，scaffold N50>500K；

复杂基因组：contig N50>20K，scaffold N50>300K。

样品要求

1、动植物基因组测序对取样有什么要求

答：植物：需要黑暗无菌条件下培养的黄化苗、组培苗，基因组样本量500μg~1mg，越多越好。选择纯合或杂合度尽可能小的样品（杂合度<%）。

动物：应选取肌肉、血液等含脂肪较少的部位取样，尽量选择同一个体取样，以减少个体差异性对后续拼接的影响。基因组样本量

500μg~1mg，越多越好。样本的性别决定模式是XY型，则尽量选择雌性个体（XX型），如果是ZW型，则尽量选择雄性个体（ZZ型）。

2、全基因组测序对DNA样本有什么要求

答：（1）样品需求量（单次）：小片段文库，≥3μg；2Kb~5Kb大片段文库，≥20μg；10Kb~20Kb大片段文库，≥60μg；完成全基因组测序样品DNA量需求约为500μg~1mg；

（2）样品浓度：对于小片段文库，≥50ng/μl，对于2Kb~5Kb 大片段文库，≥150ng/μl；对于10Kb~20Kb大片段文库，≥150ng/μl；

（3）样品纯度：OD260/280=~；无蛋白质、RNA污染或肉眼可见杂质污染；

（4）样品质量：基因组完整。如需建立≥5Kb的插入片段文库，则电泳结果，基因组DNA主带≥23Kb；脉冲场电泳结果，基因组DNA 主带≥40Kb。

文库构建

1、基因组测序的文库构建及测序策略

答：简单基因组：180bp、500bp、2K、5K、10K；PE100测序；测序深度一般为100-150X；

复杂基因组：180bp、300bp、500bp、2K、5K、10K、20K；PE100测序；测序深度一般为200-300X。

2、DNA Fragment文库的定义、用途及实验流程

答：（1）定义：将基因组或大片段DNA随机打断成＜800bp的小片段（主要为200bp、300bp、500bp等），加上特定接头做成DNA文库后直接对DNA片段进行单末端（Single-End）或者双末端（Paired-End）测序，不需要克隆到细菌中，可以获得大量的DNA序列信息。

（2）用途：DNA Fragment文库制备的整个过程只需2天，单末端测序长度可达100bp，双末端为200bp。该技术测序通量高，可在全基因组水平上最大限度的、完整的获取基因组及多态性信息。广泛地应用于基因组的de novo测序、基因组重测序、BAC测序和长片段PCR产物测序等。

（3）实验流程：

3、DNA mate-pair文库的定义、用途及实验流程

答：（1）定义：首先将基因组DNA随机打断到特定大小（2-20kb）；然后经末端修复，生物素标记和环化等实验步骤后，再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠将带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库，不需要克隆到细菌中，直接在Illumina测序仪上进行测序。通过大片段文库构建，从而获得基因组中较大跨度（2-20kb）片段两端的序列。

（2）用途：DNA Mate-pair文库制备的整个过程需要5天，这种从较大跨度两端所获得的序列对基因组de novo项目的组装和基因组结构变异发掘具有非常重要的作用。

（3）实验流程：

信息分析

1、什么是Read、Contig、Scaffold

答：Read：测序读到的碱基序列片段，测序的最小单位；

Contig：由reads通过对overlap区域拼接组装成的没有gap的序列段；

Scaffold：通过pair ends信息确定出的contig排列，中间有gap。

2、什么是N50，N70，N90

答：把组装出的contigs或scaffolds从大到小排列，当其累计长度刚刚超过全部组装序列总长度50%时，最后一个contig或scaffold的大小即为N50的大小，N50对评价基因测序的完整性有重要意义；N70和N90的计算方法与N50类似，只是百分数变为70%或90%。

3、普通基因组的解决方案

答：诺禾采用自主升级的SOAPdenovoII进行普通基因组组装。

组装流程（图1）包括：

（1）构建不同长度的插入片段文库；

（2）构建de Brujin图；

（3）化简de Brujin图；

（4）构建contigs；

（5）构建scaffolds；

（6）补gaps；

诺禾致源的技术升级包括：

（1）开发了新的序列纠错模块，降低测序错误对组装的影响；