动植物基因组denovo常见问题

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

动植物基因组de novo常见问题

基础知识

1、什么是基因组de novo测序

答:对某一物种进行高通量测序,利用高性能计算平台和生物信息学方法,在不依赖于参考基因组的情况下进行组装,从而绘制该物种的全基因组序列图谱。

2、普通基因组的定义

答:单倍体,纯合二倍体或者杂合度<%,且重复序列含量<50%,GC 含量为35%到65%之间的二倍体。

3、复杂基因组的定义

答:杂合率>%,重复序列含量>50%,GC含量处于异常的范围(GC 含量<35%或者GC含量>65%=的二倍体,多倍体。

诺禾致源对二倍体复杂基因组进一步细分为微杂合基因组(%<杂合率<%=、高杂合基因组(杂合率>%)以及高重复基因组(重复序列比例>50%)。

4、怎么查询基因组的大小

答:查询植物基因组大小的网站:;

查询动物基因组大小的网站:。

5、基因组的项目周期

6、基因组承诺的组装指标

答:简单基因组:contig N50>20K,scaffold N50>500K;

复杂基因组:contig N50>20K,scaffold N50>300K。

样品要求

1、动植物基因组测序对取样有什么要求

答:植物:需要黑暗无菌条件下培养的黄化苗、组培苗,基因组样本量500μg~1mg,越多越好。选择纯合或杂合度尽可能小的样品(杂合度<%)。

动物:应选取肌肉、血液等含脂肪较少的部位取样,尽量选择同一个体取样,以减少个体差异性对后续拼接的影响。基因组样本量

500μg~1mg,越多越好。样本的性别决定模式是XY型,则尽量选择雌性个体(XX型),如果是ZW型,则尽量选择雄性个体(ZZ型)。

2、全基因组测序对DNA样本有什么要求

答:(1)样品需求量(单次):小片段文库,≥3μg;2Kb~5Kb大片段文库,≥20μg;10Kb~20Kb大片段文库,≥60μg;完成全基因组测序样品DNA量需求约为500μg~1mg;

(2)样品浓度:对于小片段文库,≥50ng/μl,对于2Kb~5Kb 大片段文库,≥150ng/μl;对于10Kb~20Kb大片段文库,≥150ng/μl;

(3)样品纯度:OD260/280=~;无蛋白质、RNA污染或肉眼可见杂质污染;

(4)样品质量:基因组完整。如需建立≥5Kb的插入片段文库,则电泳结果,基因组DNA主带≥23Kb;脉冲场电泳结果,基因组DNA 主带≥40Kb。

文库构建

1、基因组测序的文库构建及测序策略

答:简单基因组:180bp、500bp、2K、5K、10K;PE100测序;测序深度一般为100-150X;

复杂基因组:180bp、300bp、500bp、2K、5K、10K、20K;PE100测序;测序深度一般为200-300X。

2、DNA Fragment文库的定义、用途及实验流程

答:(1)定义:将基因组或大片段DNA随机打断成<800bp的小片段(主要为200bp、300bp、500bp等),加上特定接头做成DNA文库后直接对DNA片段进行单末端(Single-End)或者双末端(Paired-End)测序,不需要克隆到细菌中,可以获得大量的DNA序列信息。

(2)用途:DNA Fragment文库制备的整个过程只需2天,单末端测序长度可达100bp,双末端为200bp。该技术测序通量高,可在全基因组水平上最大限度的、完整的获取基因组及多态性信息。广泛地应用于基因组的de novo测序、基因组重测序、BAC测序和长片段PCR产物测序等。

(3)实验流程:

3、DNA mate-pair文库的定义、用途及实验流程

答:(1)定义:首先将基因组DNA随机打断到特定大小(2-20kb);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠将带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在Illumina测序仪上进行测序。通过大片段文库构建,从而获得基因组中较大跨度(2-20kb)片段两端的序列。

(2)用途:DNA Mate-pair文库制备的整个过程需要5天,这种从较大跨度两端所获得的序列对基因组de novo项目的组装和基因组结构变异发掘具有非常重要的作用。

(3)实验流程:

信息分析

1、什么是Read、Contig、Scaffold

答:Read:测序读到的碱基序列片段,测序的最小单位;

Contig:由reads通过对overlap区域拼接组装成的没有gap的序列段;

Scaffold:通过pair ends信息确定出的contig排列,中间有gap。

2、什么是N50,N70,N90

答:把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价基因测序的完整性有重要意义;N70和N90的计算方法与N50类似,只是百分数变为70%或90%。

3、普通基因组的解决方案

答:诺禾采用自主升级的SOAPdenovoII进行普通基因组组装。

组装流程(图1)包括:

(1)构建不同长度的插入片段文库;

(2)构建de Brujin图;

(3)化简de Brujin图;

(4)构建contigs;

(5)构建scaffolds;

(6)补gaps;

诺禾致源的技术升级包括:

(1)开发了新的序列纠错模块,降低测序错误对组装的影响;

相关文档
最新文档