动植物基因组denovo常见问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
动植物基因组de novo常见问题
基础知识
1、什么是基因组de novo测序
答:对某一物种进行高通量测序,利用高性能计算平台和生物信息学方法,在不依赖于参考基因组的情况下进行组装,从而绘制该物种的全基因组序列图谱。
2、普通基因组的定义
答:单倍体,纯合二倍体或者杂合度<%,且重复序列含量<50%,GC 含量为35%到65%之间的二倍体。
3、复杂基因组的定义
答:杂合率>%,重复序列含量>50%,GC含量处于异常的范围(GC 含量<35%或者GC含量>65%=的二倍体,多倍体。
诺禾致源对二倍体复杂基因组进一步细分为微杂合基因组(%<杂合率<%=、高杂合基因组(杂合率>%)以及高重复基因组(重复序列比例>50%)。
4、怎么查询基因组的大小
答:查询植物基因组大小的网站:;
查询动物基因组大小的网站:。
5、基因组的项目周期
6、基因组承诺的组装指标
答:简单基因组:contig N50>20K,scaffold N50>500K;
复杂基因组:contig N50>20K,scaffold N50>300K。
样品要求
1、动植物基因组测序对取样有什么要求
答:植物:需要黑暗无菌条件下培养的黄化苗、组培苗,基因组样本量500μg~1mg,越多越好。选择纯合或杂合度尽可能小的样品(杂合度<%)。
动物:应选取肌肉、血液等含脂肪较少的部位取样,尽量选择同一个体取样,以减少个体差异性对后续拼接的影响。基因组样本量
500μg~1mg,越多越好。样本的性别决定模式是XY型,则尽量选择雌性个体(XX型),如果是ZW型,则尽量选择雄性个体(ZZ型)。
2、全基因组测序对DNA样本有什么要求
答:(1)样品需求量(单次):小片段文库,≥3μg;2Kb~5Kb大片段文库,≥20μg;10Kb~20Kb大片段文库,≥60μg;完成全基因组测序样品DNA量需求约为500μg~1mg;
(2)样品浓度:对于小片段文库,≥50ng/μl,对于2Kb~5Kb 大片段文库,≥150ng/μl;对于10Kb~20Kb大片段文库,≥150ng/μl;
(3)样品纯度:OD260/280=~;无蛋白质、RNA污染或肉眼可见杂质污染;
(4)样品质量:基因组完整。如需建立≥5Kb的插入片段文库,则电泳结果,基因组DNA主带≥23Kb;脉冲场电泳结果,基因组DNA 主带≥40Kb。
文库构建
1、基因组测序的文库构建及测序策略
答:简单基因组:180bp、500bp、2K、5K、10K;PE100测序;测序深度一般为100-150X;
复杂基因组:180bp、300bp、500bp、2K、5K、10K、20K;PE100测序;测序深度一般为200-300X。
2、DNA Fragment文库的定义、用途及实验流程
答:(1)定义:将基因组或大片段DNA随机打断成<800bp的小片段(主要为200bp、300bp、500bp等),加上特定接头做成DNA文库后直接对DNA片段进行单末端(Single-End)或者双末端(Paired-End)测序,不需要克隆到细菌中,可以获得大量的DNA序列信息。
(2)用途:DNA Fragment文库制备的整个过程只需2天,单末端测序长度可达100bp,双末端为200bp。该技术测序通量高,可在全基因组水平上最大限度的、完整的获取基因组及多态性信息。广泛地应用于基因组的de novo测序、基因组重测序、BAC测序和长片段PCR产物测序等。
(3)实验流程:
3、DNA mate-pair文库的定义、用途及实验流程
答:(1)定义:首先将基因组DNA随机打断到特定大小(2-20kb);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠将带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在Illumina测序仪上进行测序。通过大片段文库构建,从而获得基因组中较大跨度(2-20kb)片段两端的序列。
(2)用途:DNA Mate-pair文库制备的整个过程需要5天,这种从较大跨度两端所获得的序列对基因组de novo项目的组装和基因组结构变异发掘具有非常重要的作用。
(3)实验流程:
信息分析
1、什么是Read、Contig、Scaffold
答:Read:测序读到的碱基序列片段,测序的最小单位;
Contig:由reads通过对overlap区域拼接组装成的没有gap的序列段;
Scaffold:通过pair ends信息确定出的contig排列,中间有gap。
2、什么是N50,N70,N90
答:把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价基因测序的完整性有重要意义;N70和N90的计算方法与N50类似,只是百分数变为70%或90%。
3、普通基因组的解决方案
答:诺禾采用自主升级的SOAPdenovoII进行普通基因组组装。
组装流程(图1)包括:
(1)构建不同长度的插入片段文库;
(2)构建de Brujin图;
(3)化简de Brujin图;
(4)构建contigs;
(5)构建scaffolds;
(6)补gaps;
诺禾致源的技术升级包括:
(1)开发了新的序列纠错模块,降低测序错误对组装的影响;