微生物基因组测序作图流程
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 个性化内容中群体分析。
• Core and pan genome构建和分析 • 变异分析(SNP,Indel) • 进化分析(构建进化树,Ka/Ks计算)
Core and pan genome构建和分析
A) Core-genome based on genes. B) Pan-genome based on genes. C) Core-genome based on genomic sequences. D) Pan-genome based on genomic sequences.
• Survey升级成精细图(加测50 × 的数据)或直 接做精细图。中级分析或高级分析(可选)。
分析流程(中级分析或高级分析)
数据处理和质控参考Survey 组装
• SOAPdenovo组装。
• velvet和Abyss等组装,以SOAPdenovo结果为参照,综合其 它组装结果,构建最好的组装结果。
• 基于k-mer分析:根据基因组的k-mer性质,利用k-mer分布的统计规律估算出 基因组的大小,与组装出来的基因组大小进行比较,进而估算基因组的覆盖 度。
• 基于reads比对:根据reads的比对信息,得到reads的利用率,推测基因组的覆 盖度。
• 基因区覆盖度分析
• 根据测序reads与参考序列的比对,来确定用于评价的基因序列(这里取 coverage > 50%的基因)。然后用组装结果与这些基因序列进行比对,进而估 算得到组装结果的基因区覆盖度信息。
Percent (%)
非一致序列分析(K-mer分析和NT库比对)
Depth
利用短插入片段测序reads,选取中间高质量测序区域, 逐碱基取长度 为17的片段即17-mer。统计各17-mer深度和各个深度的频数所占比例, 计算作图获得如下深度~频率分布图和统计表。 图中横坐标为深度(depth),纵坐标为各深度下的频数占总频数的比 例(proportion)。
基因预测和基因注释参考细菌框架图
GO功能分类图
重复序列分析( ) RepeatMasker 、 RepeatProteinMasker 、 TRF
ncRNA预测
• rRNAmmer or RNA库:rRNA • tRNAscan:tRNA • Rfam: miRNA、sRNA和snRNA
细菌完成图
• 利用reads的mapping信息,对软件组装结果进行补洞、单 碱基校对。
• 利用paired-end关系的reads的mapping信息,给出scaffold 序列的组装质量值。并得出各条scaffold之间的潜在连接关 系进行统计分析。
组装结果评价
• 基因组覆盖度分析
• 基于参考序列:由合作伙伴提供的参考序列,与组装结果进行比对分析,得 出两者间的交集区域,进而估算基因组的覆盖度。
• 完成精细图
• 加测大片段降低scaffold,合同中不写降到 多少。目标是达到20个以下scaffold,一般 2-3个大片段 (2kb,5kb library等)
• 由我们分析原始数据,设计,合成引物, 采取Sanger法测序,并对测序结果进行拼接。
细菌群体进化分析
• 细菌精细图 (中级分析)。
• (2) 利用reads的mapping信息,对软件组装结果进行补洞、 单碱基校对。
• (3) 利用paired-end关系的reads的mapping信息,给出
scaffold序列的组装质量值。
组装后质控统计
a. GC含量分析统计 b. Depth分析统计 c. GC含量与Depth关联分析统计
细菌框架图
• 采用500bp,100PE测序策略。 • 提供100×的数据量,不承诺指标。 • Survey+细菌中级分析内容。
分析流程
数据处理、 质控、 组装、 组装后质控统计、 非一致序列分析。 参考survey
中级生物信息分析
• 基因预测( Glimmer3.0基因预测软件)
基因功能注释( KEGG、SwissProt、COG库 的比对)
分析流程
数据处理、 质控、 组装、 组装后质控统计、 非一致序列分析。 参考survey
中级生物信息分析
• 基因预测( Augustus基因预测软件)
真菌精细图
• 采用500bp,100PE和2k,50PE测序策略。
• 提供50×的数据量,承诺指标为:
正常GC,scaffold N50≥300 Kb; 双核,高重复序列,异常GC,杂合率大于0.5%等复杂现象,具体指标另行协商; 单碱基错误率小于1/100,000; 基因组覆盖度大于98 %,基因区覆盖度大于95 % 。
微生物基因组测序作图流程
2010年9月
分析流程
(ห้องสมุดไป่ตู้)去除含N的碱基数达到一定比 例的reads或者是低复杂度结果(默 认10%);
(2)去除低质量Q20碱基数目达到一 定程度的reads(默认40个碱基)
(3)去除adapter污染,(默认 adapter序列与read序列有24bp的 overlap)
质控
a) 处理后的所有read上每个位置上的碱基分布; b) 处理后的read上 每个位置上碱基的质量值分布; c) 插入片段分布图; d) 单碱基测序 错误率分布图.
组装
• (1) 运用华大自主研发的SOAPdenovo组装软件对reads数据 进行组装,得到我们的组装结果,组装原理图请参见图3.2。
SNP分析
在一致序列的基础上,对于检测到的基因型与 参考序列存在着多态性的位点进行过滤,最后 可以得到高可信度的SNP数据集。
InDel分析
进化分析
• 构建进化树
• Ka/Ks计算
真菌框架图
• 采用500bp,100PE测序策略。 • 提供50×数据量,不承诺指标。 • Survey+真菌中级信息分析。
KEGG代谢通路二级分类图
COG功能分类图
细菌精细图
• 采用500bp,100PE和2k,50PE测序策略。
• 提供100×的数据量,承诺指标为:
正常GC,scaffold数量,基因组小于5M,100个,基因组5-10M,150个; 不正常GC,scaffold数量,基因组小于5M,200个,基因组5-10M,300个; 单碱基错误率小于1/100,000; 基因组覆盖度大于98 %,基因区覆盖度大于95 % 。
• Core and pan genome构建和分析 • 变异分析(SNP,Indel) • 进化分析(构建进化树,Ka/Ks计算)
Core and pan genome构建和分析
A) Core-genome based on genes. B) Pan-genome based on genes. C) Core-genome based on genomic sequences. D) Pan-genome based on genomic sequences.
• Survey升级成精细图(加测50 × 的数据)或直 接做精细图。中级分析或高级分析(可选)。
分析流程(中级分析或高级分析)
数据处理和质控参考Survey 组装
• SOAPdenovo组装。
• velvet和Abyss等组装,以SOAPdenovo结果为参照,综合其 它组装结果,构建最好的组装结果。
• 基于k-mer分析:根据基因组的k-mer性质,利用k-mer分布的统计规律估算出 基因组的大小,与组装出来的基因组大小进行比较,进而估算基因组的覆盖 度。
• 基于reads比对:根据reads的比对信息,得到reads的利用率,推测基因组的覆 盖度。
• 基因区覆盖度分析
• 根据测序reads与参考序列的比对,来确定用于评价的基因序列(这里取 coverage > 50%的基因)。然后用组装结果与这些基因序列进行比对,进而估 算得到组装结果的基因区覆盖度信息。
Percent (%)
非一致序列分析(K-mer分析和NT库比对)
Depth
利用短插入片段测序reads,选取中间高质量测序区域, 逐碱基取长度 为17的片段即17-mer。统计各17-mer深度和各个深度的频数所占比例, 计算作图获得如下深度~频率分布图和统计表。 图中横坐标为深度(depth),纵坐标为各深度下的频数占总频数的比 例(proportion)。
基因预测和基因注释参考细菌框架图
GO功能分类图
重复序列分析( ) RepeatMasker 、 RepeatProteinMasker 、 TRF
ncRNA预测
• rRNAmmer or RNA库:rRNA • tRNAscan:tRNA • Rfam: miRNA、sRNA和snRNA
细菌完成图
• 利用reads的mapping信息,对软件组装结果进行补洞、单 碱基校对。
• 利用paired-end关系的reads的mapping信息,给出scaffold 序列的组装质量值。并得出各条scaffold之间的潜在连接关 系进行统计分析。
组装结果评价
• 基因组覆盖度分析
• 基于参考序列:由合作伙伴提供的参考序列,与组装结果进行比对分析,得 出两者间的交集区域,进而估算基因组的覆盖度。
• 完成精细图
• 加测大片段降低scaffold,合同中不写降到 多少。目标是达到20个以下scaffold,一般 2-3个大片段 (2kb,5kb library等)
• 由我们分析原始数据,设计,合成引物, 采取Sanger法测序,并对测序结果进行拼接。
细菌群体进化分析
• 细菌精细图 (中级分析)。
• (2) 利用reads的mapping信息,对软件组装结果进行补洞、 单碱基校对。
• (3) 利用paired-end关系的reads的mapping信息,给出
scaffold序列的组装质量值。
组装后质控统计
a. GC含量分析统计 b. Depth分析统计 c. GC含量与Depth关联分析统计
细菌框架图
• 采用500bp,100PE测序策略。 • 提供100×的数据量,不承诺指标。 • Survey+细菌中级分析内容。
分析流程
数据处理、 质控、 组装、 组装后质控统计、 非一致序列分析。 参考survey
中级生物信息分析
• 基因预测( Glimmer3.0基因预测软件)
基因功能注释( KEGG、SwissProt、COG库 的比对)
分析流程
数据处理、 质控、 组装、 组装后质控统计、 非一致序列分析。 参考survey
中级生物信息分析
• 基因预测( Augustus基因预测软件)
真菌精细图
• 采用500bp,100PE和2k,50PE测序策略。
• 提供50×的数据量,承诺指标为:
正常GC,scaffold N50≥300 Kb; 双核,高重复序列,异常GC,杂合率大于0.5%等复杂现象,具体指标另行协商; 单碱基错误率小于1/100,000; 基因组覆盖度大于98 %,基因区覆盖度大于95 % 。
微生物基因组测序作图流程
2010年9月
分析流程
(ห้องสมุดไป่ตู้)去除含N的碱基数达到一定比 例的reads或者是低复杂度结果(默 认10%);
(2)去除低质量Q20碱基数目达到一 定程度的reads(默认40个碱基)
(3)去除adapter污染,(默认 adapter序列与read序列有24bp的 overlap)
质控
a) 处理后的所有read上每个位置上的碱基分布; b) 处理后的read上 每个位置上碱基的质量值分布; c) 插入片段分布图; d) 单碱基测序 错误率分布图.
组装
• (1) 运用华大自主研发的SOAPdenovo组装软件对reads数据 进行组装,得到我们的组装结果,组装原理图请参见图3.2。
SNP分析
在一致序列的基础上,对于检测到的基因型与 参考序列存在着多态性的位点进行过滤,最后 可以得到高可信度的SNP数据集。
InDel分析
进化分析
• 构建进化树
• Ka/Ks计算
真菌框架图
• 采用500bp,100PE测序策略。 • 提供50×数据量,不承诺指标。 • Survey+真菌中级信息分析。
KEGG代谢通路二级分类图
COG功能分类图
细菌精细图
• 采用500bp,100PE和2k,50PE测序策略。
• 提供100×的数据量,承诺指标为:
正常GC,scaffold数量,基因组小于5M,100个,基因组5-10M,150个; 不正常GC,scaffold数量,基因组小于5M,200个,基因组5-10M,300个; 单碱基错误率小于1/100,000; 基因组覆盖度大于98 %,基因区覆盖度大于95 % 。