外显子组测序
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5.Indel区域的reads重新做局部多序列比对: 在indel的边缘,一些错配看起来很像是SNP,通过对dbSNP库及bam文件检 测到的indel附近的reads进行局部的重新比对,可以消除indel周边的假 阳性SNP。
6.碱基质量重新打分: 测序仪给reads中的碱基的qual值存在一定的偏差,通过经验的错误模型 来重新计算的碱基的qual值,重新给reads的各个碱基的qual打分。 7.Call snv和indel: 对处理好的多样品bam文件同时运行UnifiedGenotyper,大大提高call SNP的灵敏度和准确性,多样品同时比较的结果,方便了后续的样品间差 异的筛选。 8.突变位点的重新打分: 通过hapmap,omni,dbsnp数据库中已知的突变位点建模优化,对各个突 变位点重新打分,筛选。大大降低了假阳性率。 9.注释: 通过ANNOVAR软件对vcf结果注释,关联到多个数据库。
二、测序深度
• The sensitivity to detect heterozygous variants with 10 reads is 78.6%, but increases to 95.2% at 20x and approximately 100% at 30x and greater.[1] • The average coverage of each base in the targeted regions was 100-fold, and 95.3% of these bases were covered sufficiently deeply for variant calling (≥10× coverage) [2] • Exome sequencing produced a higher level of coverage for the targeted sequences (mean, 167.50×), slightly increasing our ability to detect mutations with VAFs of less than 10%. [3]
外显子捕获平台
TruSeq Exome Enrichment Kit
• Highly uniform coverage across 62 Mb of exomic sequence, including 5’UTR, 3’ UTR, microRNA, and other non-coding RNA. • Streamlined protocol for pre-enrichment pooling of up to six samples dramatically reduces hands-on time and cost. • Optimized for use with the TruSeq DNA Sample Preparation Kit, providing a gel-free protocol that requires the lowest DNA input. • Automation-friendly with master-mixed reagents and plate-based processing for up to 96 reactions.
Coverage rate
Sequencing depth and coverage of the nine paired initial sequencing samples.
三、测序平台
Ion Proton™
Illumina HiSeq
基于Ion Proton™的外显子测序流程
• The bound DNA is isolated using streptavidincoated Dynabeads® paramagnetic beads, and then amplified and purified. The purified, target-enriched sample is then returned to the Ion Torrent system workflow for emulsion PCR, enrichment, and sequencing. • Exome sequencing results on the Ion Proton™ System using the Ion PI™ Chip and the Ion TargetSeq™ Exome Kit
Heterozygous SNVs 18,031 Homozygous SNVs 12,046
基于Illumina HiSeq的外显子测序流程
基因组DNA样本要求
DNA样本要求(单次): 总量:≥ 6 µg DNA; 浓度:≥ 37.5 ng/µL; 纯度:OD260/280=1.8-2.0。(来自华大基因) DNA样本要求(单次): 总量:200-300bp小片段PE文库≥5 µg ; 浓度:≥50ng/µL ; 纯度:OD260/280=1.8-2.0。(来自美吉生物) DNA样本要求(单次): 总量:≥50µg ; 浓度:≥100ng/µL ; 纯度:OD260/280=1.8-2.0。(来自派森诺生物)
TruSeq Exome Enrichment Workflow
烈冰生物外显子测序数据分析思路
四、数据分析流程
1.数据下机文件:*.fastq 2.序列QC 去除低质量reads,和连续的低质量片段,去掉接头序列。QC统计 reads数量及测序质量。 3.Mapping 由于bwa能准确、快速的将短序列比对到基因组上,而且软件持续更新 和说明文档完备,是外显子捕获测序的首选。 4.Sam到bam转换: Samtools的多种工具可以将sam文件转换为bam文件,rmdup工具能去除 PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假 阳性。Flagstat统计reads的mapping情况以及比较去除duplicate前后 reads数目的反映样品建库的冗余情况。 Picard提供的多个工具,修改bam文件,使之适合于后续的GATK软件包 中的工具的处理。
外显子组测序
目 录
一、外显子测序简介
二、测序深度
三、测序平台
四、数据分析流程
五、数据分析内容
六、后期验证
一、外显子测序简介
外显子测序(也称目标外显子组捕获)是指利用序列捕获技术将全 基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。 是一种选择基因组的编码序列的高效策略,外显子测序相对于基因组重 测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势。 在人类基因中大约有180,000外显子,占人类基因组的1%,约30MB。
68,899,95 7
Target bases at 10x
79.1%
Target bases at 20x
Target bases at 1x
119x
Type
98.5%
Number of variants
95.3%
92.5%
Concordance with dbSNP135
SNVs
30,095
98.0% 97.1% 99.4%
3) dbSNP注释: 检测突变是否在dbSNP数据库中,如果在,显示rsID。 默认使用db SNP135数据库,如果有特定的要求,可以使用dbSNP129, dbSNP130,dbSNP131,dbSNP132数据库。
1.
2.Leabharlann Baidu
3.
Choi M, Scholl U I, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing[J]. Proceedings of the National Academy of Sciences, 2009, 106(45): 19096-19101. Yan X J, Xu J, Gu Z H, et al. Exome sequencing identifies somatic mutations of DNA methyltransferase gene DNMT3A in acute monocytic leukemia[J]. Nature genetics, 2011, 43(4): 309-315. Platforms A. Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia[J]. N Engl J Med, 2013, 2013(368): 2059-2074.
-Ng S B, Turner E H, Robertson P D, et al. Targeted capture and massively parallel sequencing of 12 human exomes[J]. Nature, 2009, 461(7261): 272-276.
五、数据分析内容
1. Mapping统计: 统计总reads数,mapped reads及unique mapped reads数目及百分比。 2. 捕获效率统计: 统计来自捕获区域的Fragment比例:
统计target区域所有的碱基覆盖次数分布:
对每个target区域的覆盖和深度统计: 如果客户对某些基因特别感兴趣,想要看看来自这些基因的外显子区域的覆盖情 况,可以提供每个target或者特定target区域的覆盖情况和测序深度统计。
人类基因组的蛋白编码区域大约包含85%的致病突变。
- Choi M, Scholl U I, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing[J]. Proceedings of the National Academy of Sciences, 2009, 106(45): 19096-19101.
基于Ion Proton™的外显子测序结果
Raw reads Reads mapped Percent reads
mapped
Reads on target
Percent reads on target
89,782,719 87,156,364
Mean depth of coverage
97.1%
2) 1000G注释: 检测突变位点是否在1000 Genomes Projects(2012 release)数据库中 检测到,如果检测到,显示等位基因频率(allele frequency)。默认 是使用所有人种的数据库,如果有特定要求,可以按照要求展示不同人 种(比如AMR, AFR, ASN,EUR,中国人,日本人)等位基因频率。
3. Snv和indel关联数据库:
Snv和indel结果按照突变的位点是否在捕获的区域之内分成两部分:
*_target.snv:突变处于捕获的靶区域(target region)内。
*_off_target.snv或者*_target.indel: 突变在捕获的靶区域之外。 Snv和indel结果与以下的数据库关联,为突变的筛选提供大量的信息。
1)基因注释: 通过基因注释可以达到以下的目的: a. 突变的功能定位(在外显子,内含子,剪接位点还是基因间区); b. 突变所在的基因名称或者临近的基因; c. 突变如果在编码区域,是否引起氨基酸的改变(同义突变,非同义突变 的呢过); d. 如果引起氨基酸的改变,按照HGVS命名规则表示--改变的基因ID,转录 本ID,外显子编号,以及氨基酸改变,如 OD2:NM_022162:exon8:c.G2722C:p.G908R。 默认使用refSeq完成基因注释,如果有特殊的要求,可以使用UCSC known gene,Ensembl,GENCODE,CCDS等基因注释系统。