外显子组测序信息分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
13721 92.05 47.31
12636 90.86 46.75
9776 66.84 43.05
9616 64.37 41.45
6904
6815
6684
6437
当比对到参考基因组目标区域的数据量在60%之上,认为外显子捕 获效率合格。
3.2.3、染色体覆盖深度分布
注:横坐标为染色体长度,纵坐标为覆盖深度取对数。
3.3、 SNP检测及注释
3.3.1、 SNP检测
SNP的检测主要使用GATK软件工具包实现。
BMK ID SNP Number
Transition Number
X1 X2 X3 X4 Total
985254 842516 263326 289954 1556901
669172 573399 178220 196145
Region Insertion Deletion Heterozygosity Homozygosity
Total
R01 51689 57643 89744 19588 109332
R02 44234 51061 78848 16447 95295
R03 15233 16705 28586 3352 31938
3.5.3 、样品间差异表达基因COG分类统计
COG数据库是基于细菌、藻类、真核生物的系统进化关系构建得到的,利用COG数据库可以对 基因产物进行直系同源分类。 注:横坐标为COG各分类内容,纵坐标为基因数目。在不同的功能类中,基因所占比例多少反 映对应时期和环境下代谢或者生理偏向等内容,可以结合研究对象在各个功能类的分布作出 科学的解释。
892 975
111 121 218 865 610 652 51 277 303 32 77 112 124
776 850 14 14 19 21 882 925 00 93 100 32 10 8 10 923 940 00 32 18
3.3.3、突变特征
突变频谱图
注:横坐标为不同类型的突变,纵坐标为不同类型突变对应的频率。
3.5、高级分析
3.5.1 、基因融合
注:最外圈表示人基因组及基因组上基因分布情况;文字代表发生基因 融合的基因ID;红色线条代表染色体间基因融合;绿色线条代表染色体
内基因融合。
3.5.2、氨基酸替换预测
ChrI D
chr1
Pos 881627
Codons Substitution
CTG-tTG
3.3.2、 SNP注释
Type
INTERGENIC INTRAGENIC INTRON
UPSTREAM DOWNSTREAM UTR_3_PRIME UTR_5_PRIME SPLICE_SITE_ACCEPTOR SPLICE_SITE_DONOR
CDS
Other
NON_SYNONYMOUS_CODING NON_SYNONYMOUS_START START_GAINED START_LOST STOP_GAINED STOP_LOST SYNONYMOUS_CODING SYNONYMOUS_STOP
L615L
SNP Type Synonymous
Prediction
Gene
TOLERATED ENSG00000188976
chr1 11884555 GAG-GgG chr1 12776344 ATG-tTG chr1 12919111 GAA-aAA
chr1 16356501 GCC-aCC
E198G M1L E83K
CDS
Other
CODON_DELETION CODON_INSERTION
EXON_DELETED
FRAME_SHIFT CODON_DELETION CODON_INSERTION
R01
48070
410
45413 3060 11633 33 265 15 6 15 12 267 94 15 12 19
外显子组测序在医学研究中的应用
一 • 外显子组测序技术简介 二 • 外显子组测序流程 三 • 外显子组测序信息分析内容 四 • 外显子组测序的应用方案
一、外显子组测序技术简介
外显子测序是指利用序列捕获技术将全基因组外显子区 域DNA捕捉并富集后,再进行高通量测序的基因组分析方法。
外显子组序列仅占全基因组序列的1%左右,与人类85% 致病基因突变相关。与全基因组测序相比,外显子组测序不 仅费用较低,而且测序覆盖度更深,数据准确性更高。
注: Codons:密码子的变化情况;Substitution:氨基酸的替换信息;SNP Type: SNP的类型;Prediction:预测结果(damaging/tolerated),TOLERATED表示这个突变 是可以容忍的,即对蛋白质功能没有影响或影响很小,DAMAGING表示突变是有 害的,即对蛋白质功能有较大影响; Gene :发生替换所在的基因。
R02
41601
337
39682 2706 10265 31 246 23 8 16 5 242 92 16 5 24
R03
13579
123
13701 759 3553 7 87 6 3 3 0 73 27 3 0 12
R04
14755
117
14581 851 3851 4 106 4 3 5 2 93 30 5 2 6
二、外显子组测序流程
基因组DNA的随机打断 DNA片段的末端修复和接头的连接
PCR扩增文库 DNA液相探针杂交捕获目的片段
PCR扩增捕获的DNA片段 测序文库的检测
HiSeq 2500测序 生物信息分析
三、外显子组测序信息分析流程
主要信息分析内容归类
3.1、数据过滤与评估 3.2、整体质量评估 3.3、SNP检测与注释 3.4、InDel检测与注释 3.5、高级分析
X1 118.70
X2 118.70
X3 118.70
X4 118.70
Reads_mapping_ref(single reads)2
182.95
168.48
97.76 96.16
Mapping_datasize(Mb)3 Effective_sequences_on_target(Mb)5 Average_sequencing_depth_on_target7
R01
449352
3425
401739
24452
95551
395 2165 31 61 1971 2 378 8 26 5 1772 1 106
R02
380794
2896
343966
21350
83565
407 1891 36 54 1899 1 346 6 24 3 1732 1 89
R0 R0 34 113 125 110 682
源自文库
R04 16573 17840 30639 3774 34413
Total 92775 107838
--200613
3.4.1、 InDel注释
Type
INTERGENIC
INTRAGENIC INTRON UPSTREAM DOWNSTREAM UTR_3_PRIME UTR_5_PRIME SPLICE_SITE_ACCEPTOR SPLICE_SITE_DONOR
3.5.4 、样品间差异表达基因GO分类统计
差异基因GO注释聚类图
topGO有向无环图
3.5.5 、样品间差异表达基因KEGG注释
差异基因KEGG通路示意图
四、外显子组测序的应用思路
4.1 WES找寻孟德尔疾病致病基因思路
遴选和采集 病例和家系 Samples collection
全外显子测序 Whole-exome sequencing
A447T
Nonsynonymous Nonsynonymous Nonsynonymous
Nonsynonymous
TOLERATED TOLERATED DAMAGING
TOLERATED
ENSG00000011021 ENSG00000188984 ENSG00000120952
ENSG00000186510
全基因组测序及分析 WES样本选取
外显子组测序及分析 基因突变功能验证
外显子组测序及分析 转录组测序
基因突变功能验证
4.3 WES在复杂疾病上的研究的思路
样本选取(遗传性较高) 外显子组测序
找到与疾病高度关联的低频突变 在大样本里进行大规模验证
Biomarker,生物技术服务专家
Transversion Number
316082 269117 85106 93809
Ti/Tv Ratio
2.11 2.13 2.09 2.09
Heterozygosity Number
207400 167179 26436 30446
Homozygosity Number
777854 675337 236890 259508
3.3.3、突变特征
突变位点上下文碱基偏好性
注:横坐标为突变位点上下文的碱基位置,0为SNP突变位点,负数代表突变位点前的碱基, 正数代表突变位点后的碱基,纵坐标为不同碱基对应的比例。从图上可以看出,不同类型 的SNP突变上下文具有不同的碱基偏好性。
3.4、 InDel检测及注释
3.4.1、 InDel检测
碱基含量分布图
3.2、整体测序质量评估
3.2.1、测序深度统计
注:横坐标代表测序深度,纵坐标代表目标区域上对应深度的碱基数占总碱 基数的百分比。目标区域的单碱基分布近似服从泊松分布。
3.2.2、外显子捕获统计
Target region stat Length_of_target_region(Mb)1
3.1、数据过滤与评估
3.1.1、原始数据过滤
1. 过滤接头。对含接头的reads去除接头序列。 2. 一条reads上N(未能确定出具体的碱基类型)的比例
大于5%,则过滤掉该reads。 3. 过滤低质量reads,过滤掉Q30<85% reads。
3.1.2、测序数据统计与评估
测序质量值分布图
Mismatch_rate_in_target_region8 Mismatch_rate_in_all_effective_sequence9
Base_covered_on_target(Mb)10 Coverage_of_target_region11 Fraction_of_target_covered_with_at_least_20x12 Fraction_of_target_covered_with_at_least_10x13 Fraction_of_target_covered_with_at_least_4x14
分析及预测候选基因突变致病性 Analysis and predict candidate causative variats
生物学功能研究 Functional research
在多个家系或散发病例中进行突变筛查研究 Mutation screening
4.2 WES肿瘤研究上的思路
样本选取
样本选取