利用外显子组测序检测一个家系突变的分析方法介绍201412
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四步:变异检测
• 运用 GATK/MuTect/VarScan/Atlas2 /Samtools /SVDetect /Polymutt等工具包, 查找 SNP和 Indel、缺失、插入、倒位、易 位、CNV等
– 我们目前采用GATK工具包 – GATK寻找SNP&Indel突变的流程图
• GATK Best Practices
• 第三代测序
– 无需PCR实时测,读长更长,但通量低,准确性有待提 高
目标序列捕获测序
• 针对外显子组区域或用户定制的特定染色体区 域,主要检测目标区域内的点变异 • 目标序列捕获测序可用于家系研究,也可用于 较大样本量的病例-对照研究。对于已经完成 连锁分析的家系,可将疾病连锁区间及附近的 DNA区域或外显子序列进行捕获后进行测序 • 相比全基因组测序更加经济、高效,但由于捕 获技术本身的局限性,也不能100%检测所有 的外显子或目标区域
• 家系分析变异筛选结果示例
– case common missense/stop/coding_change/frameshift/splice/ ncRNA snps NOT in family controls, – with 1000genomes(ALL & ASN) and ESP6500 frequency <16%(MAF<0.16), – compared against SKLMG sequenced controls & cases
• 实践显示,多种不同软件共同识别的变异 有更高的可靠性,因此有建议使用 consensus calls
第五步:变异注释
• 帮助预测变异的生物学功能或意义 • 运用 Annovar、SeattleAnnotation、 GenomeTrax等工具对每一变异筛查dbSNP、 1000genomes、PolyPhen、SIFT、 ESP 、 HGMD、OMIM、KEGG Pathway、CNV、 DGV等数据库,评估表型或疾病风险
高度近视HM-SR8家系找到的一个突变
sampl eCoun sample chrom startPos endPos ref alt function gene exonicPos hetStatus t M17811;M1 CA13:NM_198584:ex 8616305 frameshif 3 7812;M242 8 86163057 CT CA13 on2:c.126_127del:p.D het;het;het 8 t deletion 97 42fs, quality depth 3103.73; 143;121; 1848.73; 250 4975.73
显性 隐性
过滤正常人数据库 dbSNP, 1000 Genome Project, ESP, in-house数据库,
基因纯和或复合杂合位点
过滤正常人数据库
对蛋白功能影响的预测
dbSNP,1000 Genome Project, ESP, in-house数据库, 如:去除高频突变
变异筛选结果示例( SNP&Indel)
• 非编码改变的影响预测准确性还相对有限, 通过数量性状定位或关联分析的文献数据
来预测是目前最为有效的方法
第六步:变异筛选 (举例,并非唯一方案)
找出患者共有而正常对照没有的变异 去除不影响功能的变异,如同义变异、基因间区、内含子区的变异, 保留Missense, nonsense, splice site, frameshift, cds-indel等变异
(二)
数据分析基本流程
分析目的:变异检测
• DNA变异常见类型:
– 单核苷酸多态(SNP)和短片段插入缺失 (Indel) – 缺失(deletion) – 插入(insertion) – 倒位( inversion) – 易位(translocation) – 拷贝数变异 (CNV)
NGS数据分析基本流程
利用外显子组测序检测一个家 系突变的分析方法介绍
郑宇
2014-12-18
提纲
• NGS 测序简介 • 分析基本流程
– – – – – – 质量过滤 比对 寻Байду номын сангаас变异 变异质量过滤 变异注释 家系或群体样本综合分析过滤
(一)
NGS测序简介
DNA 测序简介
• 针对单个小扩增片段进行的Sanger测序(1-1000bp)
第三步:将序列比对到参考基因组
• 目的:对测出的序列片段进行定位,看位 于参考基因组上的哪个位置
• 生成SAM或BAM(二进制)文件
– 比对工具如:BWA,bowtie2,Illumina的 Hiseq Analysis Software ,SOAP等,我们用的 BWA mem
Bam文件用igv工具展示示例
SNP & Indel
突变注释(dbSNP,1000g,ESP6500, DGV等,位置,功能,保守性,通路, 蛋白互作网络…)
突变筛选,可视化 生成分析结果报告 突变验证,提送临床医生,生产诊断报告
SV
第一步:原始下机数据bcl文件转换 成fastq文件
FASTQ file format
FASTQ 文件示例,该文件包含一条序列:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
A FASTQ文件将每条序列用四行表示: 第一行 以“@’”打头,后跟着序列ID,可加上序列描述(类似于FASTA文件的标 题行); 第二行 是序列内容; 第三行 以‘+’ 打头,后面的序列ID和描述可有可无; 第四行 是第二行序列每个位点的质量值,字符个数必须与第二行完全相同。 以hiseq2000为例,一个run可产生6G reads(100bp 读长)
实验室操作(DNA提取,文库制备…)
测序(Illumina/SOLiD…)
加测/重测数据
质量差或 产量不足
质量评估(数据产量和质量), 并去除低质量碱基 序列拼接组装(比对,去重,indel重 新比对,碱基质量重新计算)
测序比对率,覆盖度,深度评估
覆盖度不够
变异检测(SNP,Indel…;体细胞, 生殖细胞)
变异注释工具比较
(Pabinger, et al. Brief in Bioinform, 2013)
实际应用中,具体运用某个特定的软件是可以根据需要调整、优化的
常用注释工具ANNOVAR
• http://www.openbioinformatics.org/annovar/
• 较全面的功能注释,广为使用 • 需在本地安装注释数据库,如dbSNP、 1000genomes、SIFT、DGV等,按需灵活使用 • 可基于基因注释、基于区间注释,还可过滤 • 对于SNP和indel,结果包括基因注释、氨基酸 置换预测评分、保守性预测评分、dbSNP ID、 千人基因组变异频率、NHLBI-ESP 6500 个外显 子测序变异频率等 • Annovar注释结果示例
Fastq文件示例>>
第二步:测序质量评估及过滤
• 评估数据产量和质量(Illumina报告示例), 并根据需要去除接头污染和低质量序列, 如:
– FastQC可对Illumina和ABI SOLiD测序序列质量 进行快速评估(FastQC质量报告示例) – FASTX-Toolkit和Galaxy即可评估序列质量,还 可去除污染碱基和低质量碱基并对序列进行 质量过滤
可在线使用的注释工具 SeattleSeq Annotation
• http://snp.gs.washington.edu/SeattleSeqAnnotation137/
• 可接受多种输入格式,如Maq、GFF、CASAVA、VCF、 自定义格式、一行一基因型格式、GATK BED • 可根据NCBI 全基因注释、或CCDS(仅编码区)、 或NCBI和CCDS两者兼有 • 注释的结果内容较SnpEff丰富,但不及ANNOVAR全 面
• Integrated Genomics Viewer (IGV)
(http://www.broadinstitute.org/software/igv/home )
– 浏览大型基因组数据的高性能交互式视图 – 整合了NCBI refGene数据、hg19、hg18等不同 版本的人类参考基因组 – 可在本地交互式查看局部比对 – 可同时查看多个样本的比对,支持多种数据类 型
– 目前是验证DNA序列突变的金标准
• 全基因组或全外显子组的第二代测序(Nextgeneration sequencing, NGS)(Illumina: 30-150bp)
– 优点:是通量高,成本较低 – 缺点:需PCR易引入误差,容易在高GC和同聚物的区域 出现错误,无法对高重复区域和单倍体型或杂合子序 列等这些复杂区域进行测序
Variant Call Format (VCF) 是用于存储基因序列变异的特定文本文件格式,该格式是随着 大规模基因分型和DNA测序而出现的,如千人基因组计划。它包含描述元数据的行,然后是数据 表头行,后面的数据行每行包含基因组中一个位置的信息(如变异信息)。
VCF(Variant Call Format)文件(示例)
( http://www.broadinstitute.org/gatk/guide/best-practices)
Snp&Indel生成VCF或者GVCF格式结果文件
VCF格式
vs.
GVCF格式
VCF 格式
##fileformat=VCFv4.0 ##fileDate=20110705 ##reference=1000GenomesPilot-NCBI37 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2 Sample3 2 4370 rs6057 G A 29 . NS=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,. 2 7330 . T A 3 q10 NS=5;DP=12;AF=0.017 GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3 0/0:41:3