临床基因组学:第七章-第3讲 Sanger测序及高通量测序技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 2012年,《自然》杂志报道了1092个人类基因组序列。
• NHLBI Cohort (ESP6500)
• NHLBI美国国家心脏、肺、血液研究所 • 6503个样本:
• 2203 African-Americans • 4300 European-Americans
遗传病的基因突变
微小突变
苯丙酮尿症 甲基丙二酸血症 肝豆状核变性 RETT综合征
residue where a
established
where LOF is a
different pathogenic pathogenic variant known
missense change has PS1
• 起始密码子(Met1)变异:
• P.Met1?
• 缺失变异(deletions)
• p.Gln8del • p.Gly4_Gln6del
• 重复突变(duplications)
• p.Gln8dup • p.Gly4_Gln6dup
• 无义突变
• P.Trp26X
• 插入变异(insertions) • p.Lys2_Leu3insGlnSer
计算机 预测
Multiple lines of computational Multiple lines of
evidence suggest no impact on Computational
gene/gene product BP4
evidence support a
deleterious effect on
Variant impact on gene, transcript, protein sequence
Sequence conservation Phylogenetic and structural characteristics
Meta-prediction aggregator
Random forest prediction method Meta-prediction and annotation score Phylogenetic and disease-based conservation Meta-data type integration Meta-data, meta-prediction aggregator Disease phenotype–gene relationships
http://www.cbs.dtu.dk/services/NetGene2/
• 在CBS网站,正常序列结果如下: • Donor:350 confidence:0.76 • 说明剪接位点在350处,序列为atcag^gtaggac
基因变异临床解释指南: 美国遗传学与基因组学学会指南
基因突变/变异
临床基因组学 第七章
Sanger测序及高通量测序技术
• 第一节 核酸测序技术的发展 • 第二节 Sanger测序技术 • 第三节 高通量测序技术及其应用
• 1. 了解高通量测序结果分析的流程 • 2. 掌握常见的基因突变的类型 • 3. 熟悉常用的人群基因变异数据库 • 4. 了解常用的基因变异分析软件 • 5. 了解高通量测序技术的临床应用
分析流程
A D
B
C
文献阅读
• 病例报告or功能研究
• 必要时查阅多篇文献
分析流程
A D
B C
完成报告
• 视情况对先证者的突变位点进行 Sanger测序,同时对先证者家属标本进 行验证 • 撰写报告,审核并签发
基因突变的注释
• 检测到的变异需进一步进行注释,以确定其生物学意义,进行下 游的分析和功能研究。
Human inherited disease gene lesions
Clinical human variation to phenotype relationships
网址
https:///drupal/
高通量测序结果分析的流程
• 分析的起点:化学信号、荧光信号或者电流信号 • 原始信号转为序列信号:产生大量的reads,带有质量、位置参数 • 质量控制:设定一个质量门槛,排除质量差的reads或者部分序列
• 从头测序 • 序列拼接、组装、注释
• 重测序 • 序列比对:将一个个质量合格的reads比对到参考序列 • 突变识别:通过比对,找出测序结果中与参考序列不一致的序 列,并且用一套命名方法进行命名 • 基因突变的注释
出自:ACMG guideline (2015)
分析流程
A D
B C
序列比对
• bcl2fastq:将测序下机数据按样本分 割并转为fastq格式 • bwa:将测序数据比对到人类参考基 因组上 • samtools/picard:整理比对结果、标 记duplicate等
分析流程
A D
B C
数据库分析
• Pathogenic(致病的) • Likely pathogenic (可疑致病的) • Uncertain significance (VUS)(意义未明的) • Likely benign(可能良性的) • Benign(良性的)
• 描述致病性的变异用“突变”,良性的或者不清楚的用“变异”
• 这部分主要是结合多种生物注释数据库综合分析,包括频率、结 构、预测及突变数据库,每种注释方法都有其优缺点,故分析时 需综合各数据库的结果判断。
常用的基因变异注释分析资源
类别
资源
1000 Genomes Project
基于大样本 人群频率统计
NHLBI Cohort
HapMap Project
SnpEff 基于结构分析 VEP
• 插入/缺失变异(indels) • p.Cys28_Lys29indelsTrp
• 框移变异(frame shifts) • p.Arg97fs
• 插入变异(insertions) • p.Gly4_Gln6dup
Polyphen蛋白预测
• 结果分析
剪接预测相关网站及使用
• 网站
• /SplicingAnalyser.html • http://www.cbs.dtu.dk/services/NetGene2/
• 1、bcl2fastq four channel:
能读出几条序列?
two channel(A/T;A/C):
GGT, ATT, CAA, GCA
TCA, ATG, CGT, GGC
FASTQ格式:
一个位点质量与该位点测序错误率之间的关系为: 简单对应如下:
高通量测序结果分析的流程
高通量测序结果分析的流程(重测序)
http://www.lovd.nl/3.0/home
/clinvar/
• 千人基因组计划(1000 Genomes Project, 1000G)
• 国际千人基因组计划主要由中国、英国、美国等多个国际协 作完成。
• GATK:call SNV/indel • annovar:对突变位点进行注释,例 如突变在人群中的频率(千人基因组、 ESP6500和dbSNP)、有无文献报道致 病(HGMD)等 • 错义突变分析:PolyPhen2; SIFT等等 • 剪接改变的分析:NetGene2 Server; AUGUSTUS等
拷贝数变异 复杂变异
脆性X综合征 遗传共济失调 亨廷顿病 FSHD OPMD
PWS综合征
Angelman 地贫
Down syndrome
基因机构简图
基因变异类型与命名
/mutnomen/recs-prot.html
DNA水平命名
• 替代变异(substitutions) • 外显子区:c.203T>C • 内含子区:c.89-1G>T
SIFT POLYPHEN
CONDEL
基于生物信息学 预测
MutPred CADD
VAAST
MutationTaster
ANNOVAR
OMIM
Leiden Open Variation
循证研究
Database Human Gene Mutation
Database
ClinVar
简介 Low-coverage whole genome sequencing of 2500 healthy humans 6500 Sequenced exomes from heart, lung, and blood disorder patients SNP-based data set to define haplotypes across 270 ethnically diverse humans Variant impact on codon and gene structure
高通量测序结果分析
• 从头测序(de novo sequencing) • 对基因组序列未知或没有近源物种基因组信息的某个拼接、组装和注释,从而获得该物种 完整的基因组序列图谱。
• 重测序(re-sequencing) • 全基因组重测序是对已知参考基因组序列的物种进行不同个 体间的基因组测序,并在此基础上对个体或群体进行差异性 分析。通过全基因组重测序,研究人员可以找到大量的单核 苷酸多态性位点(SNP)、拷贝数变异(Copy Number Variation, CNV)、插入缺失(InDel)、结构变异(Structure Variation, SV)等变异信息
Prevalence in affecteds statistically increased over controls PS4
Novel missense change Same amino acid Predicted null
at an amino acid
change as an
variant in a gene
Missense in gene where only the gene /gene
truncating cause disease BP1 product PP3
Silent variant with nonpredicted splice impact BP7
Absent in population databases PM2
• 缺失变异(deletion) • c.450delT • c.25_27delTCA
• 重复突变(duplications) • c.7_8dupAT
• 插入突变(insertions) • c.112_117indelsTG
蛋白质水平
• 错义突变
• p.Trp26Cys
• 同义变异
• c.162C>G(p.=)
/SnpEff.html /info/docs/tools/vep/inde x.html / /pph/ /sequencing/genomeresequencing/driver-mutations/condel-s654.html / /software/vaast.html /annovar/
良性 / 非致病性
病理性
强力证据
Hale Waihona Puke 支持性证据支持性证据 中等强度证据
强证据 极强证据
MAF is too high for disorder BA1/BS1 OR 群体研究 observation in 数据 controls inconsistent with disease penetrance BS2
• NHLBI Cohort (ESP6500)
• NHLBI美国国家心脏、肺、血液研究所 • 6503个样本:
• 2203 African-Americans • 4300 European-Americans
遗传病的基因突变
微小突变
苯丙酮尿症 甲基丙二酸血症 肝豆状核变性 RETT综合征
residue where a
established
where LOF is a
different pathogenic pathogenic variant known
missense change has PS1
• 起始密码子(Met1)变异:
• P.Met1?
• 缺失变异(deletions)
• p.Gln8del • p.Gly4_Gln6del
• 重复突变(duplications)
• p.Gln8dup • p.Gly4_Gln6dup
• 无义突变
• P.Trp26X
• 插入变异(insertions) • p.Lys2_Leu3insGlnSer
计算机 预测
Multiple lines of computational Multiple lines of
evidence suggest no impact on Computational
gene/gene product BP4
evidence support a
deleterious effect on
Variant impact on gene, transcript, protein sequence
Sequence conservation Phylogenetic and structural characteristics
Meta-prediction aggregator
Random forest prediction method Meta-prediction and annotation score Phylogenetic and disease-based conservation Meta-data type integration Meta-data, meta-prediction aggregator Disease phenotype–gene relationships
http://www.cbs.dtu.dk/services/NetGene2/
• 在CBS网站,正常序列结果如下: • Donor:350 confidence:0.76 • 说明剪接位点在350处,序列为atcag^gtaggac
基因变异临床解释指南: 美国遗传学与基因组学学会指南
基因突变/变异
临床基因组学 第七章
Sanger测序及高通量测序技术
• 第一节 核酸测序技术的发展 • 第二节 Sanger测序技术 • 第三节 高通量测序技术及其应用
• 1. 了解高通量测序结果分析的流程 • 2. 掌握常见的基因突变的类型 • 3. 熟悉常用的人群基因变异数据库 • 4. 了解常用的基因变异分析软件 • 5. 了解高通量测序技术的临床应用
分析流程
A D
B
C
文献阅读
• 病例报告or功能研究
• 必要时查阅多篇文献
分析流程
A D
B C
完成报告
• 视情况对先证者的突变位点进行 Sanger测序,同时对先证者家属标本进 行验证 • 撰写报告,审核并签发
基因突变的注释
• 检测到的变异需进一步进行注释,以确定其生物学意义,进行下 游的分析和功能研究。
Human inherited disease gene lesions
Clinical human variation to phenotype relationships
网址
https:///drupal/
高通量测序结果分析的流程
• 分析的起点:化学信号、荧光信号或者电流信号 • 原始信号转为序列信号:产生大量的reads,带有质量、位置参数 • 质量控制:设定一个质量门槛,排除质量差的reads或者部分序列
• 从头测序 • 序列拼接、组装、注释
• 重测序 • 序列比对:将一个个质量合格的reads比对到参考序列 • 突变识别:通过比对,找出测序结果中与参考序列不一致的序 列,并且用一套命名方法进行命名 • 基因突变的注释
出自:ACMG guideline (2015)
分析流程
A D
B C
序列比对
• bcl2fastq:将测序下机数据按样本分 割并转为fastq格式 • bwa:将测序数据比对到人类参考基 因组上 • samtools/picard:整理比对结果、标 记duplicate等
分析流程
A D
B C
数据库分析
• Pathogenic(致病的) • Likely pathogenic (可疑致病的) • Uncertain significance (VUS)(意义未明的) • Likely benign(可能良性的) • Benign(良性的)
• 描述致病性的变异用“突变”,良性的或者不清楚的用“变异”
• 这部分主要是结合多种生物注释数据库综合分析,包括频率、结 构、预测及突变数据库,每种注释方法都有其优缺点,故分析时 需综合各数据库的结果判断。
常用的基因变异注释分析资源
类别
资源
1000 Genomes Project
基于大样本 人群频率统计
NHLBI Cohort
HapMap Project
SnpEff 基于结构分析 VEP
• 插入/缺失变异(indels) • p.Cys28_Lys29indelsTrp
• 框移变异(frame shifts) • p.Arg97fs
• 插入变异(insertions) • p.Gly4_Gln6dup
Polyphen蛋白预测
• 结果分析
剪接预测相关网站及使用
• 网站
• /SplicingAnalyser.html • http://www.cbs.dtu.dk/services/NetGene2/
• 1、bcl2fastq four channel:
能读出几条序列?
two channel(A/T;A/C):
GGT, ATT, CAA, GCA
TCA, ATG, CGT, GGC
FASTQ格式:
一个位点质量与该位点测序错误率之间的关系为: 简单对应如下:
高通量测序结果分析的流程
高通量测序结果分析的流程(重测序)
http://www.lovd.nl/3.0/home
/clinvar/
• 千人基因组计划(1000 Genomes Project, 1000G)
• 国际千人基因组计划主要由中国、英国、美国等多个国际协 作完成。
• GATK:call SNV/indel • annovar:对突变位点进行注释,例 如突变在人群中的频率(千人基因组、 ESP6500和dbSNP)、有无文献报道致 病(HGMD)等 • 错义突变分析:PolyPhen2; SIFT等等 • 剪接改变的分析:NetGene2 Server; AUGUSTUS等
拷贝数变异 复杂变异
脆性X综合征 遗传共济失调 亨廷顿病 FSHD OPMD
PWS综合征
Angelman 地贫
Down syndrome
基因机构简图
基因变异类型与命名
/mutnomen/recs-prot.html
DNA水平命名
• 替代变异(substitutions) • 外显子区:c.203T>C • 内含子区:c.89-1G>T
SIFT POLYPHEN
CONDEL
基于生物信息学 预测
MutPred CADD
VAAST
MutationTaster
ANNOVAR
OMIM
Leiden Open Variation
循证研究
Database Human Gene Mutation
Database
ClinVar
简介 Low-coverage whole genome sequencing of 2500 healthy humans 6500 Sequenced exomes from heart, lung, and blood disorder patients SNP-based data set to define haplotypes across 270 ethnically diverse humans Variant impact on codon and gene structure
高通量测序结果分析
• 从头测序(de novo sequencing) • 对基因组序列未知或没有近源物种基因组信息的某个拼接、组装和注释,从而获得该物种 完整的基因组序列图谱。
• 重测序(re-sequencing) • 全基因组重测序是对已知参考基因组序列的物种进行不同个 体间的基因组测序,并在此基础上对个体或群体进行差异性 分析。通过全基因组重测序,研究人员可以找到大量的单核 苷酸多态性位点(SNP)、拷贝数变异(Copy Number Variation, CNV)、插入缺失(InDel)、结构变异(Structure Variation, SV)等变异信息
Prevalence in affecteds statistically increased over controls PS4
Novel missense change Same amino acid Predicted null
at an amino acid
change as an
variant in a gene
Missense in gene where only the gene /gene
truncating cause disease BP1 product PP3
Silent variant with nonpredicted splice impact BP7
Absent in population databases PM2
• 缺失变异(deletion) • c.450delT • c.25_27delTCA
• 重复突变(duplications) • c.7_8dupAT
• 插入突变(insertions) • c.112_117indelsTG
蛋白质水平
• 错义突变
• p.Trp26Cys
• 同义变异
• c.162C>G(p.=)
/SnpEff.html /info/docs/tools/vep/inde x.html / /pph/ /sequencing/genomeresequencing/driver-mutations/condel-s654.html / /software/vaast.html /annovar/
良性 / 非致病性
病理性
强力证据
Hale Waihona Puke 支持性证据支持性证据 中等强度证据
强证据 极强证据
MAF is too high for disorder BA1/BS1 OR 群体研究 observation in 数据 controls inconsistent with disease penetrance BS2