外显子组测序ppt课件
外显子组测序信息分析
Base_covered_on_target(Mb)10 Coverage_of_target_region11 Fraction_of_target_covered_with_at_least_20x12 Fraction_of_target_covered_with_at_least_10x13 Fraction_of_target_covered_with_at_least_4x14
13721 92.05 47.31
12636 90.86 46.75
9776 66.84 43.05
9616 64.37 41.45
6904
6815
6684
6437
当比对到参考基因组目标区域的数据量在60%之上,认为外显子捕 获效率合格。
3.2.3、染色体覆盖深度分布
注:横坐标为染色体长度,纵坐标为覆盖深度取对数。
二、外显子组测序流程
基因组DNA的随机打断 DNA片段生物信息分析
三、外显子组测序信息分析流程
主要信息分析内容归类
3.1、数据过滤与评估 3.2、整体质量评估 3.3、SNP检测与注释 3.4、InDel检测与注释 3.5、高级分析
外显子组测序在医学研究中的应用
一 • 外显子组测序技术简介 二 • 外显子组测序流程 三 • 外显子组测序信息分析内容 四 • 外显子组测序的应用方案
一、外显子组测序技术简介
外显子测序是指利用序列捕获技术将全基因组外显子区 域DNA捕捉并富集后,再进行高通量测序的基因组分析方法。
外显子组序列仅占全基因组序列的1%左右,与人类85% 致病基因突变相关。与全基因组测序相比,外显子组测序不 仅费用较低,而且测序覆盖度更深,数据准确性更高。
外显子测序
b r i e fc o m m u n i c at i o n sHyperphosphatasia mental retardation (HPMR) syndrome is an autosomal recessive form of mental retardation with distinct facial features and elevated serum alkaline phosphatase. We performed whole-exome sequencing in three siblings of a nonconsanguineous union with HPMR and performed computational inference of regions identical by descent in all siblings to establish PIGV , encoding a member of the GPI-anchor biosynthesis pathway, as the gene mutated in HPMR. We identified homozygous or compound heterozygous mutations in PIGV in three additional families.Recessive mutations are relatively common in the human genome, but their identification remains challenging. Initial efforts at using exome sequencing for disease gene discovery 1 analyzed small num-bers of unrelated individuals, removed variants that are common or not predicted to be deleterious and then searched for genes with such variants in all affected individuals. The analysis of the exome sequences of two siblings and two further unrelated individuals affected by the autosomal recessive Miller syndrome led to the iden-tification of DHODH as the disease gene 2. Subsequently, researchers analyzed whole genome sequences of the same two siblings and their parents to identify chromosomal regions in which both siblings had inherited identical haplotypes from both parents, which allowed thenumber of gene candidates for Miller syndrome to be reduced from 34 to 4, showing that linkage information represents a useful filter for genome sequence data 3. These studies illustrate the utility of sophisti-cated algorithmic analysis in reducing the candidate gene set beyond what can be achieved by a simple intersection filter.HPMR, also known as Mabry syndrome (MIM%239300), was ini-tially described as an autosomal recessive syndrome characterized by mental retardation and greatly elevated alkaline phosphatase levels 4,5. Within a group of individuals with this rare syndrome, a previous study 6 delineated a specific clinical entity characterized by a distinct facial gestalt including hypertelorism, long palpebral fissures, a broad nasal bridge and tip, and a mouth with downturned corners and a thin upper lip, as well as brachytelephalangy. More variable neurological features included seizures and muscular hypotonia 6.Here, DNA from three siblings of nonconsanguineous parents with this subtype of HPMR was analyzed by exome sequenc-ing (Supplementary Figs. 1 and 2 and Supplementary Table 1). Whole-exome sequencing using the ABI SOLiD platform was per-formed following enrichment of exonic sequences using Agilent’s SureSelect whole-exome enrichment. Called variants were filtered to exclude variants not found in all affected persons as well as common variants identified in the dbSNP130 or HapMap databases, which left 14 candidate genes on multiple chromosomes (Table 1 and Supplementary Tables 2–4).In this work, we developed a statistical model that allowed us to infer regions that are identical by descent (IBD) from the exome sequences of only the affected children of a family in which an auto-somal recessive disorder segregates. In consanguineous families, affected siblings share two haplotypes that are inherited from a single common ancestor at the disease locus and are thus homozygous by descent. In nonconsanguineous families, the affected children inherit identical maternal and paternal haplotypes in a region surrounding the disease gene, meaning that both haplotypes originated from the same maternal and paternal haplotype but are not necessarily from an identical ancestor (IBD = 2).We developed an algorithm based on a Hidden Markov Model (HMM), a type of Bayesian network that is used to infer a sequence of hidden (that is, unobservable) states. We used the HMM algorithm to identify chromosomal regions with IBD = 2 in the presence of noisy (that is, potentially erroneous) sequence data. It is not possible to measure the IBD = 2 state directly; it is only possible to determine whether the genotypes of the siblings are compatible with identity-by-state status, that is, whether each sibling has the same homozygousIdentity-by-descent filtering of exome sequence dataidentifies PIGV mutations in hyperphosphatasia mental retardation syndromePeter M Krawitz 1–3,11, Michal R Schweiger 1,2,11,Christian Rödelsperger 1–3, Carlo Marcelis 4, Uwe Kölsch 5, Christian Meisel 5, Friederike Stephani 4, Taroh Kinoshita 6, Yoshiko Murakami 6, Sebastian Bauer 2, Melanie Isau 1,Axel Fischer 1, Andreas Dahl 1, Martin Kerick 1, Jochen Hecht 1,3, Sebastian Köhler 2, Marten Jäger 2, Johannes Grünhagen 2, Birgit Jonske de Condor 2, Sandra Doelken 2, Han G Brunner 4, Peter Meinecke 7, Eberhard Passarge 8, Miles D Thompson 9,David E Cole 9, Denise Horn 2, Tony Roscioli 4,10, Stefan Mundlos 1–3 & Peter N Robinson 1–31Max Planck Institute for Molecular Genetics, Berlin, Germany. 2Institut für Medizinische Genetik, Charité Universitätsmedizin Berlin, Berlin, Germany.3Berlin-Brandenburg Center for Regenerative Therapies (BCRT), Charité -Universitätsmedizin Berlin, Berlin, Germany. 4Department of Human Genetics, UniversityMedical Centre St. Radboud, Nijmegen, The Netherlands. 5Institut für Medizinische Immunologie, Charité Universitätsmedizin Berlin, Berlin, Germany. 6Department of Immunoregulation, Research Institute for Microbial Diseases, Osaka University, Osaka, Japan. 7Medizinische Genetik, Altonaer Kinderkrankenhaus, Hamburg, Germany. 8Institut für Humangenetik, Universitätsklinikum Essen, Essen, Germany. 9Department of Laboratory Medicine and Pathobiology, University of Toronto, Toronto, Ontario, Canada. 10Department of Molecular and Clinical Genetics, University of Sydney, Sydney, Australia. 11These authors contributed equally to this work. Correspondence should be addressed to S.M. (stefan.mundlos@charite.de) or P .N.R. (peter.robinson@charite.de).Received 29 March; accepted 3 August; published online 29 August 2010; doi:10.1038/ng.653© 2010 N a t u r e A m e r i c a , I n c . A l l r i g h t s r e s e r v e d.b r i e fc o m m u n i c at i o n sor heterozygous genotype, a situation which we refer to as IBS*. In our model, every genetic locus was either IBD = 2 or IBD ≠ 2. The HMM was then used to predict the most likely sequence of IBD = 2 or IBD ≠ 2 chromosomal segments on the basis of the observed exome sequences of two or more affected siblings (Supplementary Fig. 1 and Supplementary Methods ).HMM analysis decreased the search space to about 20% of the tran-scribed genome, reducing the number of candidate genes with muta-tions present in all three siblings from 14 to 2 (Table 1, Supplementary Table 5 and Supplementary Figs. 3–5). The two mutations, c.[859G>A]+[859G>A] in SLC9A1 and c.[1022C>A]+[1022C>A] in PIGV , were located within a 13-Mb homozygous block that was part of a larger 35-Mb IBD = 2 block. Runs of homozygosity of up to 4 Mb can occur in the European population even in individuals with no shared ancestors in the previous five to ten generations 7. Both variants were confirmed with ABI Sanger sequencing and were not detected in 200 healthy, unrelated central European individuals. Further homozygous and compound heterozygous mutations were detected in PIGV in individuals from the families designated B 8, C 9 and D 10 (Supplementary Note and Supplementary Tables 6 and 7). All of these missense mutations affect evolutionarily highly conserved residues of PIGV (Fig. 1a ).PIGV, the second mannosyltransferase in the GPI anchor bio-synthesis pathway 11, appeared to be of particular interest because alkaline phosphatase is a GPI-anchored protein. Over 100m ammalian proteins are modified by a glycosylphosphatidylinosi tol (GPI) anchor at their C terminus. The highly conserved back-bone structure of the GPI anchor is synthesized in the endoplasmicr eticulum through at least nine sequential reaction steps mediated by at least 18 proteins. GPI-anchored proteins comprise functionally divergent classes including hydrolytic enzymes, receptors, adhesion molecules and proteins with roles in the immune system 12. Little is known to date about the phenotypic consequences of mutationsof the GPI pathway in mammals. Abrogation of GPI biosynthesis in mice by knockdown of Piga , which encodes a protein that is involved in the first step of GPI-anchor biosynthesis, results in embryonic lethality 13. Somatic loss-of-function mutations in PIGA in hematopoietic stem cells are associated with paroxysmaln octurnal hemoglobinuria 14, primarily because the progeny of affected stem cells are deficient in the GPI-anchored complement regulatory proteins CD55 and CD59, leading to the intravascular hemolysis characteristic of the disease. A promoter mutation in PIGM , encoding a subunit of the complex transferring the first mannose, reduces PIGM expression by over 90% and leads to an autosomal recessive syndrome characterized by hepatic venous thrombosis and absence seizures 15.Defects in the GPI biosynthesis pathway can result in down-regulation of GPI-anchored proteins but not necessarily in a uniform reduction of all such proteins 12. We therefore examined the surface expression of the GPI anchor itself on leukocytes of three indivi-duals with HPMR using Alexa488-conjugated inactivated aerolysin (FLAER). All three subjects showed a substantial reduction of GPI-anchor expression. Correspondingly, expression of the GPI-anchored protein CD16 was markedly reduced (Supplementary Fig. 6). Wild-type PIGV cDNA and PIGV cDNA containing the p.Ala341Glu alteration were transiently transfected into PIGV-deficient Chinese hamster ovary (CHO) cells 11 to assess their effect on protein expression. Cells transfected with themutant constructdid not restore surface expression of GPI-anchored marker proteins (Fig. 1b ), possibly because expressed PIGV protein levels were substantially reduced (Fig. 1c ).Human Mouse Rat Dog Cow Horse FrogZebrafishLumenPIGVCytosolNH 2p.Gln256Lysp.Ala341Glu p.Ala341ValCD59CD55GAPDH12337 kD37 kDPIGV0.0011.50.4p.His385Pro QAHCOOHab cfigure 1 Identification of PIGV mutations in individuals with HPMRsyndrome. (a ) The homozygous PIGV mutation c.[1022C>A]+[1022C>A]; p.[Ala341Glu]+[Ala341Glu] was detected via whole exome sequencing in family A. Further homozygous and compound heterozygous mutations affecting evolutionarily highly conserved residues were found in threeunrelated families: c.[1022C>A]+[1154A>C]; p.[Ala341Glu]+[His385Pro] in family B, c.[766C>A]+[766C>A]; p.[Gln256Lys]+[Gln256Lys] in family C, and c.[1022C>A]+[1022C>T]; p.[Ala341Glu]+[Ala341Val] in family D. (b ) PIGV-deficient CHO cells were transiently transfected with wild-type (dashed lines) or p.Ala341Glu mutant (solid lines) PIGV cDNA in a weak expression vector or the empty vector (gray shadow). Wild-type PIGV efficiently restored the surface expression of CD59 (left) and CD55 (right), whereas p.Ala341Glu mutant PIGV induced only very low levels of CD59 and CD55. (c ) PIGV protein levels were assessed 2 d after transfection of a control vector (lane 1), wild-type PIGV (lane 2) and PIGV with p.Ala341Glu (lane 3). The numbers beneath the gel indicate the relative intensity of PIGV to GAPDH expression.table 1 number of genes with nonsynonymous variants and acceptor or donor splice site mutationsA1A2A3A1 & A2 & A3FilterHomozygous heterozygous All Homozygous heterozygous All Homozygous heterozygous All Homozygous heterozygous All NS/SS2,7529343,3852,9001,0903,6402,8061,0703,6251,7282731,928Not in dbSNP13018235216218472622003823512214IBD = 2165212052517623202Sanger validated22Reducing the search space to the identical by descent (IBD = 2) regions and filtering out all common variants decreased the number of genes with nonsynonymous variants and acceptor or donor splice site mutation to two candidate genes. NS, nonsynonymous; SS, acceptor or donor splice site mutations.© 2010 N a t u r e A m e r i c a , I n c . A l l r i g h t s r e s e r v e d .b r i e fc o m m u n i c at i o n sIn summary, we have identified PIGV mutations in HPMR using whole-exome capture and SOLiD sequencing in combination with an HMM algorithm to identify regions with IBD = 2 in siblings affected with autosomal recessive disorders. Our algorithm can be used in combination with other bioinformatic filters to streamline gene dis-covery in future exome sequencing projects.Accession codes. The mutations in this work were numbered according to transcripts available in GenBank under the codes NM_003047.3 (SLC9A1) and NM_017837.2 (PIGV ).Note: Supplementary information is available on the Nature Genetics website.ACKNowlEDGMENTSThis work was supported by a grant from the Deutsche Forschungsgemeinschaft (SFB 665) to S.M., by a grant from Bundesministerium für Bildung und Forschung (BMBF , project number 0313911) and an Australian National Health and Medical Research Council international research training fellowship to T.R., and by a grant of the Canadian Institutes of Health Research and Epilepsy Canada to M.D.T. We thank B. Fischer, U. Kornak, M. Ralser, E. van Beusekom, U. Marchfelder and D. Lefeber for their assistance in this project.AUTHoR CoNTRIBUTIoNSM.R.S., M.I. and A.D. performed targeted exome resequencing. P .M.K., C.R., A.F., M.K., S.B., S.K., M.J. and P .N.R. performed bioinformatic analysis. P .M.K., C. Marcelis, J.G., B.J.d.C., F.S. and T.R. performed mutation analysis andgenotyping. D.H., C. Marcelis, M.D.T., D.E.C., S.D., P .M., E.P ., T.R. and H.G.B.contributed to clinical evaluation of the affected individuals and delineation of the phenotype. P .M.K., U.K. and C. Meisel performed flow cytometric analysis. Y.M. and T.K. performed analysis of wild-type and A341E PIGV clones. P .M.K., M.R.S., D.H., J.H., H.G.B., P .N.R. and S.M. carried out the project planning and preparation of the manuscript.CoMPETING FINANCIAl INTERESTSThe authors declare no competing financial interests.Published online at /naturegenetics/.Reprints and permissions information is available online at /reprintsandpermissions/.1. Ng, S.B. et al. Nat. Genet. 42, 30–35 (2010).2. Ng, S.B. et al. Nature 461, 272–276 (2009).3. Roach, J.C. et al. Science 328, 636–639 (2010).4. Mabry, C.C. et al. J. Pediatr. 77, 74–85 (1970).5.Kruse, K., Hanefeld, F ., Kohlschutter, A., Rosskamp, R. & Gross-Selbeck, G. J. Pediatr. 112, 436–439 (1988).6. Horn, D., Schottmann, G. & Meinecke, P . Eur. J. Med. Genet. 53, 85–88 (2010).7. McQuillan, R. et al. Am. J. Hum. Genet. 83, 359–372 (2008).8. Rabe, P . et al. Am. J. Med. Genet. 41, 350–354 (1991).9. Marcelis, C.L., Rieu, P ., Beemer, F . & Brunner, H.G. Clin. Dysmorphol. 16, 73–76(2007).10. Thompson, M.D. et al. Am. J. Med. Genet. 152a , 1661–1669 (2010).11. Kang, J.Y. et al. J. Biol. Chem. 280, 9489–9497 (2005).12. Kinoshita, T., Fujita, M. & Maeda, Y. J. Biochem. 144, 287–294 (2008).13. Nozaki, M. et al. Lab. Invest. 79, 293–299 (1999).14. Takeda, J. et al. Cell 73, 703–711 (1993).15. Almeida, A.M. et al. Nat. Med. 12, 846–851 (2006).© 2010 N a t u r e A m e r i c a , I n c . A l l r i g h t s r e s e r v e d.。
外显子组测序ppt课件
- Choi M, Scholl U I, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing[J]. Proceedings of the National Academy of Sciences, 2009, 106(45): 19096-19101.
Reads on target
Percent reads on target
89,782,719 87,156,364 97.1%
Mean depth of coverage
Target bases at 1x
68,899,95
7
Target bases at 10x
79.1%
Target bases at 20x
• Exome sequencing produced a higher level of coverage for the targeted sequences (mean, 167.50×), slightly increasing our ability to detect mutations with VAFs of less than 10%. [3]
• The average cover-age of each base in the targeted regions was 100-fold, and 95.3% of these bases were covered sufficiently deeply for variant calling (≥10× cover-age) [2]
生物学中的外显子组分析
生物学中的外显子组分析基因是细胞内的信息库,决定了生物的性状和功能。
组成基因的两个主要部分是外显子和内含子。
外显子是基因中编码蛋白质的部分,而内含子则是不编码蛋白质的部分。
由于外显子具有功能和多态性,因此外显子组分析是现代生物学中的一个重要研究方向。
本文将从外显子的结构和功能、外显子组分析的流程和意义以及外显子组分析在人类疾病研究中的应用等方面进行分析。
一、外显子的结构和功能外显子是基因组DNA序列中编码蛋白质的区域,占据了基因组的1-2%。
基因组中估计有20,000-25,000个基因,其中80%的基因都含有外显子。
外显子是氨基酸序列的编码区域,在将DNA转录为RNA时,外显子的序列会被拷贝到RNA中,并且在翻译时转化为蛋白质。
因此,外显子可以被视为基因中控制蛋白质生物学功能的核心区域。
外显子具有多态性。
在同一物种和不同个体中,外显子的序列会出现一些差异,这种差异称为单核苷酸多态性(SNP)。
SNP 可以在基因组中识别不同的个体,同时也与种族和疾病等人类基因和表型变异相关。
因此,外显子具有高度的多态性和特异性,是了解人类基因和表型变异的重要基础。
二、外显子组分析的流程和意义外显子组分析是通过对基因组DNA的测序,筛选出基因组中的外显子区域,确定外显子的序列和位置,进而对外显子序列和SNP进行研究和分析的过程。
外显子组分析分为三部分:实验操作、数据分析和生物学信息学分析。
实验操作包括DNA提取、文库构建、测序和文库质量检查等,主要采用先进的高通量测序技术,如Illumina HiSeq和ABI Solid等。
数据分析是对文库测序结果的处理和解读,包括序列质控、序列比对和SNP检测等。
生物学信息学分析是对数据进行挖掘和分析,包括基因功能注释、SNP特性分析、外显子组的生物学功能和进化关系分析等。
外显子组分析是解读基因功能、研究人类表型和疾病的最新方法之一。
外显子组分析的结果可用于寻找特定外显子序列和SNP,了解疾病相关的基因变异和表型特点。
外显子组测序信息分析
生物学功能研究 Functional research
在多个家系或散发病例中进行突变筛查研究 Mutation screening
4.2 WES肿瘤研究上的思路
样本选取
样本选取
13721 92.05 47.31
12636 90.86 46.75
9776 66.84 43.05
9616 64.37 41.45
6904
6815
6684
6437
当比对到参考基因组目标区域的数据量在60%之上,认为外显子捕 获效率合格。
3.2.3、染色体覆盖深度分布
注:横坐标为染色体长度,纵坐标为覆盖深度取对数。
注: Codons:密码子的变化情况;Substitution:氨基酸的替换信息;SNP Type: SNP的类型;Prediction:预测结果(damaging/tolerated),TOLERATED表示这个突变 是可以容忍的,即对蛋白质功能没有影响或影响很小,DAMAGING表示突变是有 害的,即对蛋白质功能有较大影响; Gene :发生替换所在的基因。
3.5.4 、样品间差异表达基因GO分类统计
差异基因GO注释聚类图
topGO有向无环图
3.5.5 、样品间差异表达基因KEGG注释
差异基因KEGG通路示意图
四、外显子组测序的应用思路
4.1 WES找寻孟德尔疾病致病基因思路
遴选和采集 病例和家系 Samples collection
全外显子测序 Whole-exome sequencing
R04 16573 17840 30639 3774 34413
外显子
断裂基因中的编码序列
01 基因反应
03 基因捕捉 05 应用机理
目录
02 表达序列 04 操作步骤 06 结果应用
07 跳跃突变
09 试验项目
目录
08 基因识别
断裂基因中的编码序列。外显子(expressed region)是真核生物基因的一部分。它在剪接(Splicing) 后会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列, 又称表达序列。
操作骤
操作步骤及其基本原理是:
⑴基因组DNA经“霰弹法”切成小片段后,克隆在位于“外显子捕捉序列”下游的克隆位点上。
⑵将这些重组载体汇总后感染反转录病毒的专宿包装细胞系 (ecotropicretroviralpackagingcellline)——ψ2细胞系。ψ2细胞提供蛋白质产物使载体(自身不能合成 病毒蛋白质)成为反转录病毒在细胞里增殖。当反转录病毒在细胞内转录时,如果插入片段中包含有功能的SA位 点,则有可能发生RNA剪接反应而将ⅣS切除。
人类大部分基因组序列都是被垃圾DNA序列分隔成一段段,给定一个已知的目标蛋白质和基因组序列,在该 基因组序列中找出一组子字符串(候选外显子),使得其拼接(剪接)与目标蛋白质最匹配(即去掉垃圾DNA序 列)。一个强力方法是寻找基因组序列与目标蛋白质序列间的所有局部相似性。若第一个取自基因组序列的子字 符串展示了充分相似性于目标蛋白质,那么这个子字符串可被认为是一个推定的外显子。将推定外显子结构化为 基因组序列中的赋权区间,它可用三个参数(l、r、w)来描述,l、r分别是推定的外显子的左边、右边的位置, w为其权重。权重w可反该区间是一个外显子的可能性。链是不重叠赋权区间的任一集合,一个链的总权重是该链 中所有区间的权重之和。给定一个推定的外显子集,寻找非重叠的推定的外显子的一个最大集。输入:赋权区间 (推定的外显子)集。输出:该集合中区间的最大。
外显子组测序
346: 256-259.
[案例三] 癌症研究:外显子测序研究局限性肺腺癌瘤内异质性[14] 本研究采用多区域取样分析瘤内异质性的研究思路,对11位患者的局限性肺腺癌的48
个肿瘤样品进行了外显子测序。共鉴定出7269个体突变,其中21个是已知的与癌症相关的 基因突变,76% 的体突变及21个已知癌症基因突变中的20个都可以在同一肿瘤的所有区域 样品中检测到,表明对肿瘤的某一区域进行单次活检,以适当的深度对其测序,可以鉴别 出绝大多数突变。而前期关于肾透明细胞癌的研究结果表明,肿瘤不同区域样品的共有突 变仅占突变总数的31%~37%,说明肿瘤异质性在不同癌种间存在差异。
应用方向
孟德尔疾病研究
马布里综合症[1]:发现致病基因PIGV; 逆向性痤疮[2]:发现致病基因NCSTN; 眼皮肤白化病[3]:发现致病基因SLC24A5; 先天性肾脏和尿道畸形[4]:发现致病基因DSTYK;
复杂疾病研究
混合型低脂血症[5]:发现致病 基因ANGPTL3; 孤独症[6]:发现11 个新生突变 ……
[9] Rudin C M, Durinck S, Stawiski E W, et al. Comprehensive genomic analysis identifies SOX2 as a frequently amplified gene in small-cell lung cancer[J]. Nature Genetics, 2012, 44(10): 1111-1116.
外显子组测序
2.
3.
Choi M, Scholl U I, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing[J]. Proceedings of the National Academy of Sciences, 2009, 106(45): 19096-19101. Yan X J, Xu J, Gu Z H, et al. Exome sequencing identifies somatic mutations of DNA methyltransferase gene DNMT3A in acute monocytic leukemia[J]. Nature genetics, 2011, 43(4): 309-315. Platforms A. Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia[J]. N Engl J Med, 2013, 2013(368): 2059-2074.
人类基因组的蛋白编码区域大约包含85%的致病突变。
- Choi M, Scholl U I, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing[J]. Proceedings of the National Academy of Sciences, 2009, 106(45): 19096-19101.
5.Indel区域的reads重新做局部多序列比对: 在indel的边缘,一些错配看起来很像是SNP,通过对dbSNP库及bam文件检 测到的indel附近的reads进行局部的重新比对,可以消除indel周边的假 阳性SNP。
41.ACMG全外显子测序指南.
ACMG全外显子测序指南摘要:美国医学遗传学与基因组学学会(ACMG)以前为序列突变的解释提供了指导.1在过去十年中,随着高通量测序的出现,测序技术迅速发展。
通过采用和利用下一代测序,临床实验室正在进行基因分型,单基因,基因组,外显子,基因组,转录组和遗传疾病表观遗传学检测的不断增加的遗传检测目录。
由于复杂性增加,基因检测的这种转变伴随着序列解释的新挑战。
在这方面,ACMG于2013年召集了一个由ACMG,分子病理学协会(AMP)和美国病理学家学会的代表组成的工作组,重新审视和修订了序列突变解释的标准和准则。
该组由临床实验室主任和临床医生组成。
本报告代表ACMG,AMP和美国病理学家利益相关者联盟组成的工作组的专家意见。
这些建议主要适用于临床实验室使用的遗传检测的范围,包括基因分型,单基因,panel,外显子和基因组。
本报告建议使用具体的标准术语- “致病性”,“可能致病性”,“不确定性意义”,“可能良性”和“良性”来描述在导致孟德尔病症的基因中鉴定的突变。
此外,该建议描述了基于使用典型类型的突变证据(例如,群体数据,计算数据,功能数据,分离数据)的标准将突变分类为这五个类别的过程。
由于本报告中描述的临床基因检测的分析和解释的复杂性增加,ACMG强烈建议临床分子遗传学检测应在经过临床实验室改进修订批准的实验室进行,结果由相关职业认证的临床分子遗传学家或分子遗传病理学家或同等学科专家进行解释。
关键词:ACMG实验室指导; 临床遗传检测; 解释;报告; 序列变异术语;突变报告前言临床分子实验室正在不断增加检测的新的序列突变,因为在检测患者标本时不断发现大量与基因疾病相关的基因。
虽然一些表型与单个基因相关,但许多与多个基因相关。
我们对任何给定序列突变的临床意义的理解是循序渐进的,其范围从那些几乎肯定是疾病致病性突变到几乎肯定是良性的突变。
虽然以前的美国医学遗传学和基因组学会(ACMG)的建议提供了序列突变的解释类别和解释算法,但是这些建议没有提供定义的术语或详细的突变分类指南.1。
外显子
individuals that are exome sequenced variants from affected individuals variants from unaffected
常染色体隐性遗传病:
单基因疾病
样本 平台
• 一个先天性黑蒙症的 庞大家系
• the SureSelect 50 Mb All Exon Targeted Enrichment kit • Illumina HiSeq 2000
Adapt from: Ignacio Varela, et al. Exome sequencing identifies frequent mutation of the SWI/SNF complex gene PBRM1in renal carcinoma. Nature (2011)
肝癌研究:
1
Adapt from: Yi
Shi. et al. Exome Sequencing Identifies ZNF644 Mutations in High Myopia. PLoS Genetics 7(6), 1–10 (2011)
来自近亲家庭的罕见隐性遗传病:
单基因疾病
样本
平台 方法 结论
样本 实验 平台 方 法
• 十个肝癌患者的肝癌原发灶和侵犯肝脏 门静脉的转移灶(PVTT)
复杂疾病
• NimbleGen Human Exome 2.1M Arrays & Illumina/Solexa sequencing • SureSelect Human All Exon Kit (38 Mb) & ABI SOLiD sequencing
• 测10个患者肝癌原发灶和配对的PVTT的 外显子 • 扩大试验,测了110个患者在10个基因上 的突变情况
panel全外显子组与全基因组测序的全方位对比
14
捕获探针供应商
国外较大的提供杂交捕获探针库的供应商
Agilent SureSelect
Roche NimbleGen
IDT xGen™
Twist Bioscience Human Core Exome
国内
迪赢生物
15
靶向捕获与冗余数据
液相杂交捕获技术流程图
冗余数据的产生
同源序列
目标序列
同源序列干扰
panel大小约1-2M,约占全外显子的1%-2%左右
2
检测范围与测序深度
全基因组测序 全外显子组测序 不孕不育panel
30-40X 100-150X 500X以上
3
检测方案的选择
WGS
WES panel
panel和WES,临床上如何选择?
panel具有更低廉的价格,更高的测序深度 WES具有更广泛的检测范围
表型遗传异质性较高,疾病 复杂,难以区分,需要对大 量基因进行筛查,更适合 WES或WGS。
PMID: 29398702
5
检测方案的选择
神经系统疾病/发育异常类疾病
精子异常导致的男性不育
智力障碍
小儿癫痫
线粒体病
行为异常 遗传代谢病
神经肌肉病
基因数量多达2000个以上,表型异质性高,症 状难以区分,容易误诊,更适合WES/WGS
WGS包含所有碱基,可以检测 CNV和非编码序列 panel可定制检测范围,可以加 入WES不包含的目标区域
WES测序深度还不足以区分真 假基因,深度更高的panel却有 可能做到。
23
安捷伦各版本WES对比
靶标 大小
设计 大小
V8
35.1 Mb 41.6 Mb
外显子捕获具体步骤以及各试剂的作用27页PPT
外显子捕获具体步骤以及各试剂的作 用
51、没有哪个社会可以制订一部永远 适用的 宪法, 甚至一 条永远 适用的 法律。 ——杰 斐逊 52、法律源于人的自卫本能。——英 格索尔
53、人们通常会发现,法律就是这样 一种的 网,触 犯法律 的人, 小的可 以穿网 而过, 大的可 以破网 而出, 只有中 等的才 会坠入 网中。 ——申 斯通 54、法律就是法律它是一座雄伟的大 夏,庇 护着我 们大家 ;它的 每一块 砖石都 垒在另 一块砖 石上。 ——高 尔斯华 绥 55、今天的法律未必明天仍是法律。 ——罗·伯顿
31、只有永远躺在泥坑里的人,才不会再掉进坑里。——黑格尔 32、希望的灯一旦熄灭,生活刹那间变成了一片黑暗。——普列姆昌德 33、希望是人生的乳母。——科策布 34、形成天才的决定因素应该是勤奋。——郭沫若 35、学到很多东西的诀窍,就是一下子不要学很多。——洛克
外显子组测序ppt课件
1)基因注释: 通过基因注释可以达到以下的目的: a. 突变的功能定位(在外显子,内含子,剪接位点还是基因间区); b. 突变所在的基因名称或者临近的基因; c. 突变如果在编码区域,是否引起氨基酸的改变(同义突变,非同义突变
的呢过); d. 如果引起氨基酸的改变,按照HGVS命名规则表示--改变的基因ID,转录
9.注释:
通过ANNOVAR软件对vcf结果注释,关联到多个数据库。
18
五、数据分析内容 1. Mapping统计: 统计总reads数,mapped reads及unique mapped reads数目及百分比。 2. 捕获效率统计: 统计来自捕获区域的Fragment比例:
19
统计target区域所有的碱基覆盖次数分布:
对每个target区域的覆盖和深度统计: 如果客户对某些基因特别感兴趣,想要看看来自这些基因的外显子区域的覆盖情 况,可以提供每个target或者特定target区域的覆盖情况和测序深度统计。
20
3. Snv和indel关联数据库: Snv和indel结果按照突变的位点是否在捕获的区域之内分成两部分: *_target.snv:突变处于捕获的靶区域(target region)内。 *_off_target.snv或者*_target.indel: 突变在捕获的靶区域之外。 Snv和indel结果与以下的数据库关联,为突变的筛选提供大量的信息。
1. Choi M, Scholl U I, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing[J]. Proceedings of the National Academy of Sciences, 2009, 106(45): 19096-19101.
2.全基因组测序与外显子测序相关知识
什么是全外显子组测序与全基因组测序?全基因组测序可谓是基因组最为全面的研究方案。
基因组信息已能用于鉴定遗传疾病,查找驱使癌症发展的突变,追踪疾病的爆发。
迅速下降的测序成本以及处理大样本数据能力的提升都使得如今的测序者可将全基因组测序视为基因组研究的最强有力工具。
全基因组测序常被理解为用于测定人类基因组,然而新一代测序技术(NGS)的规模、灵活性体现于可以在任何物种上高效运用测序技术,如农业畜牧业,植物,或疾病相关微生物。
利用二代测序技术,对大量DNA片段进行测序就完全可行了。
例如,一部分DNA片段含有蛋白质合成的密码“指令”,这部分片段被称作“外显子”(exon)。
目前认为,外显子只占到人类基因组的大约1%,基因组中所有的外显子被统称为“外显子组”(exome),对这部分序列的测序就被称为“全外显子组测序”。
这种方法能够检测出所有基因的蛋白质编码区域的变异,而不仅仅是被选择的有限的若干基因。
由于已知的大多数导致疾病的突变均发生在外显子中,全外显子组测序从而被认为是一种高效的识别可能致病的突变的方法。
但是,近年来研究人员发现,外显子区域以外的DNA序列也可以影响基因活性,继而影响蛋白质的表达,导致疾病发生。
然而,这些突变若利用全外显子组测序并不能检测到。
因此,另一种称为“全基因组测序”的方法出现了,这种方法可以读取到个体所有DNA核苷酸的序列,即可以检测出基因组任何部分的变异。
相比于选择性的基因测序,全外显子组测序与全基因组测序能够发现更多的基因变异,但显然会有相当一部分的变异的意义是不明确的。
并不是所有的基因变异都会影响健康,因此很难断定某些检测出的变异是否与患者的疾病、表型等相关。
有时,一种被识别出的基因变异还可能与另一种尚未被诊断的遗传疾病有关(被称为“偶然”或“继发发现”,incidentalor secondary findings)。
除了在临床上应用外,全外显子组测序和全基因组测序对于研究人员来说也是非常有价值的,研究人员对外显子组和基因组序列的持续关注可以帮助他们确定新的基因变异是否与人的健康状况有关,这将有助于未来的疾病诊断。
人全基因组全外显子组全外显子组和全转录组测序及其临床应用
1.无义突变(nonsense mutation)
即一个核苷酸突变后,产生了一个终止密码(stop condon),截断了转录和翻译,从而形成新的蛋白质分子。 新的蛋白质分子很可能丧失原来蛋白质分子的功能。
2.错义突变(missense mutation)
即一个核苷酸突变后,产生了一个不同的密码子,从而编 码出不同的氨基酸。根据该氨基酸对蛋白质空间结构的影响, 新的蛋白质功能可能保持或改变,因此错义突变又分为保守 突变和非保守突变。
人基因组中编码蛋白质的基因序列约占全基因组序列的 1.5%,有20 000~25 000个蛋白质编码基因,剩余的部分 包括RNA编码基因,调控序列与伪基因(pseudogene) 等,以及各种重复序列。重复序列占人全基因组的60%左右, 无转录活性,包括成簇存在于染色体特定区域的串联重复序 列(tandem repeat),
(二)基因(gene)
基因是具有遗传信息的DNA片段。通过转录形成功能RNA 分子。人的所有基因在23对染色体上呈线性排列,每一个 染色体含有数百个基因,大多数基因包含多个外显子 (exon),相邻外显子的中间是内含子(intron)。在基 因与基因之间,通常是调控序列和非编码的基因间片段(图 2-5-1)。
(三)结构性变异(structural variation,SV)
通常包括长度在50bp以上的DNA序列的插入、缺失、倒位、 重复,移动元件,染色体内部或染色体之间的序列易位,以 及更为复杂的组合变异。基因中出现这种变异,会影响转录、 翻译以及蛋白质分子结构和性质,乃至生物体的表型。
(四)拷贝数变异(copy number variation,CNV)
4)重复上面三个步骤,进行第二个碱基的信号收集,直至 完成所有循环。
外显子组测序信息分析PPT课件
R0 R0 34 113 125 110 682
892 975
111 121 218 865 610 652 51 277 303 32 77 112 124
776 850 14 14 19 21 882 925 00 93 100 32 10 8 10 923 940 00 32 18
3.3.3、突变特征
97.76 96.16
Mapping_datasize(Mb)3 Effective_sequences_on_target(Mb)5 Average_sequencing_depth_on_target7
Mismatch_rate_in_target_region8 Mismatch_rate_in_all_effective_sequence9
3.1、数据过滤与评估 3.2、整体质量评估 3.3、SNP检测与注释 3.4、InDel检测与注释 3.5、高级分析
第5页/共32页
3.1、数据过滤与评估
第6页/共32页
3.1.1、原始数据过滤
1. 过滤接头。对含接头的reads去除接头序列。 2. 一条reads上N(未能确定出具体的碱基类型)的比例
突变频谱图
注:横坐标为不同类型的突变,纵坐标为不同类型突变对应的频率。
第16页/共32页
3.3.3、突变特征
突变位点上下文碱基偏好性
注:横坐标为突变位点上下文的碱基位置,0为SNP突变位点,负数代表突变位点前的碱基, 正数代表突变位点后的碱基,纵坐标为不同碱基对应的比例。从图上可以看出,不同类型 的SNP突变上下文具有不同的碱基偏好性。
第10页/共32页
3.2.2、外显子捕获统计
Target region stat Length_of_target_region(Mb)1
外显子
外显子外显子(英语expressed region)是真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。
外显子是最后出现在成熟RNA中的基因序列,又称表达序列。
既存在于最初的转录产物中,也存在于成熟的RNA分子中的核苷酸序列。
术语外显子也指编码相应RNA外显子的DNA中的区域。
所有的外显子一同组成了遗传信息,该信息会体现在蛋白质上。
外显子-基因反应剪接方式并不是唯一的(参看替代剪接),所以外显子只能在成体mRNA中被看出。
即使是使用生物信息学方法,要精确预测外显子的位置也是非常困难的。
真核生物的基因,其线性表达被内含子阻断,这就是所谓的断裂基因(英语splitgene),该现象的发现者RichardJ.Roberts和PhillipA.Sharp获得了1993年诺贝尔奖。
在反式剪接中,不同mRNA的外显子可以被接合在一起。
外显子在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。
外显子是最后出现在成熟RNA 中的基因序列,又称表达序列。
既存在于最初的转录产物中,也存在于成熟的RNA分子中的核苷酸序列。
术语外显子也指编码相应RNA外显子的DNA中的区域。
简言之,外显子就是指真核细胞的基因在表达过程中能编码蛋白质的核苷酸序列。
关键概念:比较不同物种的相关基因,发现相应的外显子序列通常是保守的,而内含子序列则很少保守。
编码蛋白质的序列通常处于选择压力之下,内含子由于没有选择压力,因此比外显子的进化快得多。
通过确定在多种生物中出现的片段来鉴定编码区域,而外显子的保守性可以作为这种鉴定的基础。
人类大部分基因组序列都是被垃圾DNA序列分隔成一段段,给定一个已知的目标蛋白质和基因组序列,在该基因组序列中找出一组子字符串(候选外显子),使得其拼接(剪接)与目标蛋白质最匹配(即去掉垃圾DNA序列)。
一个强力方法是寻找基因组序列与目标蛋白质序列间的所有局部相似性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
外显子组测序
目 录
一、外显子测序简介
二、测序深度
三、测序平台
四、数据分析流程
五、数据分析内容
六、后期验证
一、外显子测序简介
外显子测序(也称目标外显子组捕获)是指利用序列捕获技术将全 基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。 是一种选择基因组的编码序列的高效策略,外显子测序相对于基因组重 测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势。 在人类基因中大约有180,000外显子,占人类基因组的1%,约30MB。
68,899,95 7
Target bases at 10x
79.1%
Target bases at 20x
Target bases at 1x
Байду номын сангаас
119x
Type
98.5%
Number of variants
95.3%
92.5%
Concordance with dbSNP135
SNVs
30,095
98.0% 97.1% 99.4%
Coverage rate
Sequencing depth and coverage of the nine paired initial sequencing samples.
三、测序平台
Ion Proton™
Illumina HiSeq
基于Ion Proton™的外显子测序流程
• The bound DNA is isolated using streptavidincoated Dynabeads® paramagnetic beads, and then amplified and purified. The purified, target-enriched sample is then returned to the Ion Torrent system workflow for emulsion PCR, enrichment, and sequencing. • Exome sequencing results on the Ion Proton™ System using the Ion PI™ Chip and the Ion TargetSeq™ Exome Kit
Heterozygous SNVs 18,031 Homozygous SNVs 12,046
基于Illumina HiSeq的外显子测序流程
人类基因组的蛋白编码区域大约包含85%的致病突变。
- Choi M, Scholl U I, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing[J]. Proceedings of the National Academy of Sciences, 2009, 106(45): 19096-19101.
基于Ion Proton™的外显子测序结果
Raw reads Reads mapped Percent reads
mapped
Reads on target
Percent reads on target
89,782,719 87,156,364
Mean depth of coverage
97.1%
二、测序深度
• The sensitivity to detect heterozygous variants with 10 reads is 78.6%, but increases to 95.2% at 20x and approximately 100% at 30x and greater.[1] • The average coverage of each base in the targeted regions was 100-fold, and 95.3% of these bases were covered sufficiently deeply for variant calling (≥10× coverage) [2] • Exome sequencing produced a higher level of coverage for the targeted sequences (mean, 167.50×), slightly increasing our ability to detect mutations with VAFs of less than 10%. [3]
1.
2.
3.
Choi M, Scholl U I, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing[J]. Proceedings of the National Academy of Sciences, 2009, 106(45): 19096-19101. Yan X J, Xu J, Gu Z H, et al. Exome sequencing identifies somatic mutations of DNA methyltransferase gene DNMT3A in acute monocytic leukemia[J]. Nature genetics, 2011, 43(4): 309-315. Platforms A. Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia[J]. N Engl J Med, 2013, 2013(368): 2059-2074.