全基因组重测序数据分析详细说明

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

全基因组重测序数据分析

1. 简介(Introduction)

通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使得在disease(cancer)genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。

实验设计与样本

(1)Case-Control 对照组设计;

(2)家庭成员组设计:父母-子女组(4人、3人组或多人);

初级数据分析

1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。

2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。

3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。

4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。

5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、

缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。

高级数据分析

1.测序短序列匹配(Read Mapping)

(1)屏蔽掉Y染色体上假体染色体区域(pseudo-autosomal region), 将Read与参考序列NCBI36进行匹配(包括所有染色体,未定位的contig,以及线粒体序列mtDNA(将用校正的剑桥参考序列做替代))。采用标准序列匹配处理对原始序列文件进行基因组匹配,将Read与参考基因组进行初始匹配;给出匹配的平均质量得分分布;

(2)碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分,并校准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。

(3)测序误差率估计。pseudoautosomal contigs,short repeat regions(包括segmental duplication,simple repeat sequence-通过tandem repeat识别算法识别)将被过滤;

2. SNP Calling 计算(SNP Calling)

我们可以采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析,保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。

统计SNV的等位基因频率在全基因组上的分布

稀有等位基因数目在不同类别的SNV中的比率分布(a);SNV的类别主要考虑:(1)无义(nonsense),(2)化学结构中非同义,(3)所有非同义,(4)保守的非同义,(5)非编码,(6)同义,等类型SNV;另外,针对保守性的讨论,我们将分析非编码区域SNV 的保守型情况及其分布(图a, b)

3. 短插入/缺失探测(Short Insertion /Deletion (Indel)Call)

(1). 计算全基因组的indel变异和基因型检出值的过程

计算过程主要包含3步:(1)潜在的indel的探测;(2)通过局部重匹配计算基因型的似然值;(3)基于LD连锁不平衡的基因型推断和检出识别。Indel在X,Y染色体上没有检出值得出。

(2). Indel 过滤处理

4. 融合基因的发现(Fusion gene Discovery)

选择注释的基因信息来自于当前最新版本的Ensemble Gene数据库,RefSeq数据库和Vega Gene数据库。下面图例给出的是融合基因的形成,即来自不同染色体的各自外显子经过重组形成融合基因的模式图。

5. 结构变异(Structure Variation)

结构变异(Structure Variation-SV)是基因组变异的一类主要来源,主要由大片段序列(一般>1kb)的拷贝数变异(copy number variation, CNV)以及非平衡倒位(unbalance inversion)事件构成。目前主要一些基因组研究探测识别的SV大约有20,000个(DGV数据库)。在某些区域上,甚至SV形成的速率要大于SNP的速率,并与疾病临床表型具有很大关联。我们不仅可以通过测序方式识别公共的SV,也可以识别全新的SV。全新的SV的生成一般在germ line和突变机制方面都具有所报道。然而,当前对SV的精确解析需要更好的算法实现。同时,我们也需要对SV的形成机制要有更重要的认知,尤其是SV否起始于祖先基因组座位的插入或缺失,而不简单的根据等位基因频率或则与参考基因组序列比对判断。SV的功能性也结合群体遗传学和进化生物学结合起来,我们综合的考察SV的形成机制类别。

SV形成机制分析,包括以下几种可能存在的主要机制的识别发现:

(A)同源性介导的直系同源序列区段重组(NAHR);

(B)与DNA双链断裂修复或复制叉停顿修复相关的非同源重组(NHR);

(C)通过扩展和压缩机制形成可变数量的串联重复序列(VNTR);

(D)转座元件插入(一般主要是长/短间隔序列元件LINE/SINE或者伴随TEI相关事件的两者的组合)。

结构变异探测和扩增子(Amplicon)的探测与识别分析:如下图所示

相关文档
最新文档