数据分析文献阅读_测序深度和覆盖度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因定位分析
• 从图2中知: 1、单源因子产生几百个碱基对的狭窄的谱峰。 2、广源因子产生大范围的增强的信号。 3、混源因子产生一定范围的增强区域。 • ChIp-seq实验中三种因子的要求: 1、单源因子应该在哺乳动物中对每个因子使用20 个million的reads,或者在组织和小的基因组中使 用2个million的reads,比如果蝇和线虫。 2、广源因子和混源因子对reads的大致数量并不清 楚,一般而言是40个million的reads。
转录组测序
• 在RNA-seq的分析中基因或者转录物的丰 度经常用FPKM来表示。 FPKM=(total exon fragments)/(mapped reads(millions)* exon length(kb))
• 当前计算FPKM时通常用75%的reads数量 代替映射到的reads数量。
基因组重测序
• SNV和indel检测:使用Illumina短阅读技术表明, 纯合型的SVNs的检测使用15x的覆盖度,杂合型 的为33x。变异检测的能力会因碱基的质量低和覆 盖度不均匀而下降。 • CNV检测:CNVs可以通过对WES和WGS两种测 序的数据使用分析覆盖深度来得到,其中拷贝数 目的变化可通过基因组区域的覆盖深度的变化推 导得到。在WGS中0.1x的覆盖度可以获得合理的 特异位点。 • 基因组重测序数据的分析:典型的重测序数据的 分析途径是把测序的短序列与参考的基因组进行 比对。
1、最初的ChIp-seq技术仅仅可以检测样本 中已经测序的2~5百万的阅读片段。
2、影响ChIp-seq实验中阅读数目的重要因 素是蛋白质是否是点源因子、广源因子或 混源因子。
基因定位分析
• 单源因子出现在基因组的特异位点中,包 括:序列特异性转录因子、非常狭小的染 色质标记;这些单源因子与增强子和转录 起始位点结合。 • 广源因子一般覆盖基因组的扩展区域,比 如许多染色质标记:histone H3 lysine 9 trimethylation (H3K9me3) marks • 混源因子比如RNA聚合酶II,产生以上两种谱 峰。广源因子和混源因子比单源因子要求 更多的读码序列。
基因定位分析
• 基因定位分析主要有两种方法:ChIp-seq (染色质免疫共沉淀测序)和3C(染色体 构象捕获)。
• 定位分析的位点主要包括:DNA-蛋白质相 互作用位点、RNA-蛋白质相互作用位点、 RNA-DNA相互作用位点和DNA-DNA相互 作用位点
基因定位分析
• ChIp-seq鉴定DNA-蛋白质相互作用位点:
基因组重测序
• 四种不同测序策略(WES,WGS,RNAseq,ChIp-seq)的测序对深度的要求也不相 同。 • 它们的测序深度和测试的花费按以下的顺 序递增:ChIp-seq,RNA-seq,WES,WGS。 • ChIp-seq,WES,WGS具有典型的应用和 标准的测序深度,但是RNA-seq的深度与 它们不一致,并且差距非常之大。
基本概念
• Lander–Waterman公式:揭示人类基因组 和外显子组测序的一般性规律。 • 从公式中知:通过试算基因组的测序深度 的方差来评估覆盖度的均匀性非常重要。 • 从Box1中知:覆盖度越高最后测序的碱基 数也越多,而且读码序列的个数与长度之 间具有一定的关系,并且在一定的比例时测 序效果最好。
基因组重测序
• WGS:80x的覆盖度要求覆盖89.6–96.8% 的目标碱基,这取决于测序的平台但是至 少要10x的覆盖度。 • 外显子的研究中要求至少80%的目标区域 被覆盖,并且使用10x的覆盖度。 • 群体基因组测序中,许多基因组的测序都 是短阅读序列的方法,比如:400个样本, 4倍的覆盖度。
总结
• 使用测序方法时有许多的因素可以影响到 测序的深度和覆盖度。 • 我们在设计实验时候要考虑以下的问题: 基因组结构的差异、转录组的复杂性、阅 读的可作图性、测序深度和控制性、复制 性之间的权衡。 • 未来的实验方法会因测序成本的降低而改 进,主要表现在样本数量的增加方面。
总结百度文库
• 测序成本的降低也可以增加测序的深度, 从而提高其准确性。 • 未来测序技术的改进,比如:阅读长度的 增加和错误率的减少;可以减少基因组测 序的深度,但是对RNA-seq和ChIp-seq却 没有多在作用。
基因组从头测序
• 低覆盖度在测序后分析和生物学解释方面 有两个主要的影响: 1、它不能确定是否有编码蛋白质基因的缺失、 开放阅读框的中断、一个真正的进化基因 的丢失。 2、更严重的是低覆盖度会产生序列的错误, 并且会随着下游的分析和误导性的结论而 进行扩散。
基因组重测序
• 对基因组序列已知的个体进行基因组测序, 并在个体或群体水平上进行差异性分析。 与已知序列比对,寻找单核苷酸多态性位 点(SNP)、插入缺失位点(InDel)、结 构变异位点(SV,Structure Variation)位 点及拷贝数变化 (CNV) 。 • 测序的深度取决于研究的变异类型、疾病 的类型和区域的长度。
基因组分析的关键因素 —测序的深度和覆盖度
李言 2014-08-19
目录
• 基因组从头测序
• 基因组重测序 • 转录组测序 • 基因定位分析
基本概念
• 测序深度:测序得到的碱基数量与待测基因组的 比值,假设一个基因大小为2M,测序深度为10X, 那么获得的总数据量为20M。 • 测序覆盖度:测序获得的序列占整个基因组的比 例,例如一个细菌基因组测序,覆盖度是98%, 那么还有2%的序列区域是没有通过测序获得的。 • Gap:由于基因组中复杂结构(高GC,重复序列) 的存在,使得测序最终拼接组装获得的序列往往 无法覆盖所有的区域,这部分区域就是Gap。
基本概念
• 覆盖度的冗余也叫深度或覆盖深度。LN/G表示: L代表阅读的长度,N代表阅读序列的数量,G代 表单倍体基因组长度。 • 一般而言,越高覆盖度的测序方法往往要求越高 的花费。 • 真实的测序方法中读码序列很短(小于250个核 苷酸),并且有错误;可以通过增加读码序列的 数量来克服它,比如:具有1%错误变异率的译码, 在结合8个相同的包含变异位点的序列后可以使错 误率变为十万分之一。
转录组测序
• 转录物的检测:转录物的检测主要取决于它在测 序文库中的长度和丰度,以及它的可作图性。 • 如果分子以每100万个中0.6-2.5个的频率出现, 使用12.4millions特异映射的36bp阅读片段是无法 被检测的。 • 基因组的转录能力影响阅读的深度,哺乳动物中 有成千上万个基因,大多基因都有复杂的结构, 转录时通常跳过基因间序列;而单细胞真核生物、 细菌等含有较少的复杂的基因结构,所以转录产 物也比较少。
转录组测序
• 例如:比如仅仅四百万个阅读序列就可以 检测到酵母的80%的基因(至少4个reads 映射到它的3‘末端),随着额外数据的添 加加被检测基因的数量增加的并不明显。 • 差异性表达分析:由于外部的刺激或是实 验的偏差造成的基因表达的差异是非常有 用的,经常用于推导生物体内的特异路径, 产生意外的假说。
转录组测序
• 可变剪接的分析:RNA-seq实验可以整合 外显子阅读的信息,来检测是否有替代亚 型。人类基因中的大部分都是被可变剪接 的,外显子的跳读是可变剪接的主要类型。 • 早期两种可变剪接的研究中每个样本使用 3.5到4.4个百万的27-bp的reads,和12到29 个百万的32-bp的reads。 • 最近的一项研究使用~30million的80-bp的 单尾reads去鉴定老鼠组织中的不同类型的 外显子。
转录组测序
• RNA-seq:可以对生物样本的表达转录物进 行检测和量化分析,但没有明确的指南和 阅读数量的要求。 • 它的应用主要包括:异常转录物的发现, 差异性表达和可变剪接的分析。 • 转录组测序中的覆盖度:读码序列的数量 取决于RNA的最小丰度;有用的读码序列 可以通过减少核糖体RNA,丰富RNA的数 目来进行优化。
基因组重测序
• 测序的策略取决于测序深度和样本数量之间的权 衡。 • WGS(全基因组测序):高深度的WGS方法对 DNA测序来说是黄金准则,因为它几乎可以探测 到所有的变异类型。 • WES(全基因组外显子测序):WES主要探测在 蛋白质编码基因中的SVNs(单核苷酸变异)、 indels(插入缺失)和其他的功能元件,因此它忽 略了调节元件比如启动子和增强子。WES的测序 花费比WGS要少,但它具有各种的限制条件。
基因组从头测序
• 指不依赖于任何已知基因组序列信息对某 个物种的基因组进行测序。 • 决定测序深度的主要因素是错误率、拼接 算法、读码序列的长度和基因组的重复的 复杂性。 • 经常使用混合的方法得到高质量的拼接, 比如高深度、短阅读测序的优势常与低深 度但是长阅读测序法相结合。
基因组从头测序
• 例如野生草山羊序列的拼接,因为它具有 4.4Gb并且三分之二的区域有高度重复的转 座元件,所以测序非常困难。 • 首先成功把原始序列拼接成短序列,使用 了45个文库中的高质量的短阅读长度的 398Gb的数据,其中的覆盖率达到了90倍。 • 然后这些片段可以使用双尾阅读信息与长 的支架进行串联。