重测序ppt20120406

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

密码子
结构变异(SV)
• 结构变异类型:通过pair-ends分析鉴定
– 插入(Insertion) – 缺失(Deletion) – 缺失插入(Deletion and Insertion) – 反转(Inversion) ……
插入(Insertion)
实际插入片段大小为300bp,比对到参考基 因组上后发现插入片段长度小于300bp,所 以对比参考基因组插入了一段序列。
为什么使用BWA?
比对效率与soap相当
所占内存只有soap一半
结果文件应用更为广泛
可以容更多的错配与gap
BWA与SOAP比较
BWA
• 参考基因组建立索引数据库: – 待比对序列为短序列(<200bp):bwa index ref.fa – 待比对序列为长序列(>=200bp):bwa index –a bwtsw ref.fa
深度、覆盖度 SNP检测 SV检测
统计与注释
通过深度、质量值等筛选 得到可靠结果
重测序分析流程图
Burrows-Wheeler Aligner
• BWA: Burrows-Wheeler Aligner ,可以快速的将相 对较小的片段比对到参考序列上。 • 采用了两种不同的方式: – 针对小于200bp的错误率低(<3%)的片段。 – BWA-SW,针对较长的且错误率高的片段。 – 就目前测序的长度以及准确率来看,应该多采 用的是第一种方式。
基因组重测序
百迈客生物科技有限公司
第一部分 基因组重测序概况 第二部分 重测序分析原理及内容
第三部分 分析流程及工具
第一部分 基因组重测序概况 第二部分 重测序分析原理及内容
第三部分 分析流程及工具
第一部分 基因组重测序概况
一、什么基因组重测序 二、基因组概况 三、重测序的发展
一、什么是基因组重测序
Flag注释
FLAG DESCRIPTION SITE 81
1 2 3 4 5 1 0 0 0 1 0x0001 the read is paired in sequencing, no matter whether it is mapped in a pair 0x0002 the read is mapped in a proper pair (depends on the protocol, normally inferred during alignment) 1
– f
– I
结果输出文件
文件为 Illumina 1.3+的fastq文件
bwa aln ref.fa read1.fq –f read1.sai –o 0 –n 2 其他参数详细说明见: http://bio-bwa.sourceforge.net/bwa.shtml
转换SA coordinates输出为Sam
缺失(Deletion)
实际插入片段大小为300bp,比对到参考基因 组上后发现插入片段长度大于300bp,所以对 比参考基因组缺失了一段序列。
缺失插入(Deletion and Insertion)
实际插入片段大小为300bp,比对到参考基因组上后 发现插入片段中有一段序列与基因组不一样,所以这段 序列对比参考基因组缺失了一段序列,但又插入了一段 序列。
SNP
• 单核苷酸多态性(SNP),主要是指在基因组水平上由单 个核苷酸的变异所引起的DNA序列多态性。主要通过比
对的碱基错配(mismatch)鉴定。
• 两种类型: – 转换:同型碱基的置换(A↔T、G↔C); – 颠换:异型碱基的置换( A/T↔G/C );
转换
参考基因组上的碱基为T,但实际该物种中测得的为A和T,该 位点突变类型为转换,且为杂合。
0x0004 the query sequence itself is unmapped 0x0008 the mate is unmapped 1 0x0010 strand of the query (0 for forward; 1 for reverse strand)
0x0020 strand of the mate 1
反转(Inversion)
成对reads比对到基因组上应该是一条正向,一条 反向互补。但结果两条reads都正向或反向互补比 对到参考基因组上
移码突变
• 在正常的DNA分子中,碱基缺失或增加非3 的倍数,造成这位置之后的一系列编码发
生移位错误的改变,这种现象称为移码突
变。
移码突变
多态性分布与差异分析
• bwa sampe/samse 常用参数:
– a
– n – N – s – f
两条reads最大插入片段长度
多位置比对结果输出个数 多个PE结果输出个数 对按条件比对不上reads,禁用Smith-Waterman 算法比对 结果输出文件
bwa sampe ref.fa read1.sai read2.sai read1.fq read2.fq –f out.sam -a 500 –s
9
10
0
0
0x0200 the read fails platform/vendor quality checks
转为二进制后,以上各位代表含义均为0无效,1有效。
第三部分
分析流程及工具
测序数据
比对
深度、覆盖度 SNP检测 SV检测
统计与注释
通过深度、质量值等筛选 得到可靠结果
重测序分析流程图
SAMtools
测序深度分布
参考基因组大小400M,测5G数据量,理论深度为12.5X, 实际平均深度为11X,主要深度集中在10X左右。
测序覆盖度
• 测序覆盖度:
– 基因组被测序得到的碱基覆盖的比例; – 实际比对到基因组的碱基覆盖的比例;
• 测序覆盖度是反应测序随机性的一个指标之一;
测序深度与覆盖度
• 根据1988年提出的Lander-Waterman 模型:测序深 度达到5X即可达到99%以上的覆盖度。
SAMtools常用工具介绍
• 文件查看与格式转换:samtools view -b 输出bam格式 -S 输入文件为sam格式 -u 输出的bam文件不压缩 -t 参考基因组每条染色体长度分布文件 -T 参考基因组fasta格式文件 -o 结果输出文件
• 比对: – 寻找 SA coordinates:bwa aln – 转换SA coordinates输出为sam:bwa sampe/samse
寻找 SA coordinates
• bwa aln 常用参数:
– n 比对时,允许最大错配数:mismatch+gap – o 允许的gap数 – t CPU使用个数
第三部分 分析流程及工具
第二部分 重测序分析原理及内容
一、基本概念 二、分析内容
2013/1/13
一、基因组重测序基本概念
重测序必要条件
插入片段
双向测序
测序深度 测序覆盖度
重测序必要条件ห้องสมุดไป่ตู้
• 已知物种基因组
• 待测物种与参考序列物种足够接近
插入片段
• 插入片段:基因组DNA进行片段化处理得
第三部分
分析流程及工具
测序数据
比对
深度、覆盖度 SNP检测 SV检测
统计与注释
通过深度、质量值等筛选 得到可靠结果
重测序分析流程图
分析软件
序列比对:bwa
SNP检测:samtools、bcftools SV检测:pindel、breakdancer
第三部分
分析流程及工具
测序数据
比对
长度约31M的染色体A03上,每个位点的覆盖深度大约为8X 左右,在这条染色体上覆盖度达到99.8%
二、重测序分析内容
多态性分析
单核苷酸多态性—SNP
同义与非同义突变
结构变异--SV 移码突变
进化分析
多态性分析
• 可找到大量的单核苷酸多态性位点(SNP) • 结构变异位点(SV,Structure Variation); • 分析不同个体基因组间的结构差异, 完成基因 功能注释。
其他参数详细说明见: http://bio-bwa.sourceforge.net/bwa.shtml
SAM/BAM格式
• 存储对参考序列的片段比对的一个通用比对格式 • BAM含有和SAM相同的信息 • BAM较高的压缩率 • 具有快速访问和检索的功能 • 应用广泛
SAM/BAM格式
更多详细信息见官方文档: http://samtools.sourceforge.net/SAM1.pdf
Flag示例
• 如99:1100011
– 第1位为1:Pair-end – 第2位为1:比对合适位置 – 第3位为0:这条序列比对到基因组上了 – 第4位为0:另一条序列也比对到基因组上 – 每5位为0:这条序列正向比对到基因组上 – 第6位为1:另一条序列反向互补比对比对到基 因组上 – 第7位为1:这是Pair-end的Read1序列
到的片段。
• 插入片段长度一般为200-500bp;
双向测序
• Read:测序读到的碱基序列 • Pair ends:克隆末端测序产生的成对reads • 成对的reads之间的距离关系是确定的
测序深度
• 测序深度:
– 实际测序得到的碱基总量(bp)与基因组大小的比值; – 比对到基因组上的碱基总量与基因组大小的比值。 • 评价测序量的指标之一; • 测序带来的错误率或假阳性结果会随着测序深度的提升而下降; • 我们目前采用的是Paired-End,当测序深度在5-15X以上时,基因组 覆盖度和测序错误率控制均得以保证;
• 通过对多态性分布的研究寻找保守区域和多 变区域
• 通过移码突变和结构变异找出差异基因 • 对差异基因进行功能注释,并通过关联分析 解读表现型与基因型的关系
进化分析
• 通过对突变的分析研究物种中不同品种的 进化史,绘制进化树
第一部分 基因组重测序概况 第二部分 重测序分析原理及内容
第三部分 分析流程及工具
• 基因组重测序是对已知基因组序列的物种
进行不同个体的基因组测序,并在此基础
上对个体或群体进行差异性分析。
二 、基因组情况
• 1977年完成噬菌体Phi X 174基因组测序。
• 目前已知测序完成的生物基因组数量超过
3000,其中真核生物近200个,绝大部分生
物的基因组也已公布。 • 正在测序的生物基因组数量超过1万个。
• SAMtools是一系列处理BAM格式序列的应用 工具包。从SAM(Sequence Alignment/Map)格 式输入或者输出为SAM格式,可以进行排序、 合并和建立索引、查找SNP与Indel等,并且 允许快速地检索任意区域的读段(reads)。
SAMtools
以上是一些常用工具,更多工具应用见: http://samtools.sourceforge.net/samtools.shtml
三、基因组重测序的发展
• 2008年4月17日的 Nature 杂志上,美国的科学家 发表了首个利用新一代 高通量测序技术得到的 人类全基因组, 这个基 因组正是“ DNA之父” James D.Watson的 。
2013/1/13
三、基因组重测序的发展
大豆重测序
水稻重测序
第一部分 基因组重测序概况 第二部分 重测序分析原理及内容
碱基平均测序深度
1 2 3 4 5 10 15
基因组未覆盖率
3.68E-01 1.35E-01 4.98E-02 1.83E-02 6.74E-03 4.54E-05 3.06E-07
基因组覆盖率
63.21% 86.47% 95.02% 98.17% 99.33% 100% 100%
测序深度与覆盖度
颠换
参考基因组上的碱基为G,但实际在物种中测得的为A,该位 点突变类型为颠换,且为纯合。
同义与非同义突变
• 同义突变: synonymous mutation,由于生物的遗 传密码子存在简并现象,密码子的核苷酸发生改 变后,所编码的氨基酸种类保持不变。 • 非同义突变: nonsynonymous mutation ,密码子 的核苷酸发生改变后导致编码的氨基酸改变。 • 一般认为,同义突变不受自然选择,而非同义突 变则受到自然选择作用。在进化分析中,了解同 义突变和非同义突变发生的速率是很有意义的。
0x0040 the read is the first read in a pair 1,2 0x0080 the read is the second read in a pair 1,2
6
7 8
0
1 0
0x0100
the alignment is not primary (a read having split hits may have multiple primary alignment records)
相关文档
最新文档