高通量数据处理流程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Cluster坐标 Cycle1 A 1000 (1053,1543) C 800 Cycle2 A C 500 900 Cycle3 A C 23 26 ...... ...... ......
G
T A C G T A C G T
20
24 -13 -12 40 700 500 900 26 32
G
Insert-size
文库分子长度
2100检测报告 文库长度分布
与参考序列比对得到 insert-size分布
正常insert-size分布 外显子
基因组DNA
PCR-free文库
异常insert-size分布
文库质控问题1:Pair-end关系
2K及以上文库
• 与参考序列比较 参考序列正向 参考序列反向互补
范围
GA Illumina1.3+(09年3月之后): [2,35] [B,c] GA Illumina1.0 (09年3月之前): [-5,40] [;,h] Hiseq: [2:38] [B,f]
质量值与错误率理论关系: Q =-10 log10(e)
质量值计算方法:根据光强信号信噪比、光强度衰减、GC含量等参数,计算质量值
Basecalling结果:qseq文件
列 1 2 意义 机器编号 run序号 整数 表示法
3
4 5
Lane号
Tile号 X坐标
整数1到8
整数 整数
6
7 8 9 10
Y坐标
index标志 read1/read2标志 碱基序列 质量序列
整数
index序列或者“0” "1"表示read1;"2"表示read2 大写ACGT和".": ACCCAACTCATCTGAAACA 每个碱基有一个质量值,用字符表示: 字符的ASCII码值-64=质量值 bbbc`bb_bb_aSa`V]`\
30
30 30 30 30 30 25
甲基化
45PE
2.20
25
fastq文件产量(Hiseq vs GA)
GA HiSeq
FC面积 mm^2/FC
tile面积 mm^2 /tile tile /Lane raw cluster (万/tile) PF
510
0.53125 120 28 85% 250 87%
将同一个tile的所有图片中的亮点坐标对齐重叠 不同图片之间存在偏移/拉伸/压缩(offset) 系统、稳定的: 4种光折射率不同、滤波片不同、光路不同,所以造成成像的偏移/拉伸/ 压缩,可利用crosstalk,计算出偏移/拉伸/压缩的数值(offset参数) 偶然、随机的: flowcell表面不平、自动调整焦距、机械移动不够精确、随机振动,可 利用crosstalk解决
数据处理流程
测序仪
测序控制PC
计算机集群
1.控制测序过程 决定测序长度、填加试剂、 控制温度、控制反应时间、 拍照 2.图像分析 对测序仪拍照的图片进行 图像分析,得到亮点的光 强度和坐标 3.basecalling 由光强度得到碱基序列
4.数据传输 将bwenku.baidu.comsecalling结果 (二进制文件bcl) 传输到计算机集群 的存储上
A A C C C
C
G
G T
G
T
图像分析及basecalling基本原理
Cycle1
1 3 A G
Cycle2
T C
Cycle3
A G
2 4
C G
C A
T C
由4个cluster得到4条序列: ① ② ③ ④ ATA... CCT... GCG... GAC...
图像分析
对每个图片独立的处理
图像锐化 对图片进行快速傅里叶变换(FFT),在傅里叶空间乘以滤波函数后反变换 识别cluster/亮点 信噪比(亮度/背景值)大于阈值的亮点区域 计算亮点光强度和位置坐标 在亮点区域,对光强度进行二维插值,求出最大光强度,以及最大光强度 对应的位置坐标
phasing
prephasing
Sequencing primer
A G C T
Basecalling结果:qseq文件
• 每一行表示一条reads(一个cluster) • 每行有11列,tab分隔: 机器编号、run序号、Lane号、Tile号、X坐标、Y坐标、 index标志、read1/read2标志、碱基序列、质量序列、 是否通过默认的质量筛选标准 • Single-end(SE)测序: 1个qseq文件 • Pair-end(PE)测序: 2个qseq文件分别存放read1和read2的数据; 2个文件的同一行属于同一个cluster • 每条序列(reads)长度=上机测序循环(cycle)数量; • 测序cycle数量受测序试剂盒的试剂量限制, 对于GA有: 36SE、36+7/8SEindex、45PE、36+7+45PEindex、 76PE、74+7+76PEindex、73+8+76PEindex、 101PE、101+7/8+101PEindex 等 对于Hiseq: 91PE、91+8+91PEindex、 101PE、101+8+101PEindex
5' PCR primer2 (包含3'adapter反向互补)
Read1测序
5' 3'
3'
5'
Read2测序
• 与参考序列比较 参考序列正向 参考序列反向互补
5' 3'
Read1
3' 5'
或者:
参考序列正向 参考序列反向互补
5' 3'
Read2
Read2
3' 5'
总之,Read1,Read2与参考序列比对结果: 一正(F)一反(R),且F的位点坐标小于R的位点坐标 F 参考序列正向 5' 参考序列反向互补
5.数据处理 将bcl文件转化为后续信息 分析所使用的文本文件 (fastq,qseq) 6.index拆分 7.数据质量分析 8.数据备份 9.后续信息分析......
图像分析及basecalling基本原理
Cycle1
1 3
Cycle2
Cycle3
A
2 4
对A发出 的光拍照 对C发出 的光拍照 对G发出 的光拍照 对T发出 的光拍照
270
551 86.3 17.3 15.5
298
622 95.2 19.0 17.1
文库质控问题1:Pair-end关系
800bp及以下文库 PCR primer1 (包含5'adapter) PCR primer2反向互补 (包含3'adapter)
5'
3'
3'
PCR primer1反向互补 (包含5'adapter反向互补)
3'
Read1
3' 5'
R
• 总之,Read1,Read2于参考序列比对结果: 一正(F)一反(R),且F的位点坐标小于R的位点坐标 F 参考序列正向 5' 参考序列反向互补
3'
3' 5'
R • 文库插入片段长度
5' PCR primer1 PCR primer2
Insert-size
3'
3'
5'
11
是否通过默认的质量筛选标准 1表示通过;0表示不通过,质量差
fastq文件
• 每4行表示一条reads(一个cluster) 第一行:@序列ID,包含index序列及read1或read2标志: 第二行:碱基序列,大写“ACGTN” 第三行:“+”,省略了序列ID 第四行:质量值序列:字符的ASCII码值-64=质量值 • Single-end(SE)测序:1个fastq文件 • Pair-end(PE)测序:2个fastq文件分别存放read1和read2的数据; Read1的fastq文件 *1.fq中第一条reads: @FC61FL8AAXX:1:17:1012:19200#GCCAAT/1 CCACTGTCATGTGAACATCACAGAGACATTTCTTGA + bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_\ Read2的fastq文件 *2.fq中第一条reads: @FC61FL8AAXX:1:17:1012:19200#GCCAAT/2 AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA + `QVVV``V``````YVYWWYPWYYTYYWUYYYVV```````WW`
fastq文件
• 质量值
@FC61FL8AAXX:1:17:1012:19200#GCCAAT/1 CCACTGTCATGTGAACATCACAGAGACATTTCTTGA + bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_\
表示方法 Illumina:字符的ASCII值 - 64 = 质量值 (Sanger:字符的ASCII值 - 33 = 质量值)
A 1000
(1923,1723)
A 1000
(1032,1231)
......
......
......
......
Basecalling
Crosstalk 校正 4种光强度归一化 (用DNA样品计算参数)
Phasing/Prephasing 校正 (用DNA样品计算参数)
对于每个cluster: 在每个cycle中,比较4种光强度, 光强度最大的就是当前cycle测到 的碱基,各cycle测到的碱基连起 来组成这个cluster的碱基序列; 计算每个碱基的质量值
1440
5.625 32 270 87% 310 87% 350 85%
PF cluster (万/tile)
cluter K/mm^2 reads M/Lane 101PE Gb/Lane 91PE Gb/Lane
23.8
527 28.6 5.7
218
444 69.6 13.9 12.5
235
480 75.2 15.0 13.5
滤波片
A 光谱
C
A
光谱
C
Crosstalk AC光谱间有交叠,GT光谱间有交叠,所以: 碱基A的图片中包含C发出的光 碱基C的图片中包含A发出的光 碱基T的图片中包含G发出的光 不利:不能直接比较光强度大小而得到碱基 有利:利用图片中共同的亮点,将所有图片对齐重叠,解决offset问题
图像分析结果
fastq文件产量(GA)
样品类型 上机测序 类型 平均产量 正常产量 (Gbp/Lane) (Mreads/Lane)
SmallRNA
表达谱 Chip-seq MeDIP-seq 转录组 De novo De novo
36SE
36SE 36SE 45PE 76PE 101PE 76PE
0.70
0.70 0.88 2.20 3.81 6.00 4.50
fastq文件
• 每条序列(reads)长度 read1和read2分别去除了最后一个碱基,即: 36 SE 有效长度为 35 101 PE 有效长度为 100(read1)+100(read2) 101+8+101 PEindex 有效长度为 100(read1)+100(read2) Read1中所有reads长度相同,Read2中所有reads长度相同, 但是Read1和Read2长度可以不相同,取决于上机测序循环(cycle)数量 • 质量筛选(PF): Illumina标准流程输出的fastq文件,去除了qseq文件中没有通过默认 质量筛选标准的低质量序列(reads) GA正常PF比例:DNA 80~90%,RNA 70~85% • 每个Lane的正常产量范围: GA 20~30M PF reads — Read1和Read2各有20~30M Hiseq 60~80M PF reads — Read1和Read2各有60~80M 碱基总产量 = Read1的产量 + Read2的产量 = reads数量*(Read1的长度 + Read2的长度)
T C G T A C G T
-18
-12 800 25 20 50 40 500 300
G
T A C G T C G T
500
300 33 24 500 300 800 -20 -20
......
...... Crosstalk ...... ...... ...... ...... ...... ...... 固有发光能 力不同, ...... 需要归一化 ...... ......
20 (2个样品混合上1个lane)
20 (4个样品混合上1个lane) 25 25 25 (2个样品混合上1个lane) 30 30
De novo
外显子 重测序 重测序 重测序 Meta 甲基化
45PE
76PE 101PE 76PE 45PE 76PE 76PE
2.64
4.50 6.00 4.50 2.64 4.50 3.75
G
T A C G T A C G T
20
24 -13 -12 40 700 500 900 26 32
G
Insert-size
文库分子长度
2100检测报告 文库长度分布
与参考序列比对得到 insert-size分布
正常insert-size分布 外显子
基因组DNA
PCR-free文库
异常insert-size分布
文库质控问题1:Pair-end关系
2K及以上文库
• 与参考序列比较 参考序列正向 参考序列反向互补
范围
GA Illumina1.3+(09年3月之后): [2,35] [B,c] GA Illumina1.0 (09年3月之前): [-5,40] [;,h] Hiseq: [2:38] [B,f]
质量值与错误率理论关系: Q =-10 log10(e)
质量值计算方法:根据光强信号信噪比、光强度衰减、GC含量等参数,计算质量值
Basecalling结果:qseq文件
列 1 2 意义 机器编号 run序号 整数 表示法
3
4 5
Lane号
Tile号 X坐标
整数1到8
整数 整数
6
7 8 9 10
Y坐标
index标志 read1/read2标志 碱基序列 质量序列
整数
index序列或者“0” "1"表示read1;"2"表示read2 大写ACGT和".": ACCCAACTCATCTGAAACA 每个碱基有一个质量值,用字符表示: 字符的ASCII码值-64=质量值 bbbc`bb_bb_aSa`V]`\
30
30 30 30 30 30 25
甲基化
45PE
2.20
25
fastq文件产量(Hiseq vs GA)
GA HiSeq
FC面积 mm^2/FC
tile面积 mm^2 /tile tile /Lane raw cluster (万/tile) PF
510
0.53125 120 28 85% 250 87%
将同一个tile的所有图片中的亮点坐标对齐重叠 不同图片之间存在偏移/拉伸/压缩(offset) 系统、稳定的: 4种光折射率不同、滤波片不同、光路不同,所以造成成像的偏移/拉伸/ 压缩,可利用crosstalk,计算出偏移/拉伸/压缩的数值(offset参数) 偶然、随机的: flowcell表面不平、自动调整焦距、机械移动不够精确、随机振动,可 利用crosstalk解决
数据处理流程
测序仪
测序控制PC
计算机集群
1.控制测序过程 决定测序长度、填加试剂、 控制温度、控制反应时间、 拍照 2.图像分析 对测序仪拍照的图片进行 图像分析,得到亮点的光 强度和坐标 3.basecalling 由光强度得到碱基序列
4.数据传输 将bwenku.baidu.comsecalling结果 (二进制文件bcl) 传输到计算机集群 的存储上
A A C C C
C
G
G T
G
T
图像分析及basecalling基本原理
Cycle1
1 3 A G
Cycle2
T C
Cycle3
A G
2 4
C G
C A
T C
由4个cluster得到4条序列: ① ② ③ ④ ATA... CCT... GCG... GAC...
图像分析
对每个图片独立的处理
图像锐化 对图片进行快速傅里叶变换(FFT),在傅里叶空间乘以滤波函数后反变换 识别cluster/亮点 信噪比(亮度/背景值)大于阈值的亮点区域 计算亮点光强度和位置坐标 在亮点区域,对光强度进行二维插值,求出最大光强度,以及最大光强度 对应的位置坐标
phasing
prephasing
Sequencing primer
A G C T
Basecalling结果:qseq文件
• 每一行表示一条reads(一个cluster) • 每行有11列,tab分隔: 机器编号、run序号、Lane号、Tile号、X坐标、Y坐标、 index标志、read1/read2标志、碱基序列、质量序列、 是否通过默认的质量筛选标准 • Single-end(SE)测序: 1个qseq文件 • Pair-end(PE)测序: 2个qseq文件分别存放read1和read2的数据; 2个文件的同一行属于同一个cluster • 每条序列(reads)长度=上机测序循环(cycle)数量; • 测序cycle数量受测序试剂盒的试剂量限制, 对于GA有: 36SE、36+7/8SEindex、45PE、36+7+45PEindex、 76PE、74+7+76PEindex、73+8+76PEindex、 101PE、101+7/8+101PEindex 等 对于Hiseq: 91PE、91+8+91PEindex、 101PE、101+8+101PEindex
5' PCR primer2 (包含3'adapter反向互补)
Read1测序
5' 3'
3'
5'
Read2测序
• 与参考序列比较 参考序列正向 参考序列反向互补
5' 3'
Read1
3' 5'
或者:
参考序列正向 参考序列反向互补
5' 3'
Read2
Read2
3' 5'
总之,Read1,Read2与参考序列比对结果: 一正(F)一反(R),且F的位点坐标小于R的位点坐标 F 参考序列正向 5' 参考序列反向互补
5.数据处理 将bcl文件转化为后续信息 分析所使用的文本文件 (fastq,qseq) 6.index拆分 7.数据质量分析 8.数据备份 9.后续信息分析......
图像分析及basecalling基本原理
Cycle1
1 3
Cycle2
Cycle3
A
2 4
对A发出 的光拍照 对C发出 的光拍照 对G发出 的光拍照 对T发出 的光拍照
270
551 86.3 17.3 15.5
298
622 95.2 19.0 17.1
文库质控问题1:Pair-end关系
800bp及以下文库 PCR primer1 (包含5'adapter) PCR primer2反向互补 (包含3'adapter)
5'
3'
3'
PCR primer1反向互补 (包含5'adapter反向互补)
3'
Read1
3' 5'
R
• 总之,Read1,Read2于参考序列比对结果: 一正(F)一反(R),且F的位点坐标小于R的位点坐标 F 参考序列正向 5' 参考序列反向互补
3'
3' 5'
R • 文库插入片段长度
5' PCR primer1 PCR primer2
Insert-size
3'
3'
5'
11
是否通过默认的质量筛选标准 1表示通过;0表示不通过,质量差
fastq文件
• 每4行表示一条reads(一个cluster) 第一行:@序列ID,包含index序列及read1或read2标志: 第二行:碱基序列,大写“ACGTN” 第三行:“+”,省略了序列ID 第四行:质量值序列:字符的ASCII码值-64=质量值 • Single-end(SE)测序:1个fastq文件 • Pair-end(PE)测序:2个fastq文件分别存放read1和read2的数据; Read1的fastq文件 *1.fq中第一条reads: @FC61FL8AAXX:1:17:1012:19200#GCCAAT/1 CCACTGTCATGTGAACATCACAGAGACATTTCTTGA + bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_\ Read2的fastq文件 *2.fq中第一条reads: @FC61FL8AAXX:1:17:1012:19200#GCCAAT/2 AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA + `QVVV``V``````YVYWWYPWYYTYYWUYYYVV```````WW`
fastq文件
• 质量值
@FC61FL8AAXX:1:17:1012:19200#GCCAAT/1 CCACTGTCATGTGAACATCACAGAGACATTTCTTGA + bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_\
表示方法 Illumina:字符的ASCII值 - 64 = 质量值 (Sanger:字符的ASCII值 - 33 = 质量值)
A 1000
(1923,1723)
A 1000
(1032,1231)
......
......
......
......
Basecalling
Crosstalk 校正 4种光强度归一化 (用DNA样品计算参数)
Phasing/Prephasing 校正 (用DNA样品计算参数)
对于每个cluster: 在每个cycle中,比较4种光强度, 光强度最大的就是当前cycle测到 的碱基,各cycle测到的碱基连起 来组成这个cluster的碱基序列; 计算每个碱基的质量值
1440
5.625 32 270 87% 310 87% 350 85%
PF cluster (万/tile)
cluter K/mm^2 reads M/Lane 101PE Gb/Lane 91PE Gb/Lane
23.8
527 28.6 5.7
218
444 69.6 13.9 12.5
235
480 75.2 15.0 13.5
滤波片
A 光谱
C
A
光谱
C
Crosstalk AC光谱间有交叠,GT光谱间有交叠,所以: 碱基A的图片中包含C发出的光 碱基C的图片中包含A发出的光 碱基T的图片中包含G发出的光 不利:不能直接比较光强度大小而得到碱基 有利:利用图片中共同的亮点,将所有图片对齐重叠,解决offset问题
图像分析结果
fastq文件产量(GA)
样品类型 上机测序 类型 平均产量 正常产量 (Gbp/Lane) (Mreads/Lane)
SmallRNA
表达谱 Chip-seq MeDIP-seq 转录组 De novo De novo
36SE
36SE 36SE 45PE 76PE 101PE 76PE
0.70
0.70 0.88 2.20 3.81 6.00 4.50
fastq文件
• 每条序列(reads)长度 read1和read2分别去除了最后一个碱基,即: 36 SE 有效长度为 35 101 PE 有效长度为 100(read1)+100(read2) 101+8+101 PEindex 有效长度为 100(read1)+100(read2) Read1中所有reads长度相同,Read2中所有reads长度相同, 但是Read1和Read2长度可以不相同,取决于上机测序循环(cycle)数量 • 质量筛选(PF): Illumina标准流程输出的fastq文件,去除了qseq文件中没有通过默认 质量筛选标准的低质量序列(reads) GA正常PF比例:DNA 80~90%,RNA 70~85% • 每个Lane的正常产量范围: GA 20~30M PF reads — Read1和Read2各有20~30M Hiseq 60~80M PF reads — Read1和Read2各有60~80M 碱基总产量 = Read1的产量 + Read2的产量 = reads数量*(Read1的长度 + Read2的长度)
T C G T A C G T
-18
-12 800 25 20 50 40 500 300
G
T A C G T C G T
500
300 33 24 500 300 800 -20 -20
......
...... Crosstalk ...... ...... ...... ...... ...... ...... 固有发光能 力不同, ...... 需要归一化 ...... ......
20 (2个样品混合上1个lane)
20 (4个样品混合上1个lane) 25 25 25 (2个样品混合上1个lane) 30 30
De novo
外显子 重测序 重测序 重测序 Meta 甲基化
45PE
76PE 101PE 76PE 45PE 76PE 76PE
2.64
4.50 6.00 4.50 2.64 4.50 3.75