诺禾致源有参转录组分析流程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 / 49
北京诺禾致源生物信息科技有限公司
二、生物信息分析流程
获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析: 其中,DEU分析仅针对有生物学重复样品,若样品无生物学重复,则不进行此项分析。对于蛋白互作网络分析,若其存在于合同信息分析内容中,而且选择了相 应的分析物种或者近缘物种,则进行此项分析;若不存在,则不进行。
Q20(%)
95.61 94.13 95.88 93.98 95.90 94.23 95.92 94.05 95.95 94.39 95.94 94.28
数据处理的步骤如下: (1) 去除带接头(adapter)的reads; (2) 去除N(N表示无法确定碱基信息)的比例大于10%的reads; (3) 去除低质量reads(质量值 sQ <= 5 的碱基数占整个 read 长度的 50%以上的 reads)。 RNA-seq 的接头(Adapter, Oligonucleotide sequences for TruSeqTM RNA and DNA Sample Prep Kits) 信息: RNA 5’ Adapter (RA5), part # 15013205: 5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’ RNA 3’ Adapter (RA3), part # 15013207: 5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTCTGCTTG-3’
图2.3 原始数据组成 不同颜色的比例分别代表不同成分比例 (1)Adapter related:因有接头,过滤掉的 reads数及其占总 raw reads数的比例。 (2)Containing N:因 N含量超过 10%,过滤掉的 reads数及其占总raw reads数的比例。 (3)Low quality:因低质量,过滤掉的reads数及其占总raw reads数的比例。 (4)Clean reads:最终得到的 clean reads 数及其占总 raw reads 数的比例。
图1 测序错误率分布图 横坐标为reads的碱基位置,纵坐标为单碱基错误率
6 / 49
北京诺禾致源生物信息科技有限公司 2.2 A/T/G/C 含量分布检查
GC含量分布检查用于检测有无AT、GC 分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。 在illumina测序平台的转录组测序中,反转录成cDNA时所用的6bp 的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏好性与测序的物种和 实验室环境无关,但会影响转录组测序的均一性程度(Hansen et al.)。除此之外,理论上普通文库的G和C碱基及A和T碱基含量每个测序循环上应分别相等,且整个测 序过程稳定不变,呈水平线,而对于链特异性建库会出现GC分离的现象。对于DGE测序来说,由于随机引物扩增偏差等原因,常常会导致在测序得到的每个read前67个碱基有较大的波动,这种波动属于正常情况。
5 / 49
北京诺禾致源生物信息科技有限公司
2 测序数据质量评估
2.1 测序错误率分布检查
每个碱基测序错误率是通过测序Phred数值(Phred score, Qphred)通过公式(公式1 :Qphred = -10log10(e))转化得到,而Phred 数值是在碱基识别(Base Calling)过程中 通过一种概率模型计算得到,这种模型可以准确地预测碱基判别的错误率。Phred分值,不正确的碱基识别率,碱基正确识别率以及Q-score的对应关系如下表所显 示:
Clean bases
4.19G 4.19G 4.14G 4.14G 3.92G 3.92G 3.65G 3.65G 3.55G 3.55G 3.5G 3.5G
Error rate(%)
0.03 0.04 0.03 0.04 0.03 0.04 0.03 0.04 0.03 0.04 0.03 0.04
Raw reads
34200519 34200519 34245266 34245266 32687612 32687612 30232747 30232747 28782461 28782461 28521158 28521158
Clean reads
33483396 33483396 33105365 33105365 31361659 31361659 29237267 29237267 28369458 28369458 28035877 28035877
NHXXXXXX_species转录组生物信息分析结题报告
建库测序流程
Total RNA样品检测 文库构建 库检 上机测序
生物信息分析流程 结果展示及说明
原始序列数据 测序数据质量评估 参考序列比对分析 可变剪切分析 新转录本预测 SNP和InDel分析 基因表达水平分析 RNA-seq整体质量评估 基因差异表达分析 差异基因GO富集分析 差异基因KEGG富集分析 差异基因蛋白互作网络分析
illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系
Phred分值
10 20 30 40
不正确的碱基识别
1/10 1/100 1/1000 1/10000
碱基正确识别率
90% 99% 99.9% 99.99%
Q-sorce
Q10 Q20 Q30 Q40
测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分布具有两个特点: (1)测序错误率会随着测序序列(Sequenced Reads)长度的增加而升高,这是由于测序过程中化学试剂的消耗导致的,并且为illumina高通量测序平台都具有的特征。 (2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。所以前6个碱基测序错误率较高的原 因为随机引物和RNA模版的不完全结合(Jiang et al.)。
8 / 49
北京诺禾致源生物信息科技有限公司
2.4 测序数据质量情况汇总
样品测序产出数据质量评估情况详见表1。
表1 数据产出质量情况一览表
Sample name
sampleA1_1 sampleA1_2 sampleA2_1 sampleA2_2 sampleB1_1 sampleB1_2 sampleB2_1 sampleB2_2 sampleC1_1 sampleC1_2 sampleC2_1 sampleC2_2
Illumina测序标识符详细信息如下:
HWI-ST1276 71 C1162ACXX 1 1101 1208 2458 1 N 0 CGATGT
Instrument – unique identifier of the sequencer run number – Run number on instrument FlowCell ID – ID of flowcell LaneNumber – positive integer TileNumber – positive integer X – x coordinate of the spot. Integer which can be negative Y – y coordinate of the spot. Integer which can be negative ReadNumber - 1 for single reads; 1 or 2 for paired ends whether it is filtered - NB:Y if the read is filtered out, not in the delivered fastq file, N otherwise control number - 0 when none of the control bits are on, otherwise it is an even number Illumina index sequences
其中第一行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);
百度文库
第二行是碱基序列;
第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);
第四行是对应碱基的测序质量,该行中每个字符对应的 ASCII 值减去 33,即为对应第二行碱基的测序质量值。
FASTQ格式文件中每个read由四行描述,如下:
@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT + #55???BBBBB?BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH
参考文献 附录
文件目录列表 软件列表 Methods英文版 备注
1 / 49
北京诺禾致源生物信息科技有限公司
一、建库测序流程
从RNA样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。为了从源头上 保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。流程图如下:
图2 GC含量分布图 横坐标为reads的碱基位置,纵坐标为单碱基所占的比例;不同颜色代表不同的碱基类型
7 / 49
北京诺禾致源生物信息科技有限公司 2.3 测序数据过滤
测序得到的原始测序序列,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads进行过滤,得到clean reads,后续分析都基于clean reads。
2 文库构建
样品检测合格后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA)。随后加入fragmentation buffer将 mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs和DNA polymerase I合成二链cDNA,随后 利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择,最后进行PCR富集得 到最终的cDNA文库。构建原理图如下:
2 / 49
北京诺禾致源生物信息科技有限公司
1 Total RNA样品检测
诺禾致源对RNA样品的检测主要包括4种方法: (1) 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染 (2) Nanodrop检测RNA的纯度(OD260/280比值) (3) Qubit对RNA浓度进行精确定量 (4) Agilent 2100精确检测RNA的完整性
4 / 49
北京诺禾致源生物信息科技有限公司
三、结果展示及说明
1 原始序列数据
高通量测序(如Illumina HiSeqTM2500/MiseqTM)得到的原始图像数据文件经CASAVA碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称 之为 Raw Data或Raw Reads,结果以 FASTQ (简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。
3 库检
文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用Q-PCR方法对 文库的有效浓度进行准确定量(文库有效浓度 >2nM),以保证文库质量。
4 上机测序
库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行HiSeq/MiSeq测序。
北京诺禾致源生物信息科技有限公司
二、生物信息分析流程
获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析: 其中,DEU分析仅针对有生物学重复样品,若样品无生物学重复,则不进行此项分析。对于蛋白互作网络分析,若其存在于合同信息分析内容中,而且选择了相 应的分析物种或者近缘物种,则进行此项分析;若不存在,则不进行。
Q20(%)
95.61 94.13 95.88 93.98 95.90 94.23 95.92 94.05 95.95 94.39 95.94 94.28
数据处理的步骤如下: (1) 去除带接头(adapter)的reads; (2) 去除N(N表示无法确定碱基信息)的比例大于10%的reads; (3) 去除低质量reads(质量值 sQ <= 5 的碱基数占整个 read 长度的 50%以上的 reads)。 RNA-seq 的接头(Adapter, Oligonucleotide sequences for TruSeqTM RNA and DNA Sample Prep Kits) 信息: RNA 5’ Adapter (RA5), part # 15013205: 5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’ RNA 3’ Adapter (RA3), part # 15013207: 5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTCTGCTTG-3’
图2.3 原始数据组成 不同颜色的比例分别代表不同成分比例 (1)Adapter related:因有接头,过滤掉的 reads数及其占总 raw reads数的比例。 (2)Containing N:因 N含量超过 10%,过滤掉的 reads数及其占总raw reads数的比例。 (3)Low quality:因低质量,过滤掉的reads数及其占总raw reads数的比例。 (4)Clean reads:最终得到的 clean reads 数及其占总 raw reads 数的比例。
图1 测序错误率分布图 横坐标为reads的碱基位置,纵坐标为单碱基错误率
6 / 49
北京诺禾致源生物信息科技有限公司 2.2 A/T/G/C 含量分布检查
GC含量分布检查用于检测有无AT、GC 分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。 在illumina测序平台的转录组测序中,反转录成cDNA时所用的6bp 的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏好性与测序的物种和 实验室环境无关,但会影响转录组测序的均一性程度(Hansen et al.)。除此之外,理论上普通文库的G和C碱基及A和T碱基含量每个测序循环上应分别相等,且整个测 序过程稳定不变,呈水平线,而对于链特异性建库会出现GC分离的现象。对于DGE测序来说,由于随机引物扩增偏差等原因,常常会导致在测序得到的每个read前67个碱基有较大的波动,这种波动属于正常情况。
5 / 49
北京诺禾致源生物信息科技有限公司
2 测序数据质量评估
2.1 测序错误率分布检查
每个碱基测序错误率是通过测序Phred数值(Phred score, Qphred)通过公式(公式1 :Qphred = -10log10(e))转化得到,而Phred 数值是在碱基识别(Base Calling)过程中 通过一种概率模型计算得到,这种模型可以准确地预测碱基判别的错误率。Phred分值,不正确的碱基识别率,碱基正确识别率以及Q-score的对应关系如下表所显 示:
Clean bases
4.19G 4.19G 4.14G 4.14G 3.92G 3.92G 3.65G 3.65G 3.55G 3.55G 3.5G 3.5G
Error rate(%)
0.03 0.04 0.03 0.04 0.03 0.04 0.03 0.04 0.03 0.04 0.03 0.04
Raw reads
34200519 34200519 34245266 34245266 32687612 32687612 30232747 30232747 28782461 28782461 28521158 28521158
Clean reads
33483396 33483396 33105365 33105365 31361659 31361659 29237267 29237267 28369458 28369458 28035877 28035877
NHXXXXXX_species转录组生物信息分析结题报告
建库测序流程
Total RNA样品检测 文库构建 库检 上机测序
生物信息分析流程 结果展示及说明
原始序列数据 测序数据质量评估 参考序列比对分析 可变剪切分析 新转录本预测 SNP和InDel分析 基因表达水平分析 RNA-seq整体质量评估 基因差异表达分析 差异基因GO富集分析 差异基因KEGG富集分析 差异基因蛋白互作网络分析
illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系
Phred分值
10 20 30 40
不正确的碱基识别
1/10 1/100 1/1000 1/10000
碱基正确识别率
90% 99% 99.9% 99.99%
Q-sorce
Q10 Q20 Q30 Q40
测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分布具有两个特点: (1)测序错误率会随着测序序列(Sequenced Reads)长度的增加而升高,这是由于测序过程中化学试剂的消耗导致的,并且为illumina高通量测序平台都具有的特征。 (2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。所以前6个碱基测序错误率较高的原 因为随机引物和RNA模版的不完全结合(Jiang et al.)。
8 / 49
北京诺禾致源生物信息科技有限公司
2.4 测序数据质量情况汇总
样品测序产出数据质量评估情况详见表1。
表1 数据产出质量情况一览表
Sample name
sampleA1_1 sampleA1_2 sampleA2_1 sampleA2_2 sampleB1_1 sampleB1_2 sampleB2_1 sampleB2_2 sampleC1_1 sampleC1_2 sampleC2_1 sampleC2_2
Illumina测序标识符详细信息如下:
HWI-ST1276 71 C1162ACXX 1 1101 1208 2458 1 N 0 CGATGT
Instrument – unique identifier of the sequencer run number – Run number on instrument FlowCell ID – ID of flowcell LaneNumber – positive integer TileNumber – positive integer X – x coordinate of the spot. Integer which can be negative Y – y coordinate of the spot. Integer which can be negative ReadNumber - 1 for single reads; 1 or 2 for paired ends whether it is filtered - NB:Y if the read is filtered out, not in the delivered fastq file, N otherwise control number - 0 when none of the control bits are on, otherwise it is an even number Illumina index sequences
其中第一行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);
百度文库
第二行是碱基序列;
第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);
第四行是对应碱基的测序质量,该行中每个字符对应的 ASCII 值减去 33,即为对应第二行碱基的测序质量值。
FASTQ格式文件中每个read由四行描述,如下:
@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT + #55???BBBBB?BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH
参考文献 附录
文件目录列表 软件列表 Methods英文版 备注
1 / 49
北京诺禾致源生物信息科技有限公司
一、建库测序流程
从RNA样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。为了从源头上 保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。流程图如下:
图2 GC含量分布图 横坐标为reads的碱基位置,纵坐标为单碱基所占的比例;不同颜色代表不同的碱基类型
7 / 49
北京诺禾致源生物信息科技有限公司 2.3 测序数据过滤
测序得到的原始测序序列,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads进行过滤,得到clean reads,后续分析都基于clean reads。
2 文库构建
样品检测合格后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA)。随后加入fragmentation buffer将 mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs和DNA polymerase I合成二链cDNA,随后 利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择,最后进行PCR富集得 到最终的cDNA文库。构建原理图如下:
2 / 49
北京诺禾致源生物信息科技有限公司
1 Total RNA样品检测
诺禾致源对RNA样品的检测主要包括4种方法: (1) 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染 (2) Nanodrop检测RNA的纯度(OD260/280比值) (3) Qubit对RNA浓度进行精确定量 (4) Agilent 2100精确检测RNA的完整性
4 / 49
北京诺禾致源生物信息科技有限公司
三、结果展示及说明
1 原始序列数据
高通量测序(如Illumina HiSeqTM2500/MiseqTM)得到的原始图像数据文件经CASAVA碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称 之为 Raw Data或Raw Reads,结果以 FASTQ (简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。
3 库检
文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用Q-PCR方法对 文库的有效浓度进行准确定量(文库有效浓度 >2nM),以保证文库质量。
4 上机测序
库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行HiSeq/MiSeq测序。