转录组测序结题报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

转录组测序结题报告
转录组测序结题报告
篇一:转录组测序问题集锦
转录组测序问题集锦
转录组是某个物种或者特定细胞类型产生的所有转录本的集合,转录组测序(RNA-seq) 是最近发展起来的利用深度测序技术进行转录分析的方法,可以对全转录组进行系统的研究。

Roche GS FLX Titanium 、Illumina Solexa GA IIx和AB SOLID 4均可以对转录组进行测序,Roche GS FLX Titanium与Illumina Solexa GA IIx和AB SOLID 4相比,拥有更长的读长和较小的数据量,适用于表达量较高基因的RNA全长测序。

但是对低表达丰度的基因,可能需要多次测序才能得到足够的数据,成本比较高,而Illumina Solexa GA IIx和AB SOLID 4数据读取量大,能够得到较高的覆盖率,可以较好的降低成本。

若是位置基因组序列的物种,则Roche GS FLX Titanium测序更有优势,其较长的读长便于拼接,获得更好的转录本数据。

转录组测序可以供研究者在转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区SNP研究),非编码区域功能研究(Non-coding RNA
研究、miRNA前体研究等),基因表达水平研究以及全新转录本发现等方面进行深入研究。

研究转录组的方法有哪些?
目前研究转录组的方法主要三种,基于杂交技术的cDNA 芯片和寡聚核苷酸芯片,基于sanger测序法的SAGE (serial analysis of gene expression)、LongSAGE和MPSS(massively parallel signature sequencing),基于第二代测序技术的转录组测序,又称为RNA-Seq。

转录组测序比其他研究方法有哪些优势?
(1)可以直接测定每个转录本片段序列、单核苷酸分辨率的准确
度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题;
(2)灵敏度高,可以检测细胞中少至几个拷贝的稀有转录本;
(3)可以对任意物种进行全基因组分析,无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析,同时能够检测未知基因,发现新的转录本,并准确地识别可变剪切位点及cSNP,UTR区域。

(4)检测范围广,高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。

转录组测序有什么样的样品要求?
(1)样品纯度要求:OD值应在1.8至2.2之间;电泳检测28S:18S至少大于
1.8。

(2)样品浓度: total RNA浓度不低于400 ng/μg。

(3)total RNA样品请置于-20℃保存;请提供total RNA 样品具体浓度、体积、制备时间、溶剂名称及物种来源。

请同时附上QC数据,包括电泳胶图、分光光度或Nanodrop仪器检测数据。

(4)样品请置于1.5 ml管中,管上注明样品名称、浓度以及制备时间,管口使用Parafilm封口。

建议使用干冰运输,并且尽量选用较快的邮递方式,以降低运输过程中样品降解的可能性。

mRNA的纯化分离方法?
进行mRNA研究中,首先需要对样本进行总RNA抽提,抽提得到的RNA除含有mRNA外,还含有rRNA和tRNA,为防止这两类RNA对转录组研究的影响,因此我们需要对mRNA 进行分离纯化。

真核细胞的mRNA分子最显著的结构特征是具有5’端帽子结构(m7G)和3’端的Poly(A)尾巴。

绝大多数哺乳类动物细胞mRNA 的3’端存在20-30个腺苷酸组成
的Poly(A)尾,通常用Poly(A+)表示。

这种结构为真核mRNA的提取,提供了极为方便的选择性标志,寡聚(dT)纤维素或寡聚(U)琼脂糖亲合层析分离纯化mRNA的理论基础就在于此。

mRNA的分离方法较多,其中以寡聚(dT)-纤维素柱层析法最为有效,已成为常规方法。

此法利用mRNA 3’末端含有Poly(A+)的特点,在RNA流经寡聚(dT)纤维素柱时,在高盐缓冲液的作用下,mRNA被特异地结合在柱上,当逐渐降低盐的浓度时或在低盐溶液和蒸馏水的情况下,mRNA被洗脱,经过两次寡聚(dT)纤维柱后,即可得到较高纯度的mRNA。

使用Solexa进行转录组测序时,样本RNA如何进行片段化处理?cDNA插入片段长度的选择?
Solexa转录组测序文库构建时采用专用的打断Buffer 对RNA样本进行片段化处理,这种方法充分利用RNA对二价阳离子的敏感性,具有稳定性好的优点,通过这种方法打断能得到更加均匀的覆盖率。

mRNA-seq可以既可以采用单端测序(single read)还可以采用双端测序(paired end),对于单端测序来说片段长度150-200bp是理想的长度范围,对于双端测序来说片段长度推荐300-500bp,由于两端加入了Solexa的锚定序列和引物序列,样品准备完成后所获得的产物长度比插入的cDNA长度要长。

文库准备过程中,反转录引物的选择?
在进行cDNA合成过程中,经常用到的有两种引物:oligo dT引物和随机引物。

在RNA反转录过程中使用oligo dT引物进行扩增可以保证扩增产物包括mRNA的3'末端,减少rRNA的干扰,但是采用oligo dT 引物扩增有一个问题,就是扩增片段的长度偏短和扩增产物所包含的信息量偏向3’端的问题,之所以有长度偏短,一方面与RNA完整性有关,但最重要的限制在于逆转录酶的延伸能力。


oligo dT 引物扩增出来的片段长度短,虽然都有mRNA 的3'端,但是序列信息多位于3'-UTR附近,若扩增序列太短,则有用信息很少,不利于序列的识别和分析。

使用Random primer扩增,虽然扩增偏短长度也很短,但是由于它的逆转录并不一定在mRNA的末端起始,而是在随机位置起始,所以它的扩增片段带有更多CDS的信息,但是如果是用总RNA逆转录
的话,有可能会受到rRNA的干扰。

采用Solexa进行转录组测序,测序文库准备过程中,由于实验之前已经采用oligo dT微磁珠进行纯化,而且mRNA已经进行了片段化处理后才进行反转录,因此反转录只能采用随机引物进行cDNA的合成,如果采用oligo dT进行扩增,只能得到mRNA的3'端序列,无法得到完整的mRNA序列。

Solexa进行转录组测序,测序文库的制备方法及质控标准?
首先会样本进行质量检测,检测合格后,对样本进行测序前处理,构建测序文库,构建步骤为:
(1)首先利用oligo dT微珠纯化mRNA;
(2)将纯化得到的mRNA进行片段化处理;
(3)利用逆转录酶反转录合成cDNA第一链;
(4)以cDNA第一链为模板合成双链cDNA;
(5)对双链cDNA进行末端修复并在3’末端加’A”;
(6)在DNA片段的两端连接上特定的测序接头;
(7)割胶纯化连接好的cDNA片段(一般回收200-500bp 之间的片段);
(8)利用高保真聚合酶扩增测序文库;
(9)检测测序文库。

对于测序文库,需要进行质量控制,一般通过Aligent Technologies 2100分析仪和电泳观察两种方法检测测序文库的大小,纯度及浓度。

转录组测序结果的影响因素?
RNA的降解严重影响测序的质量,RNA降解后,加入
poly-A后无法捕获纯化mRNA,因此,随机引物反转录无法得到全部的cDNA,导致测序结果出现明显的3‘-和5’-偏向。

文库中的poly-A多聚物的存在会对测序信号产生干扰,影响测序结果的准确性;同时由于转录组中转录本的丰度不一致,实验前需要对样本进行均一化处理,否则高丰度的表达基因会掩盖低丰度表达基因,导致寻找新基因失败或者是获得大量无意义的重复序列。

转录组测序需要多大的测序量才能得到有意义的结果?
转录组测序前,需要对物种转录组的大小进行评估,评估方法如下:
(1)对于有reference genome的物种,可以分析基因组信息,统计编码基因的个数,及其碱基数,从而估计物种转录组的大小,另外可以查询相关或相近物种转录组研究的文献,作为参考。

(2)对于无reference genome的物种则只能参考相近物种的转录组大小。

由于转录组需要进行表达量的分析,因此在转录组测序中不推荐覆盖度,在进行不同基因和不同实验间的基因表达差异分析时,人们提出了RPM和RPKM的概念。

RPM(Reads
Per Million reads)即每百万reads中来自于某基因的reads 数,考虑了测序深度对读段计数的影响。

RPKM(Reads Per Kilo bases per Million reads)是每百万reads中来自于某基因每千碱基长度的reads数。

因此,在确定转录组的测序量时,最好以产生的读长数目做依据,参照转录组大小,估计需要的读长数目,来确定转录组需要的测序量。

如何处理转录组测序中存在的系统噪音和偏差?
虽然深度测序技术的准确性较以前的技术有了很大提高,但仍然存在错误和噪声。

比如内含子区内有一些不连续的reads,很可能由系统噪声造成,如样品污染、测序错误和不恰当的read定位策略等。

另外,外显子区域内的read 信号分布有时也很不均匀。

有文献报道,序列组成尤其是GC 含量、RNA二级结构等也有可能是导致read不均匀分布的原因。

这些噪声和分布偏好将影响新基因的识别和对剪接异构体形式和表达水平推断。

合理地建模RNA-seq数据中的系统噪声和偏好是解决上述问题最有效的办法。

基本的思路可以是:首先根据实验原理寻找可能产生系统噪音或偏差的因素,并尽可能将这些因素转化成可量化的特征,如序列特征、二级结构等;然后,将用实验数据对这些特征做统计分析,构造和训练模型,用模型来对数据进行校正。

需要注意的是,某些偏好是由当前
的测序技术和分析方法共同造成的,难以完全消除。

在这种情况下,后续处理和解释时需要充分意识到这种偏好可能对生物学结论带
来的影响,必要时通过补充其他实验来验证和修正通过高通量测序得到的生物结论。

葛博
XX年05月
篇二:转录组测序
转录组分析
研究背景:
RNA-Seq是通过结合实验和计算方法来鉴定生物样品中RNA序列的种类和丰度的一种技术。

通过RNA-seq,我们就能够确定单链RNA分子中ATCG的顺序。

整个过程主要包括:从细胞或组织中提取RNA分子、文库的构建以及后继的生物信息学数据分析。

RNA-Seq 技术具有许多早期研究方法(如:微阵列)所不具备的优点,如:RNA-Seq平台的高通量、新技术所带来的高灵敏度、发现新转录本、新基因模型以及非编码RNA的能力等。

RNA-Seq技术的到来,使人们认识到,无论是单细胞模式生物还是人类,我们对其转录组的认知异常匮乏。

而RNA-Seq产生的新的数据,则可以帮助我们发现基因结构上
的巨大差异、鉴定出新的转录本以及能够对small non-coding RNA和lncRNAs有着更好的了解。

而且随着测序花费的降低,RNA-Seq的优势体现的更加明显。

服务流程:
样品选取
mRNA片段化 cDNA合成末端修复、加polyA、加接头,PCR扩增数据分析
测序方案:
内容:TotalRNA检测,普通转录组文库构建及测序及信息分析。

测序方式:HiseqPE125。

项目周期:有参45天,无参50天。

分析内容:
无参考基因组:
1.1质量控制
1.11评估碱基质量
1.12过滤低质量reads
1.13 去掉低质量碱基和接头序列
1.14 统计N比例和reads长度
1.15 统计GC含量和reads重复度
1.2 Reads的从头比对组装
1.4基因表达差异分析
1.41 统计基因在不同条件下的差异表达情况
1.5差异基因富集分析
1.51 通过GO、KEGG对差异基因进行功能富集分析1.6差异表达基因的蛋白质互作网络分析
1.7SNV/Indel分析
1.8样本间相关性分析
有参考基因组:
2.1质量控制(同无参)
2.2 Reads比对组装
2.22 统计reads与参考基因组比对情况
2.22 分析对插入、删除和连接体情况
2.23 统计转录本在参考基因组上位置、长度和覆盖度情况2.3基因表达差异分析
2.4差异基因富集分析
2.5差异表达基因的蛋白质互作网络分析
2.6新转录本预测
2.7 SNV/Indel分析
2.8 UTR分析
2.9可变剪接分析
3.0 Non-coding RNA分析
3.1样本相关性分析
案例解读:
案例:通过poly(A)+ RNA-Seq分析Drosophila melanogaster 转录组的动态性
本项研究通过poly(A)+ RNA-Seq技术对果蝇的细胞系进行测序,鉴定出一批通过替换启动子和RNA剪接来转录出大量转录本的神经特异性基因。

通过后继分析还发现,对于RNA剪接变化,组织间的差异要远远大于发育阶段间的差异。

另外,发现性腺表达了成百上千的未知的蛋白编码和lncRNAs,其中一些甚至是反义转录的。

显示了果蝇转录组
的动态性和多样性。

小部分的基因(0.2%)编码出大部分的转录本。

Dystrophin(Dys)肌萎缩蛋白产生72个转录体和编码32种蛋白。

高亮的是发生可变剪接事件和3’腺苷化。

参考文献: Brown, J.B., et al., Diversity and dynamics of the Drosophila transcriptome. Nature, XX. 512(7515): p. 393-399.
篇三:转录组测序以及常用算法简介
转录组测序以及常用算法简介
转录组测序,也被称为“全转录组鸟枪法测序”(WTSS),由于转录组测序的高覆盖率,它也被称为深度测序。

它主要利用新一代高通量测序技术,对物种或组织的RNA反转录而成的cDNA文库进行测序,并得到相关的RNA信息。

其研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA 的总和,包括mRNA和非编码RNA。

它是指用新一代高通量测序技术,对物种或组织的RNA反转录而成的cDNA文库进行测序,并得到相关的RNA信息。

转录组测序根据有无基因组参考序列分为:有参考基因组的转录组测序,和无参考基因组的de novo测序。

如果有基因组参考序列,可以把转录本映射回基因组,确定转录本位置、剪切情况等更为全面的遗
传信息,而这些遗传信息可以广泛应用于生物学研究、医学研究、临床研究中。

虽然转录组测序和基因组测序的步骤大体相同,但是在文库制备和分析方法上却有很大的区别。

在生物信息学领域,序列比对作为识别DNA、RNA和蛋白质相似区域的有效手段,有助于我们更
好地研究其结构、功能以及进化方向的关系。

下图简要说明了转录组测序的主要流程:首先将细胞中所有的反转录产物转化为cDNA文库,再将cDNA 随机剪切为小DNA片段,并在两端加上接头(Adapter),所得序列通过比对(有参考基因组)或者从头组装de novo(无参考基因组),形成全基因组范围的转录谱。

图1 转录组测序流程图
常用算法简介
TopHat
(/doc/cd5040395.html,/software/tophat/index .shtml)TopHat是Cole Trapnell等人于XX年发表在Bioinformatics 上的基于Bowtie的转录组测序比对算法,是马里兰大学生物信息和计算机生物中心,以及加利福尼亚大学伯克利分校数学系和分子细胞生物学系以及哈佛大学的干细胞与再生生物学系联合开发的结果。

它通过超快的高通量短序列比对RNA序列来识别剪切位点。

图2 TopHat流程图
TopHat首先先用Bowtie将RNA序列与整个参考基因组进行比对,找到匹配的序列,再用Maq合并匹配的序列,对外显子进行选择性的拼接。

Bowtie在进行比对时可以兼容一定量的错误(默认值=2)。

TopHat使用每个碱基2比特的编码方法对庞大的基因数据进行了有效地储存和管理,因此允许Bowtie在哺乳动物基因组序列比对时,只使用2GB左右的内存。

TopHat可以发现大部分新的剪接位点,但如果外显子相距比较长,或者内含子为非经典内含子,TopHat则无法有效地发现。

RUM(/doc/cd5040395.html,/RUM)
RUM(RNA-Seq Unified Mapper)是Gregory R.Grant 等人于XX年发表在Bioinformatics上的转录组测序比对算法。

运算分为三个阶段,首先先用Bowtie把所有序列(reads)分别与参考基因组和转录组进行比对,合并结果后,把无法匹配的序列再用Blat(Blast Like Alignment Tool)与参考基因组进行比对,合并后得到最终结果。

RUM很好地利用了Burrows-Wheeler压缩算法的高效快速,以及
Blat的敏感性。

Blat之前被认为不适合用作短序列的比对,而且由于速度太慢,也不适合进行大规模运算。

但是Blat可以高效地进行短序列比对,识别新的剪切点。

随着科技的发展,计
算资源成本逐渐降低,比对序列的长度增加,使得Blat可以被更好地应用。

图3 RUM流程图
MapSplice(/p/rna-star/)
STAR(Spliced Transcrip(本文来自:/doc/cd5040395.html, 小草范文网:转录组测序结题报告)ts Alignment to a Reference)是Alexander Dobin等人于XX年发表在bioinformatics上的一个快速普适的转录组测序比对算法。

STAR可以准确比对由三代测序技术产生的长序列。

与大部分比对软件不同,STAR不是单纯的由DNA短序列比对软件扩展而来的(比如TopHat就是由Bowtie扩展而来),它直接用非连续序列进行比对,在速度方面也有所提升。

算法由两部分组成:种子搜索(seed search)和聚类、拼接、打分(clustering/stitching/scoring)。

STAR 进行种子搜索的核心是MMP(Maximal Mappable Prefix),与大型基因数据比对工具Mummer和MAUVE的Maximal Exact Match概念相似,通过运行非压缩的后缀数组(suffix array, SAs)实现。

MMP可以发现不同的不匹配序列,但是与Mummer 和MAUVE不同,在MMP中,只有不匹配的序列进入第二轮搜索。

MMP的这一特性使得STAR的运行速度有了非常显著的提高。

根据用户对匹配、不匹配、插入缺失、间隔定义的分值
评估比对结果并打分,选择分值最高的结果输出。

GSNAP(/doc/cd5040395.html,/gmap/)
GSNAP(Genomic Short-read Nucleotide Alignment Program)是由Thomas D.Wu等人于XX年发表在bioinformatics 上的一个快速、SNP兼容的转录组测序比对算法。

它可以利用概率模型或者已知剪接位点的数据库发现非常短的以及很长的剪接序列。

值得一提的是,GSNAP是本次所介绍的五种算法中唯一使用哈希算法的
(Hash Table),由于哈希算法需要较大的内存空间,对设备的物理内存和运算性能要求较高。

比如,SOAP需要大约14GB的内存来运行人类基因组的数据。

为此,GSNAP采用了基因抽样的方法(sampling the genomic oligomers),每3nt取出12mers 作为索引,从而把所需内存由14GB缩短到4GB。

GSNAP采用的算法结构决定了其比对过程是基于核苷酸寡聚物层面的,而采用Burrows-Wheeler压缩转换算法的算法大多是基于核苷酸层面的。

Reference
Gregory R. Grant. (XX). Comparative analysis of RNA-Seq alignment algorithms and the RNA-Seq unified mapper (RUM). Bioinformatics, 27(18), 2518-2528.
Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet, XX, 10(1): 57-63.
祁云霞, 刘永斌, 荣威恒. 转录组研究新技术:RNA-Seq及其应用.《遗传》XX,33(11):1191-1202 Zhao S, Fung-Leung W-P, Bittner A, Ngo K, Liu X (XX) Comparison of RNA-Seq and Microarray in Transcriptome Profiling of Activated T Cells. PLoS ONE 9(1): e78644.
doi:10.1371/journal.pone.0078644
Yiu, S. Structural Alignment of RNA with Complex Pseudoknot Structure. Journal of Computational Biology, 97-108.
Kim, D., Pertea, G., Trapnell, C., Pimentel, H., Kelley, R., Salzberg, S. L. (XX). TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biology, 14(4). doi:10.1186/gb-XX-14-4-r36 Trapnell, C., Pachter, L., & Salzberg, S. L. (XX). T opHat: discovering splice junctions with RNA-Seq. Bioinformatics/computer Applications in The
Biosciences.doi:10.1093/bioinformatics/btp120
Kent, W James (XX). "BLAT--the BLAST-like alignment tool".
Genome Research 12 (4): 656–664. doi:10.1101/gr.229202. PMC 187518. PMID 11932250 Wang, K., Singh, D., Zeng, Z., Coleman, S. J., Huang, Y., Savich, G. L,et al J(XX). MapSplice: Accurate mapping of RNA-seq reads for splice junction discovery.Nucleic Acids Research. doi:10.1093/nar/gkq622
Dobin, A., Davis, C., Schlesinger, F., Drenkow, J., Zaleski, C., Jha, S., Batut, P., Chaisson, M., Gingeras, T(XX). STAR: ultrafast universal RNA-seq aligner.Bioinformatics. 29(1): 15–
21. doi: 10.1093/bioinformatics/bts635
Wu, T. D., & Nacu, S. (XX). Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics/computer Applications in The Biosciences.doi:10.1093/bioinformatics/btq057
Li, R., Li, Y., Kristiansen, K., & Wang, J. (XX). SOAP: short oligonucleotide alignment program.。

相关文档
最新文档