一步一步教你做转录组分析(HISAT, StringTie and Ballgown)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一步一步教你做转录组分析(HISAT, StringTie and

Ballgown)

该分析流程主要根据2016年发表在Nature Protocols 上的一篇名为Transcript-level expression analysis of

RNA-seq experiments with HISAT, StringTie and Ballgown 的文章撰写的,主要用到以下三个软件:HISAT

(/software/hisat/index.shtml)利用大量FM 索引,以覆盖整个基因组,能够将RNA-Seq的读取与基因组进行快速比对,相较于STAR、Tophat,该软件比对速度快,占用内存少。

StringTie(/software/stringtie/)能够应用流神经网络算法和可选的de novo组装进行转录本组装并预计表达水平。与Cufflinks等程序相比,StringTie实现了更完整、更准确的基因重建,并更好地预测了表达水平。Ballgown (https:///alyssafrazee/ballgown)是R语言中基因差异表达分析的工具,能利用RNA-Seq实验的数据(StringTie, RSEM, Cufflinks)的结果预测基因、转录本的差异表达。然而Ballgown并没有不能很好地检测差异外显子,而DEXseq、rMATS和MISO可以很好解决该问题。

一、数据下载Linux系统下常用的下载工具是wget,但该工具是单线程下载,当使用它下载较大数据时比较慢,所以选

择axel,终端中输入安装命令:$sudo yum install axel然后提示输入密码获得root权限后即可自动安装,安装完成后,输入命令axel,终端会显示如下内容,表示安装成功。Axel工具常用参数有:axel [选项][下载目录][下载地址]-s :指定每秒下载最大比特数-n:指定同时打开的线程数-o:指定本地输出文件-S:搜索镜像并从X servers服务器下载-N:不使用代理服务器-v:打印更多状态信息-a:打印进度信息-h:该版本命令帮助-V:查看版本信息号#Axel 安装成功后在终端中输入命令:$axel

ftp:///pub/RNAseq_protocol/chrX_data.tar.g z此时在终端中会显示如下图信息,如果不想该信息刷屏,添加参数q,采用静默模式即可。

#数据下载后,进行解压:$tar–zxvfchrX_data.tar.gz解压后利用tree命令查看数据结构,它会以树状图的形式列出目录的内容。整个数据的结构如下图所示:

chrX_gtf是X号染色体的注释文件chrX.fa是X号染色体的序列文件indexes文件夹中是HISAT对于X号染色体的index文件,该文件是根据序列文件chrX.fa利用hisat2-build 构建的,samples文件夹中的12个fastq文件是英格兰岛和约鲁巴住民的X号染色体的数据。

二、软件安装首先安装bioconda,它是一个自动化管理生物信息软件的工具,安装简单,且各个软件依赖的环境一同打

包且相互隔离,非常适合在服务器中搭建生信分析环境。#

下载和安装miniconda$ wget

https://repo.continuum.io/miniconda/Miniconda3-latest-Lin ux-x86_64.sh#下载完成后在终端中安装$bash

Miniconda-latest-Linux-x86_64.sh按照提示安装,完成后$source ~/.bashrc #使以上的安装立即生效#输入以下命令

检验miniconda是否安装成功$ conda list显示如下图信息说明安装成功

然后利用conda install 软件名+版本号安装软件即可,我们需要安装hisat2、stringtie、samtools三个软件,安装的命

令为:$ condainstall hisat2$ condainstall

stringtie$ condainstall samtools

三、分析流程1、使用HISAT将读段匹配到参考基因组上,

使用者可以提供注释文件,但HISAT依旧会检测注释文件没有列出来的剪切位点。2、比对上的reads将会被呈递给StringTie进行转录本组装,StringTie单独的对每个样本进

行组装,在组装的过程中顺带估算每个基因及isoform的表达水平。3、所有的转录本都被呈递给StringTie的merge

函数进行merge,这一步是必须的,因为有些样本的转录本可能仅仅被部分reads覆盖,无法被第二步的StringTie组

装出来。merge步骤可以创建出所有样本里面都有的转录本,方便下一步的对比。4、merge的数据再一次被呈递给

StringTie,StringTie可以利用merge的数据重新估算转录本的丰度,还能额外的提供转录本reads数量的数据给下一步的ballgown。5、Ballgown从上一步获得所有转录本及其丰度,根据实验条件进行分类统计。

四、实战

首先使用hisat2进行比对,具体用法:hisat2 [options]* -x {-1 -2 | -U | –sra-acc } [-S ]主要参数:-x :参考基因组索引文件的前缀。

-1 :双端测序结果的第一个文件。若有多组数据,使用逗号将文件分隔。Reads的长度可以不一致。

-2 :双端测序结果的第二个文件。若有多组数据,使用逗号将文件分隔,并且文件顺序要和-1参数对应。Reads的长度可以不一致。

-S :指定输出的SAM文件。由于该样本采用双端测序,文件数稍多,利用脚本一次性执行$ for i in ;dohisat2 -p 4 -x chrX_data/indexes/chrX_tran -1

chrX_data/samples/ERR$_chrX_1.fastq.gz -2

chrX_data/samples/ERR$_chrX_2.fastq.gz -S

ERR$_chrX.samdone将该脚本保存为1.sh,在终端中运行即可,即:sh ~/脚本/所处/位置/1.sh脚本执行完即可得到右图中12个sam文件。SAM(Sequence Alignment/Map)格式是一种通用的比对格式,用来存储reads到参考序列的比对

相关文档
最新文档