上机-第二代测序中的数据分析-转录组
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– –
●
检测安装是否成功
– –
TopHat 解压缩过程中显示的文档
执行路径建成以后, cd 回到工作目录,输入 tophat2 按回车能够 看到以下信息则表示安装成功
2.3 安装 Cufflinks
●
解压缩
– –
$ cd ~/tools/cufflinks/ $ tar -zxvf cufflinks-2.0.2.Linux_x86_64.tar.gz $ cd cufflinks-2.0.2.Linux_x86_64/ $ cp * ~/bin/ $ cd $ cufflinks
●
建立执行路径
– –
●
检测安装是否成功
– –
Cufflinks 解压缩过程中显示的文档
执行路径建成以后, cd 回到工作目录,输入 cufflinks 按回车能够 看到以下信息则表示安装成功
3. 测序数据质量评估
●
拷贝原始测序数据
–
$ cp /home/training/data/RNA-Seq/example2-* ~/proj2/reads/ $ cd ~/proj2/fastqc/ $ fastqc -f fastq -o ./ ../reads/example2-*
●
拷贝相关的分析工具
– – – –
●
执行程序路径
–
2. 分析工具的安装
●
Bowtie
–
Bowtie is an ultrafast, memory-efficient short read aligner TopHat is a fast splice junction mapper for RNASeq reads Cufflinks assembles transcripts and estimates their abundances in RNA-Seq samples
2.2 安装 TopHat
●
解压缩
– –
$ cd ~/tools/tophat/ $ tar -zxvf tophat-2.0.8.Linux_x86_64.tar.gz $ cd tophat-2.0.8.Linux_x86_64/ $ cp * ~/bin/ $ cd $ tophat2
●
建立执行路径
– – – – – – – – –
●
Seqname: name of the chromosome or scaffold Source: name of the program that generated this feature Feature: feature type name, e.g. Gene, Variation, Similarity Start: start position of the feature End: end position of the feature Sscore: a floating point value Strand: defined as + (forward) or - (reverse) Frame: indicates the first base of a codon Attribute: a semicolon-separated of tag-value pairs
●
TopHat
–
●
Cufflinks
–
2.1 安装 Bowtie
●
解压缩
– –
$ cd ~/tools/bowtie/ $ unzip bowtie2-2.0.5-linux-x86_64.zip $ cd bowtie2-2.0.5/ $ cp bowtie2* ~/bin/ $ cd $ bowtie2
基于参考注释比较 E2-1 和 E2-2 表达差异
表达差异输出结果列表
在文件 diff_out2/gene_exp.diff 中表达差异基因的信息
GTF/GFF 格式
● ●
GTF – General Feature Format GFF – General Transfer Format GTF 格式中主要的参数
●
进入工作目录
–
●
评估测序数据质量
–
运行过程的显示
$ cd ~/proj2/fastqc/example2-1.L.fq_fastqc/ 通过 ftp 将 example2-1.L.fq_fastqc 整个文件夹拷贝回本地电脑
FastQC 的输入结果以 html 格式显示
example2-1.L.fq_fastqc 的输出结果
example2-1.L.fq_fastqc 的输出结果
4. 建立参考基因组索引
●
拷贝参考基因组数据
– –
$ cp /home/training/data/RNA-Seq/ref2.fa ~/proj2/ref/ $ cp /home/training/data/RNA-Seq/ann2.gtf ~/proj2/ref/ $ cd ~/proj2/ref/ $ bowtie2-build ref2.fa ref2
上机 - 第二代测序中的数据分析 ( 转录组 )
罗奇斌
练习二 转录组分析
目的
●
通过对 NGS 工具的安装、配置、运行来熟悉 Linux 环境下的生物信息分析软件 学会对原始数据的质量评估、拼接组装、转录表 达差异等分析过程 掌握初步的分析 NGS 数据能力
●
●
1. 建立项目文件系统
●
建立合理的文件结构
●
基于注释文件比较 E2-1 和 E2-2 表达差异
–
●
基于参考注释比较 E2-1 和 E2-2 表达差异
–
生成注释文件
生成 merged_asm 文件夹
生成 merged.gtf 文件
基于注释文件比较 E2-1 和 E2-2 表达差异
表达差异输出结果列表
在文件 diff_out1/gene_exp.diff 中表达差异基因的信息
注意事项
●
根据质量评估进行 trimming 注意 duplication level 查看 unmapped.bam 文件 注释文件的选择
●
●
●
谢谢 !
–
●
生成 gtf 文件
– – –
●
生成 assemblies.txt 文件
– – –
bam 文件生成过程
E2-1-thout 文件夹包含文件
gtf 文件的生成过程
E2-1-clout 文件夹包含文件
assemblies.txt 文件的生成过程
6. 表达差异分析
●
生成注释文件
– –
$ cd ~/proj2ቤተ መጻሕፍቲ ባይዱtophat/ $ cuffmerge -s ../ref/ref2.fa assemblies.txt $ cuffdiff -o diff_out1 -b ../ref/ref2.fa -L E2-1,E2-2 -u merged_asm/merged.gtf ./E2-1-thout/accepted_hits.bam ./E2-2-thout/accepted_hits.bam $ cuffdiff -o diff_out2 -b ../ref/ref2.fa -L E2-1,E2-2 -u ../ref/ann2.gtf ./E2-1-thout/accepted_hits.bam ./E2-2thout/accepted_hits.bam
– – – –
$ cd $ mkdir proj2 $ cd proj2 $ mkdir reads fastqc ref tophat $ cd $ cp -r /home/training/tools/bowtie ./tools/ $ cp -r /home/training/tools/tophat ./tools/ $ cp -r /home/training/tools/cufflinks ./tools/ $ export PATH=$PATH:~/bin/
●
建立基因组索引
– –
●
bowtie2-build 指令更多的用法及 options ,通过以下命 令来查看
–
$ bowtie2-build
参考基因组索引建立过程
bowtie2-build 指令更多的用法及 options
5. 拼接组装
●
生成 bam 文件
– –
$ cd ~/proj2/tophat/ $ tophat2 -o E2-1-thout ../ref/ref2 ../reads/example2-1.L.fq ../reads/example2-1.R.fq $ tophat2 -o E2-2-thout ../ref/ref2 ../reads/example2-2.L.fq ../reads/example2-2.R.fq $ cd ~/proj2/tophat/ $ cufflinks -o E2-1-clout E2-1-thout/accepted_hits.bam $ cufflinks -o E2-2-clout E2-2-thout/accepted_hits.bam $ touch assemblies.txt $ echo "./E2-1-clout/transcripts.gtf" >> assemblies.txt $ echo "./E2-2-clout/transcripts.gtf" >> assemblies.txt
●
建立执行路径
– –
●
检测安装是否成功
– –
Bowtie 解压缩过程中显示的文档
在目录 ~/tools/bowtie/bowtie2-2.0.5/ 下通过输入 ll 命令显 示已被激活的 bowtie2 命令
在目录 ~/bin/ 下可以看到建立的命令执行路径
执行路径建成以后, cd 回到工作目录,输入 bowtie2 按回车能够看 到以下信息则表示安装成功
●
检测安装是否成功
– –
TopHat 解压缩过程中显示的文档
执行路径建成以后, cd 回到工作目录,输入 tophat2 按回车能够 看到以下信息则表示安装成功
2.3 安装 Cufflinks
●
解压缩
– –
$ cd ~/tools/cufflinks/ $ tar -zxvf cufflinks-2.0.2.Linux_x86_64.tar.gz $ cd cufflinks-2.0.2.Linux_x86_64/ $ cp * ~/bin/ $ cd $ cufflinks
●
建立执行路径
– –
●
检测安装是否成功
– –
Cufflinks 解压缩过程中显示的文档
执行路径建成以后, cd 回到工作目录,输入 cufflinks 按回车能够 看到以下信息则表示安装成功
3. 测序数据质量评估
●
拷贝原始测序数据
–
$ cp /home/training/data/RNA-Seq/example2-* ~/proj2/reads/ $ cd ~/proj2/fastqc/ $ fastqc -f fastq -o ./ ../reads/example2-*
●
拷贝相关的分析工具
– – – –
●
执行程序路径
–
2. 分析工具的安装
●
Bowtie
–
Bowtie is an ultrafast, memory-efficient short read aligner TopHat is a fast splice junction mapper for RNASeq reads Cufflinks assembles transcripts and estimates their abundances in RNA-Seq samples
2.2 安装 TopHat
●
解压缩
– –
$ cd ~/tools/tophat/ $ tar -zxvf tophat-2.0.8.Linux_x86_64.tar.gz $ cd tophat-2.0.8.Linux_x86_64/ $ cp * ~/bin/ $ cd $ tophat2
●
建立执行路径
– – – – – – – – –
●
Seqname: name of the chromosome or scaffold Source: name of the program that generated this feature Feature: feature type name, e.g. Gene, Variation, Similarity Start: start position of the feature End: end position of the feature Sscore: a floating point value Strand: defined as + (forward) or - (reverse) Frame: indicates the first base of a codon Attribute: a semicolon-separated of tag-value pairs
●
TopHat
–
●
Cufflinks
–
2.1 安装 Bowtie
●
解压缩
– –
$ cd ~/tools/bowtie/ $ unzip bowtie2-2.0.5-linux-x86_64.zip $ cd bowtie2-2.0.5/ $ cp bowtie2* ~/bin/ $ cd $ bowtie2
基于参考注释比较 E2-1 和 E2-2 表达差异
表达差异输出结果列表
在文件 diff_out2/gene_exp.diff 中表达差异基因的信息
GTF/GFF 格式
● ●
GTF – General Feature Format GFF – General Transfer Format GTF 格式中主要的参数
●
进入工作目录
–
●
评估测序数据质量
–
运行过程的显示
$ cd ~/proj2/fastqc/example2-1.L.fq_fastqc/ 通过 ftp 将 example2-1.L.fq_fastqc 整个文件夹拷贝回本地电脑
FastQC 的输入结果以 html 格式显示
example2-1.L.fq_fastqc 的输出结果
example2-1.L.fq_fastqc 的输出结果
4. 建立参考基因组索引
●
拷贝参考基因组数据
– –
$ cp /home/training/data/RNA-Seq/ref2.fa ~/proj2/ref/ $ cp /home/training/data/RNA-Seq/ann2.gtf ~/proj2/ref/ $ cd ~/proj2/ref/ $ bowtie2-build ref2.fa ref2
上机 - 第二代测序中的数据分析 ( 转录组 )
罗奇斌
练习二 转录组分析
目的
●
通过对 NGS 工具的安装、配置、运行来熟悉 Linux 环境下的生物信息分析软件 学会对原始数据的质量评估、拼接组装、转录表 达差异等分析过程 掌握初步的分析 NGS 数据能力
●
●
1. 建立项目文件系统
●
建立合理的文件结构
●
基于注释文件比较 E2-1 和 E2-2 表达差异
–
●
基于参考注释比较 E2-1 和 E2-2 表达差异
–
生成注释文件
生成 merged_asm 文件夹
生成 merged.gtf 文件
基于注释文件比较 E2-1 和 E2-2 表达差异
表达差异输出结果列表
在文件 diff_out1/gene_exp.diff 中表达差异基因的信息
注意事项
●
根据质量评估进行 trimming 注意 duplication level 查看 unmapped.bam 文件 注释文件的选择
●
●
●
谢谢 !
–
●
生成 gtf 文件
– – –
●
生成 assemblies.txt 文件
– – –
bam 文件生成过程
E2-1-thout 文件夹包含文件
gtf 文件的生成过程
E2-1-clout 文件夹包含文件
assemblies.txt 文件的生成过程
6. 表达差异分析
●
生成注释文件
– –
$ cd ~/proj2ቤተ መጻሕፍቲ ባይዱtophat/ $ cuffmerge -s ../ref/ref2.fa assemblies.txt $ cuffdiff -o diff_out1 -b ../ref/ref2.fa -L E2-1,E2-2 -u merged_asm/merged.gtf ./E2-1-thout/accepted_hits.bam ./E2-2-thout/accepted_hits.bam $ cuffdiff -o diff_out2 -b ../ref/ref2.fa -L E2-1,E2-2 -u ../ref/ann2.gtf ./E2-1-thout/accepted_hits.bam ./E2-2thout/accepted_hits.bam
– – – –
$ cd $ mkdir proj2 $ cd proj2 $ mkdir reads fastqc ref tophat $ cd $ cp -r /home/training/tools/bowtie ./tools/ $ cp -r /home/training/tools/tophat ./tools/ $ cp -r /home/training/tools/cufflinks ./tools/ $ export PATH=$PATH:~/bin/
●
建立基因组索引
– –
●
bowtie2-build 指令更多的用法及 options ,通过以下命 令来查看
–
$ bowtie2-build
参考基因组索引建立过程
bowtie2-build 指令更多的用法及 options
5. 拼接组装
●
生成 bam 文件
– –
$ cd ~/proj2/tophat/ $ tophat2 -o E2-1-thout ../ref/ref2 ../reads/example2-1.L.fq ../reads/example2-1.R.fq $ tophat2 -o E2-2-thout ../ref/ref2 ../reads/example2-2.L.fq ../reads/example2-2.R.fq $ cd ~/proj2/tophat/ $ cufflinks -o E2-1-clout E2-1-thout/accepted_hits.bam $ cufflinks -o E2-2-clout E2-2-thout/accepted_hits.bam $ touch assemblies.txt $ echo "./E2-1-clout/transcripts.gtf" >> assemblies.txt $ echo "./E2-2-clout/transcripts.gtf" >> assemblies.txt
●
建立执行路径
– –
●
检测安装是否成功
– –
Bowtie 解压缩过程中显示的文档
在目录 ~/tools/bowtie/bowtie2-2.0.5/ 下通过输入 ll 命令显 示已被激活的 bowtie2 命令
在目录 ~/bin/ 下可以看到建立的命令执行路径
执行路径建成以后, cd 回到工作目录,输入 bowtie2 按回车能够看 到以下信息则表示安装成功