转录组分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通过基因表达差异我们可以检查出不同组样品
之间的代谢及信号通路差异,直观的了解细胞 所处的不同状态。 KEGG网址:www.kegg.jp
6
斑马鱼(注释完善的参考基因组)
• 斑马鱼免疫系统转录组的研究 • 一个免疫组,一个对照组 • 用迟钝爱德华菌低毒株免疫
RNA-seq liver transcriptome analysis reveals an activated MHC-I pathway and an inhibited MHC-II pathway at the early stage of vaccine immunization in zebrafish. BMC Genomics 2012, 13:319
• 基因表达差异
表达量计算用RPKM。 样本间每个基因的表达差异分析。
• 功能聚类分析 • UTR分析 • AS分析
有表达差异的基因,通过功能进行聚类分析
发现可能存在于基因上下游的UTR区域。 描述样本中可能存在的不同剪切形式。
• 新基因发现
找到已注释过的基因组上未标出的新转录物。
• cSNP分析 • SSR分析
12
NGS illumina Sample A Tophat A accepted_hits.bam
NGS illumina Sample B Tophat B accepted_hits.bam
转录组浏览系统
Cufflinks A transcripts.gtf Samtools A
Sample_A.mpileup
高通量测序转录组相对于表达谱芯片的优势
• 芯片主要检测已知的具体位点,适合于定制检测。 • 高通量测序能够检测整个转录组,获取的数据更加全面, 数据量更大,覆盖检测类型更广,更适合探索性的科学研 究。
14
致谢
谢谢各位同事参与 希望大家多提宝贵意见
15
右图上方是一个 发现了可变剪切 的例子。 右图下是发现了 新基因的例子。
Transcriptome Analysis of the Model Protozoan, Tetrahymena thermophila, Using Deep RNA Sequencing. PLoS ONE 7(2): e30630.
7
• • • •
可变剪切能够使同一条基因转录翻 译成多种不同的蛋白质产物。 正常可变剪切产生功能相近,作用 迥异的蛋白产物。 不同的细胞状态,往往会有不同的 可变剪切体表达。 新发现的正常剪切产物往往意味着 代谢或信号通路图上一条未知调控 途径。 非正常的可变剪切产物往往导致疾 病或者其他严重的状况。 可变剪切的4种基本类型。
KO Annotation
• KEGG Orthology 是人工确定的同 系组群,然后作 为一个个节点标 在 KEGG代谢通 路图上。 • KO主要能够帮助 我们了解基因产 物在代谢上,或 者信号通路上所 处的地位,了解 其上下游的相关 基因。 • KO对于我们研究 癌症、细胞衰老、 研发药物,都有 很重要的作用。
Alternative Splicing
• •
9
• 通过高通量测序获得的大量Reads,我们 能够通过其所覆盖的基因转录区域与数 据库中已知的基因进行比较,能够发现 覆盖到没有注释过的染色体区域。这些 没有被实验确证的mRNA的转录,就是新 基因的发现。 • 对于基因组注释较差的物种来说,有可 能发现大量的未注释过的基因。
• 原始数据过滤 确保后续的Mapping或者拼接能够得到 较好的结果,然后再统计一下Mapping或拼接的结果。 • 数据处理 有参考基因组的,将Reads map到基因组上, 无参考基因组的,拼接Reads以获得可用的转录本。
3
转录组分析工作
• 基因组整理
基因位点、功能注释等等。
动物 Ensembl 植物 PlantGDB 微生物 NCBI
10
New Gene Discovery
• cSNP(Coding Region Single Nucleotide Polymorphorism)主要 用于 1.分子标记检测 2.基因功能分析 • 检测样本中相对于参考 序列所出现的所有SNP
cSNP Analysis
四膜虫(注释不完善的基因组)
In addition:
SNP Analysis
UTR Region Analysis New Gene Discovery
SSR Analysis Fusion Gene Analysis
Differentially expressed gene cluster analysis (GO)
Differentially expressed genes metabolic pathway analysis
Cuffmerge A B merged.gff3
Genome Annotation From Ensembl
genes_protein_coding.gff3 RPKM For Genes In Sample A
AlterSplice Events Analysis
Expression Level Difference Analysis
发现样本中存在的SNP。 统计样本中存在的SSR。
4
GO Annotation
• Gene Ontology主要是收集不同数据库中的基因产物信息, 从生物过程(biological processes)细胞组分(cellular components)分子功能(molecular functions ) 大类三 进行分类注释。 • 结合表达量差异分析可以直观了解这些组之间差异意义 何在。 • GO网址:
Samtools B
Sample_B.mpileup
Cufflinks B transcripts.gtf
Linux MySql
Genome Coverage Area CoverageArea.list
Apache Perl Gbrowse html
RPKM For Genes In Sample B
Transcriptome analysis 转录组分析介绍
生物信息分析部
Data Processing
Raw Data Low Quality Reads Filtered Data
Assembly Transcript Reference Transcript