转录组分析概要

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

C SB
拼接名词解释
• N50:首先将Unigenes按长度从大到小排列,然 后从最大长度的Unigene进行长度累加,一直到累 加的总长度为所有Unigene总长度的一半,此时的 这个Unigene的长度就是N50,如果这个值比较大, 那么说明拼接得到的Unigene都比较长,比较完整 • N25,N75原理同N50
C SB
e.g. metabolism
•Cellular Component
e.g. nucleus, ribosome
GO富集分析
C SB
KEGG
• KEGG: Kyoto Encyclopedia of Genes and Genomes – Metabolism – Genetic Information Processing – Environmental Information Processing – Cellular Processes – Human Diseases – Drug Development
C SB
4.
将第3步符合non-coding条件的transcripts与Pfam蛋白功能域数据库进
行比对,将具有蛋白功能域的transcripts进行排除,最终得出LncRNA
transcripts
LncRNA靶基因预测
• Trans方法:序列结合及能量原理 • Cis方法: 基因上下游10K区域
C SB
• Ensemble基因组信息目前是最为全面的一个,使 用较为便捷,尤其在植物方面更为有优势
C SB
UCSC基因组浏览器
在线浏览查找地址:
• http://genome.ucsc.edu/
• 一个强大的工具:Table FTP下载地址
ftp://hgdownload.soe.ucsc.edu/goldenPath/
C SB
GO structure
• Hierarchical • Directed Acyclic Graph
– terms have one or more parents
• is-a and part-of relations
C SB
GO Three function type
•Molecular Function e.g. DNA binding, catalysis of a reaction •Biological Process
转录组分析
孙明明
mingming_sun@shbiochip.com
C SB
转录组分析
• 分析材料收集 • 分析流程概要 • 分析结果展示
C SB
什么是转录组
• 转录组(transcriptome)
– 广义上指某一生理条件下,细胞内所有转录产物的集 合,包括信使RNA、核糖体RNA、转运RNA及非编码 RNA; – 狭义上指所有mRNA的集合
C SB
基因组比对实现方法
第一步:应用bowtie对下载的基因组建立索引 bowtie2-build -f genome.fa genome_index
第二步:应用tophat进行基因组比对 tophat2 -I 50000 --max-segment-intron 50000 -a 10 –m 0 -g 1 –p cpu_cores -G gtf/gff文件 genome_index fastq_1 fastq_2
C SB
转录组
基因组
蛋白质组
代谢组
人 类 生 老 病 死 奥 秘
相应基因组及注释文件查找
C SB
基因组
C SB
基因组注释文件
• GTF:Gene transfer format • GFF:Gene Feature Format)
<seqname> <source> <feature> <start> <end> <score> <strand> <frame> [attributes]
C SB
分析流程
C SB
数据预处理
• • • • • 去除总体质量偏低的Reads 去除首末尾质量低的碱基,<Q20 切除Reads含有的接头序列 去除中间N碱基,标准为连续出现2个N 去除ribosome RNA reads
C SB
拼接 assembly
• • • • • CLC bio Trinity Velvet+Oases SOAPdenovo ABYSS
C SB
UCSC基因组浏览器
注释信息较为完整和稳定,不收纳那些未经过验证 过的注释,在模式生物基因组方面较为突出,目前 收录了90个物种的基因组
C SB
NCBI基因组浏览器
在线地址:
http://www.ncbi.nlm.nih.gov/genome
一个强大工具: Entrez检索系统 FTP下载地址:
C SB
KEGG 富集分析
C SB
可变剪切分析
• 可变剪切体定量 • 可变剪切类型定性
C SB
可变剪切定量分析
C SB
可变剪切类型定性分析
• 真核生物基因结构
C SB
• 可变剪切
可变剪切定性统计
C SB
基因融合分析
C SB
SNP
• SNP:single nucleotide polymorphism,单核苷酸 多态性 • Indel:insert&deletion,插入缺失变异
C SB
Other questions?
C SB
C SB
C SB
基因定量表达实现方法
• 应用基因组比对得到的BAM以及下载的GFF/GTF文件进行转 录本重构及定量 cufflink –p cpu_cores –u –b genome.fa –G GFF/GTF –o 结果输出
BAM_file或者BAM1,BAM2,BAM3
• 如果为多个样本同时定量 cuffdiff –p cpu_cores –u –b genome.fa –G GFF/GTF -L name1,name2,name3 –o 结果输出 BAM1 BAM2 BAM3
C SB
转录组分析
• 分析材料收集 • 分析流程概要 • 分析结果展示
C SB
基因组比对区间统计
C SB
基因组覆盖率统计
C SB
基因饱和度分析
C SB
测序偏向性分析
C SB
基因表达分布统计
C SB
样本相关性/重复性分析
C SB
差异基因火山图分析
C SB
组间差异韦恩图
C SB
GO? Annotation
C SB
Fastq 格式解析之Reads name
C SB
Fastq 格式解析
C SB
Fastq 格式解析
C SB
Fastq 格式解析
C SB
Raw reads 质控标准
C SB
数据展示
• 454
– Fna – Qual
C SB
转录组分析
• 分析材料收集 • 分析流程概要 • 分析结果展示
C SB
Mapping名词解释
• Mapping ratio:比对上基因组的reads占总reads的比例 • Unique mapping reads: 在基因组上只有一个位置匹配的 reads个数 • Multi mappint reads:在基因组上有多个位置匹配的reads 个数 • Pair mapping reads:成对mapping在基因组上的reads • Single mapping reads: 一对reads中只有一个mapping到基 因组 • Splicing mapping reads:位于剪切位点reads
• 随着多种生物genome的相继解码,使得annotation 的工作量和复杂度大大增加。大多数基因在不同 真核生物中拥有共同的主要生物功能,通过在某 些物种中获得的基因或者蛋白质的生物学信息, 可以用以解释其他物种中对应的基因或蛋白。 直系同源(orthology) , 旁系同源(paralogy) • Gene Ontology(简称GO)由上述的想法而诞生, 用来将所有的蛋白质功能进行分类
ftp://ftp.Baidu Nhomakorabeacbi.nlm.nih.gov/genomes/
C SB
NCBI基因组浏览器
NCBI基因组在原核生物方面变现较为突出,几乎涵 盖了所有已经公布的原核生物基因组信息,将近 3000种原核生物
C SB
其他基因组数据库
• http://www.phytozome.net/ 植物 • http://www.jgi.doe.gov/ 植物,真菌
C SB
基因定量表达结果
基因标准化公式
C SB
差异表达基因
• 采用DEG-SEQ分析包进行差异分析,采用fishertest精确检验统计学方法,FDR假阳性率修正算法 以及Fold-Change表达差异倍数进行差异基因分析 • 常规差异基因筛选标准:
– FDR< 0.05 – Fold-Change>=2
C SB
Ensemble基因组浏览器
在线浏览查找地址: • http://asia.ensembl.org/index.html • http://plants.ensembl.org/index.html • 一个强大的工具:BioMart FTP下载地址:
ftp://ftp.ensembl.org/pub/ ftp://ftp.ensemblgenomes.org/pub/plants
C SB
GFF文件格式
GTF文件格式
C SB
Ensemble基因组浏览器
在线浏览查找地址: • http://asia.ensembl.org/index.html • http://plants.ensembl.org/index.html
FTP下载地址:
ftp://ftp.ensembl.org/pub/ ftp://ftp.ensemblgenomes.org/pub/plants
C SB
SNP type
C SB
Gene fusion
C SB
SSR
• SSR-simple sequence repeat->mostly plant
– SSR标记(sequence tagged microsatellite site),即STMS, 是目前最常用的微卫星标记之一,原理就是简单序列 重复长度多态性(SSLP),因为某一特定的微卫星的 侧翼序列通常都是保守性较强的单一序列,而且重复 单元在不同物种中也是特异性的
C SB
BAM
基因组比对结果
• SAM文件:Sequence Alignment/Map Format • BAM文件:binary alignment/map format • 查看BAM文件: samtools view BAM_file | more
C SB
基因定量表达
• Cufflinks:权威RNA-seq定量工具
C SB
高通量测序技术相关知识
C SB
测序技术发展
一代测序 二代测序 三代测序
……
Sanger测序 ABI 3730
Solexa 测序
Pac Bio单分子测序 Helicos单分子测序
C SB
454 FLX测序 SOLID测序
……
Fastq 格式解析
由测序仪器得到的序列片段,称之为Reads,一堆Reads放在一起就是Fastq文件, 下面为Fastq文件解析
C SB
比对基因组
• Tophat: RNA-SEQ权威比对工具 splicing比对算法:即分段比对算法,当某条测序序 列位于转录本剪切位点时,也就是这条序列同时属 于两个外显子,如果将它与参考基因组进行比对, 它将无法找到它合适的位置;但是应用分段比对算 法就可以将这条测序序列分割变成多段子序列,然 后应用这些段子序列与基因组进行比对,这样就可 以找到它们真正的位置
1-10 2-6 3-5 4-5 5-5 6-5
C SB
LncRNA分析
1. Transcript Length >= 200bp
2.
3.
Transcript ORF < 300bp
根据已知数据库conding和non-conding区域建立的氨基酸替换模型,蛋 白编码区域氨基酸非同义替换频率低,同义替换频率高,non-conding 区域反之。将1,2步得到transcripts进行多物种比对,通过分析序列多 物种比对结果以及替换频率规则评估transcripts序列属于conding和 non-conding的可能性,使用这种可能性比值区别conding与nonconding
相关文档
最新文档