芯片和高通量测序数据分析简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Clean data
匹配到基因组或转录组
bowtie, blast, BWA
其他分析 IGV,UCSC上显示 Motif: MEME, RSAT
Annotated data
转录本
可视化的数据
如Motif分析
功能聚类分析
GO KEGG
计算表达量,差异表达
Cufflinks, Cuffdiff, edgeR
序列数据格式
FastQ 的Q值与碱基识别正确率的关系
FastQC 软件检测 高通量测序数据的质量
序列数据格式
Fasta
>1-3000 GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAA 第一行:以>开头,序列的名称。可以用来存储一些信息,如丰度等。 第二行:序列,如果不能确定的序列用N表示
和FPKM几乎一样,在pair-end测序中结果可能稍微有差别。
两个需要注意的地方
基因组的“+”和“-”链:跟生物学的正负链不太一样,以参考基因组 序列为准,与之相同的为“+”,与之反向互补的为“-”。一般“+”在 浏览器中箭头从左到右,“-”为从右到左。
+链
-链
0-Base和1-Base: 由于对参考序列第一碱基位置理解不同,有的数据认为 0,有的认为为1,所以序列会差一个碱基。UCSC浏览器用的是1-base, 而其他很多数据格式用的是0-base,所以差一个碱基。
Read: 测到一条序列即为一个read,一般用多少个read来衡量测序深度。
Map: 将测到的序列比对到参考基因组或者转录组的过程,有时也叫
Align/Alignment Annotation: 注释,根据已知基因组各个区域对应的基因情况,将序 列mapping到的位置与基因一一对应起来。
RPM: Reads Per million,指每百万条map到基因组的序列中有多少条
RMP FPKM
序列数据格式
FastQ
@HWUSI-EAS100R:6:73:941:1973#0/1 GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAAC +HWUSI-EAS100R:6:73:941:1973#0/1 !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>
目的序列。( miRNA丰度通常用此表示)
RPKM: Reads Per Kilobase of exon model per Million mapped reads,
RPM的值再除以基因的长度(kb),考虑了基因长度对reads的影响。
FPKM: Fragments per kilobase of exon per million fragments mapped,
芯片和高通量测序数据分析简介
如何入门
分析高通量数据需要哪些知识: 1、掌握一门编程语言(perl ,python,C/C++) 2、掌握基本的linux系统的命令 3、掌握一些统计分析工具(R语言) 4、熟悉常见的数据格式和一些数据库
快速入门技巧: 临摹:学习时找到一篇领域经典的文章,文章要有详细的protocol, 跟着文章的protocol得到跟文章相似的结果。
常用数据格式(SAM)
@PG ID:Bowtie VN:0.12.7 CL:"bowtie --best --strata -m 10 -v 2 --sam /mnt/hgfs/D/index/hg19 Hdox_rm3linker Hdox.sam" HWI-ST1269:1490 16 chr11 3793010 255 39M * 0 0 GCGAAGCCTGAATTAGTGGTGGAGGAGCT GGGIIGJJJIJJJJJJJJJJJJJJJJJJII XA:i:2 MD:Z:2A27A8 NM:i:2
SAM是一种序列比对格式标准,由sanger制定,是以TAB为分割符 的文本格式。
head 行,以@开头,可以来存一些体现了比对的一些总体信息。 此后每一行为一个条序列。 第一列: read name,read的名字通常包括测序平台等信息 第二列:为flag的总和(整数)。 第三列:比对到参考序列上的染色体号。若是无法比对,则是* 第四列:比对到参考序列第一个碱基所在的位置。若是无法比对,则是0 第五列:比对的质量分数,越高说明该read比对的位置越唯一。 第六列:CIGAR值,碱基匹配上的碱基数。match/mismatch,insertion,deletion
ID 序列 Read名称 测序质量
第一行:以@开头,reads的ID以及其他信息,测序仪产生的信息等
第二行:序列,如果不能确定的序列用N表示
第三行:以+符号开头,read的名称等信息,一般与第一行相同,可以省 略,但+符号不能省略。
第四行:测序质量,用ASCII码表示,数字在0-40之间,数值越大质量越 高。质量与序列错误率的关系如下:
Raw data
质控
FastQC, fastx-toolkit
数据库:refgene, ensemble,gencoe百度文库 软件:bedtools,自写脚本
序列注释
Clean data
Aligned data
转录本组装
Cufflinks,trinity
去接头序列
FastQC, fastx-toolkit
实践:拥有一定基础后立马参与一个project,以从解决问题为目 的去学习相关知识和软件。
多尝试,使用软件需要调试不同参数,多接触不同类型的数据, 多访问不同的数据库。
一些基本概念
测序深度:测序深度是指测序得到的总碱基数与待测基因组大小的
比值,比如10X。但通常测序深度也直接用来表示测序产生数量量的 大小,用数据量(如10G),以及read数(如5千万条read)来表示。
UCSC的Tables使用的是0-based; UCSC的Genome Browser使用的是1-based; NCBI的dbSNP使用的是0-based; BED、BAM格式使用的是0-based; SAM、Wiggle 格式使用的1-based; VCF、GFF格式使用的是1-based。
高通量测序数据分析流程