转录组RNAseq术语解释

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

RNA-Seq名词解释

1.index

测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。

2.碱基质量值

(Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。碱基质量值越高

表明碱基识别越可靠,碱基测错的可能性越小。

3.Q30

碱基质量值为Q30代表碱基的精确度在99.9%。

4.FPKM(Fragments Per Kilobase of transcript per Million fragments mapped)

每1百万个map上的reads中map到外显子的每1K个碱基上的fragment个数。计算公式为

公式中,cDNA Fragments 表示比对到某一转录本上的片段数目,即双端Reads数目;Mapped Reads(Millions)表示Mapped Reads总数,

以10为单位;Transcript Length(kb):转录本长度,以kb个碱基为单位。

5.FC(Fold Change)

即差异表达倍数。

6.FDR(False Discovery Rate)

即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝

的原假设个数的比例的期望值。通过控制FDR来决定P值的阈值。

7.P值(P-value)

即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P<0.05

为显著,P<0.01为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。

8.可变剪接(Alternative splicing)

有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接,alternative splicing)。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致真核生物基因和蛋白质数量较大差异的重要原因。在生物体内,主要存在7种可变剪接类型:A)Exon skipping;B)Intron retention;C) Alternative 5' splice site;D) Alternative 3' splice site;E) Alternative first exon;F) Alternativelast exon;G) Mutually exclusive exon。

9.外显子跳跃(Exon skipping)

外显子在前体mRNA剪接形成成熟mRNA过程中被跳过,最终没有出现在某些成熟mRNA上,这种剪接机制被称为外显子跳跃。

10. 内含子保留(Intron retention)

前体mRNA在剪接形成成熟mRNA的过程中,部分内含子被保留下来,这种剪接机制被称为内含子保留。

11. 5'或3'端可变剪接

前体mRNA在剪接形成成熟mRNA的过程中,5'端或3'端边界发生不同方式的剪接,这种剪接机制被称为5'或3'端可变剪接。

12.基因结构优化

由于使用的软件或数据本身的局限性,导致所选参考基因组的注释往往不够精确,需要对原有注释的基因结构进行修正,这一过程称为基因结构优化。

13. 基因间区(intergenic)

指基因与基因之间的间隔序列,不属于基因结构,不直接决定氨基酸,可能通过转录后调控影响性状的区域。

14. UTR:(UntranslateRegions)

非翻译区域。是信使RNA(mRNA)分子两端的非编码片段。5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG 起始密码子,3'-UTR从编码区末端的终止密码子延伸至多聚 A 尾巴(Poly-A)的前端。

15. ORF(open reading frame)

开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。

16. CDS(Coding sequence)

是编码一段蛋白产物的序列,是结构基因组学术语。DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质,所谓CDS就是与蛋白质序列一一对应的DNA序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑mRNA加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。

17. 插入片段大小(insert size)

通过检测双端序列在基因组上的起止位置,可以得到插入片段的实际长度,决定了测序的长度,是信息分析的重要参数。

18. 分子标记

是遗传标记的一种,直接在DNA分子上检测遗传变异。分子标记能对不同发育时期的个体、组织器官甚至细胞作检测,数量极多,遍及整个基因组,多态性高,遗传稳定,不受环境及基因表达与否的影响。目前常见分子标记主要有SNP、InDel、SSR 等。

19. SNP(Single Nucleotide Polymorphism)

即单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP 所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。

20. SSR(Simple Sequence Repeat,SSR)

即简单重复序列,又叫微卫星序列,指的是基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA,广泛分布于基因组的不同位置,长度一般在200bp以下。

21. 转换(transition)

同类型(嘌呤和嘌呤,或嘧啶和嘧啶)碱基之间的相互替换称为转换。

22. 颠换(transversion)

不同类型(嘌呤和嘧啶)碱基之间的相互替换称为颠换。

23. RNA编辑(RNA editing)

是指在mRNA水平上改变遗传信息的过程。具体来说,指基因转录产生的mRNA分子中,由于核苷酸的缺失,插入或置换,基因转录物的序列不与编码序列互补,使翻译生成的蛋白质的氨基酸组成,不同于基因序列中的编码信息现象。

24. 差异表达转录本(DifferentiallyExpressed Transcript,DET)

指表达水平存在显著差异的转录本。

25. 差异表达基因(Differentially Expressed Gene,DEG)

指在两个不同条件(如对照与处理、野生型和突变型、不同时间点、不同组织等)下,表达水平存在显著差异的基因,称之为差异表达基因。

26. 生物学重复(Biological Replicates)

可以定义为使用来自不同抽提的RNA样本进行杂交,例如,同一来源独立制备的样本,或者不同来源的样本(不同组织或者一个细胞系的不同培养物)。

相关文档
最新文档