RNA-Seq项目常见问题与解答

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

RNA-Seq项目常见问题与解答

这两年随着测序成本的下降和转录组研究的日渐火热,RNA-seq俨然已经成为了分子生物学课题组推进项目的首选方向。在我们接触的转录组项目中,有些老师对项目分析结果存在或多或少不清楚或有疑惑的地方。那么春天来了,花儿开了,今天福利也到了,我们特意将转录组项目中常见的一些问题进行了汇总,各位老师可以按需自取哈。

1.如何判定生物学重复一致性的高低?生物学重复统计方法及公式

答:(1)皮尔逊相关系数r可以作为生物学重复相关性的评估指标,理想的生物学重复试验r2≧0.92。考虑到个体差异、取材环境、时间以及人员操作熟练程度等因素对测序数据的影响,一般r2≧0.8为可接受范围。

(2)Pearson(皮尔逊)相关系数:皮尔逊相关也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。

2.DEG基因用Transcripts还是Unigenes?

答:DEG基因用的是Unigene。

3.transcript-id代表什么意思?为什么有的基因有多个transcript-id?

答:基因转录本id;因为可变剪切的缘故,一个基因可能有多个转录本。

4.在miRNA鉴定中,可能成为miRNA的reads是怎样计算的?哪些条件会影响到mrd值?micro RNA在不同组织有异构体的存在,是如何处理的?

答:与 Rfam, miRbase, RepBase和 Exon\Intro 序列库进行比对,获得 sRNA 注释信息,以此作为预测新的 miRNA 的基础。

miRNA的鉴定是利用miRDeep2软件进行已知及新(保守及非保守)的miRNA鉴定。miDeep2会在reads比对到基因组上的位置两端分别延伸75、15bp进行结构预测,此软件认为极可能与可能是miRNA的根据是通过mrd值来区分的,mrd>-10为可能,mrd>0为极可能;

影响mrd值的有reads在基因组上的分布和碱基结合的自由能等;

5.对于有生物学重复的项目,怎样计算差异基因?

答:两两比对使用的是R的EBseq包, 是基于负二项分布检验的方式对reads数进行差异显著性检验,重复间的比对使用的是R的DEseq包,是基于分层贝叶斯模型的原理对组合内样品进行分析。

6.外显子,内含子及基因间区各自的比例如何评估建库情况?

答:理论上,来自成熟mRNA的reads应该比对到外显子区。但是,由于基因组注释水平、可变剪切导致的内含子序列保存,以及很多RNA(比如lncRNA)就来自基因间区和内含子,因此有比对到内含子和基因间区的reads。受物种等的影响外显子所占比例不同,一般情况下外显子区域所占比例超过70%即比较理想。

7.影响组装Contig结果的因素?

答:a.物种的特异性;b.测序质量;c.测序的数据量;d.SNP的杂合率;e.组装参数的选择。

(1)、在不考虑物种特异性和测序质量的情况下,测序的数据量越大,SNP的杂合率越高,得到的短片段Contig的数目就越多。根据Trinity组装Contig的策略,将Reads构建K-mer 库,选取频数最高的K-mer,按照k-1的overlap进行延伸,用于延伸的K-mer全部从库中清掉,因此测到的reads越多,SNP的杂合率越高,延伸完后的短片段就越多。

(2)、对于组装参数的选择,是用于过滤低频数K-mer,选择的参数不同,过滤掉的K-mer 数目不同,如果过滤掉的越多,那么留下的短片段的Contig就会少。所以即使用同一个软件(Trinity)进行组装,如果不知道组装参数的时候,对于组装结果没有很大的可比性。

(3)、组装结果的好坏最主要的还是看Unigene的组装数据,包括组装出的数目和N50。一般来说,组装出的Unigene的数目在一个合理范围内(比如10W以内),N50越大,组装的结果越好。

8.转录组测序Contig 与transcript的区别?

答:转录组测序的原始数据包含了很多的reads,通过序列的拼接,具有重叠区的reads会被组装成更大的片段,称之为contig。将reads比对回contig,通过paired-end reads 能确定来自同一转录本的不同contig 以及这些contig之间的距离,将这些contig连在一起,最后得到两端不能再延长的序列,称之为Unigene。Transcript即转录本。

9.不同ID号代表的基因相同吗?不同ID号功能注释相同的,为什么?

答:不同的ID可以认为是代表不同的基因。不同的基因注释的功能相同,原因有:一是有些长的基因没有组装出完整的序列,而是分成了多个小片段,这种情况去进行注释的话会注释到同一个功能蛋白;二是基因的核酸序列不同,但是蛋白序列具有一定的相似性或者具有相似的功能区域,这些基因在比对注释用的蛋白序列时,会注释到相同的功能。

10.多个Unigene注释一样,序列长度不同,相似性较低,为什么?

答:1)首先某一基因可能比较长,但无参考基因组装出的片段即Unigene很难组装得到全长,得到的是这个基因上的大小不等的片段,在进行比对的时候就会比对到同一个基因上,因此他们的注释信息一致;

2)从序列来看Unigene基因的序列相似度不高,但是因为比对的是蛋白,所以可能他们的蛋白相似度会比较高,因此会注释到同一基因上。

11.transcript_id、gene_id、length、effective_length、expected_count、TPM、FPKM、IsoPct这几个字段的意思?

答:一个Unigene可能对应多个转录本。Transcript id:为组装转录本编号;gene_id:Unigene 编号;length:Unigene的长度;effective_length:各个转录本的平均长度;TPM:Transcripts per million,公式为:Unigene 的reads数×10^6/总reads数;FPKM即RPKM (双端Reads数目/(比对到转录本上的片段总数*转录本长度));IsoPct:某一个转录本的表达量占相应的组装原件表达量的百分比。

相关文档
最新文档