单细胞测序批次效应batcheffect

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

单细胞测序批次效应batcheffect

什么是批次效应?

⼤型的单细胞测序项⽬⼀般都会产⽣许多细胞,这些样本制备过程很难保持时间⼀致、试剂⼀致,另外上机测序的时候也不⼀定在同⼀个测序仪上。

具体可以看这篇⽂章:

Batch effects are sub-groups of measurements that have qualitatively different behaviour across conditions and are unrelated to the biological or scientific variables in a study. For example, batch effects may occur if a subset of experiments was run on Monday and another set on Tuesday, if two technicians were responsible for different subsets of the experiments or if two different lots of reagents, chips or instruments were used.

简⽽⾔之,不同时间、不同操作者、不同试剂、不同仪器导致的实验误差,反映到细胞的表达量上就是批次效应,这个很难去除但可以缩⼩。如果效应⽐较⼩还可以接受,如果批次效应很严重,就可能会和真实的⽣物学差异相混淆,让结果难以捉摸。我们需要辨别到底存在多⼤程度的批次效应,对我们真实的⽣物学样本会不会产⽣影响。

校正批次效应的⽬的就是:减少batch之间的差异,尽量让多个batch的数据相⼀致,这样下游分析就可以只考虑⽣物学差异因素。

----------------------------------

单细胞测序批次效应 batch effect

批次效应,顾名思义,不同批次带来的效应。

深层次造成批次效应的原因

宏观层⾯

1)对样本处理问题,2)细胞活性问题,3)试剂kit问题,4)测序问题,等

微观本质上

1)造成了样本间mRNA的相对不稳定,2)造成细胞破裂,其mRNA流出最后污染整个样本,3)造成样本间mRNA捕获率不⼀致,4)造成测序饱和度不⼀致,或者数据质量不⼀,等

不同项⽬中,⾯临的批次效应程度各有不同,有些可以不⽤特殊处理,有些甚⾄怎么处理都不管⽤。

----------------------------------

在数据分析的时候,我们的⽬标是找到样本之间真实的⽣物学差异。但是这种真实的⽣物学因素往往会受到各种因素影响,举⼏个场景

不同样本

同⼀样本的⽣物学重复

同⼀样本的技术重复

同⼀样本在同⼀个实验室由同⼀团队在不同时间点处理

同⼀细胞系/⼩⿏在不同实验室

不同建库策略,10X平台,Drop-seq, SMART2-seq

不同测序平台,BGI/Illumina

不同分析流程(甚⾄⼀个⼯具的多个版本,如salmon,CellRanger)

这些因素之间有些是⽣物学真实的差异,有些是抽样时的随机波动。有些是系统性因素,⽐如说批次效应(batch effect)。

----------------------------------

做单细胞测序的时候,我们往往⽤到不同时期或者不同测序平台的数据,即使是同样的细胞类型,也可能完全不能聚类到⼀个类群中,如下所⽰,这两个数据是不同时期做的同⼀个细胞,⼏乎没有交集,因此,我们分析的时候需要去除批次效应。

去除批次效应之前:

去除批次效应之后:

----------------------------------

代码⽰例:

----------------------------------

14种单细胞测序去批次效应哪家强

----------------------------------

2020年5⽉11⽇,在《Nature Communications》有⼀篇名为“Deep learning enables accurate clustering with batch effect removal in single-cell RNA-seq analysis”的⽂章。⽂中介绍了⼀种深度学习算法——DESC,它是⼀种⽆监督的深度嵌⼊算法,通过迭代优化聚类⽬标函数对单细胞RNA测序的数据进⾏聚类,并且能够消除批次效应。通过全⾯的评估证明了DESC可以在群集精度和稳定性之间取得适当的平衡,并且内存占⽤空间很⼩,不需要批次信息就可以消除批次效应,同时还能利⽤GPU。随着单细胞研究规模的不断扩⼤,DESC能够成为在⽣物医学研究领域中⼀个⼗分有价值的⼯具。

当将细胞分组操作时可能会带来批次效应,⽐如不同芯⽚上的细胞、不同测序通道中的细胞或在不同时间点收集的细胞都归类于不同的组。实验操作过程中细胞所经历的不同环境可能会影响转录组的测量结果或甚⾄影响细胞⾃⾝的转录变化。所产⽣的影响存在多个层⾯:同⼀实验不同的细胞组、同⼀实验室的不同实验或不同实验室的数据集之间。在这⾥,我们把第⼀种情况与后⾯两种情况区分开。校正同⼀实验中样品或细胞之间的批次效应是bulk RNA测序批次效应的⼀种经典⽅案。我们将其与整合来⾃多个实验的数据(称为数据整合)区分开。通常批次效应校正使⽤线性⽅法,⽽⾮线性⽅法则⽤于数据整合。

----------------------------------

相关文档
最新文档