代谢组学小常识
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
代谢组学小常识
概念:
•代谢组:指一个细胞、组织或器官中所有代谢物的集合, 包含一系列不同类型的小分子(通常分子量<1000), 比如肽、碳水化合物、脂类、核酸等。
•代谢组学:通过考察生物体系(细胞、组织或生物体)受刺激或扰动后,其代谢产物的变化或其随时间的变化,来研究生物体系的一门科学。
实验流程:(以液质联用为基础的代谢组学为例)
•样本前处理:在保证小分子代谢物完整的前提下,处理的步骤越简单越好,以保证操作容易重复,也为大批量样本的处理节约时间。
•数据采集:依据实验目的有所不同。
o非目标代谢组学:选用高分辨质谱仪(TOF,Orbitrap等),有助于检测到尽可能多的化合物,另外高分辨的质核比数据也有助于数据库检索以及化合物的鉴定。
o目标代谢组学:通常使用三重四极其杆质谱,提高检测的灵敏度以及定量的准确性。•数据预处理:峰提取,排列,归一化。
o多数质谱商家都提供了配套的预处理软件,例如安捷伦公司的MassHunter,热电的Sieve,沃特世的MarkerLynx以及Progenisis QI。
o同时也有一些基于网络的可以免费获取的软件。建议使用配套的软件,因为不需要额外的数据转换,不需要上传数据,节省时间。
•数据分析:多元统计分析包括主成份分析(PCA),偏最小二乘判别分析(PLS-DA),正交偏最小二乘判别分析(OPLS-DA),聚类分析(HCA)等。各个厂商也提供了相应的统计分析软件,比如安捷伦的MPP,热电的Sieve,沃特世的Ezinfor。目前常用的第三方软件是Simca-p,同时也有一些网络的开源软件可以使用。
•化合物鉴定:数据库检索,标准品对比,二级质谱对比。
代谢组学文章中常见的统计图(一)
主成分分析(PCA)
PCA得分图(score plot),用来看样本天然的分组情况,在分析时不加任何分组信息。图中每一个点代表一个样本,样本在空间中所处的位置由其中所含有的代谢物的差异决定。
PCA载荷图(loading plot),用来寻找差异变量。同种的每一个点代表样本中还有的一个代谢物物,距离原点越远的代谢物被认为对样本的分类贡献越大。
偏最小二乘判别分析(PLS-DA)
得分图和载荷图的解释同PCA。区别在于,PLS-DA在分析时提前赋予每个样本分组信息,简单说,就是在分析时扩大组间差异,减少组内差异,多用来寻找标记物。
正交偏最小二乘判别分析(OPLS-DA)
在OPLS-DA分析中,寻找标记物通常使用S-plot。如图中所示,得分图中,两组样本分布在y轴两侧,通过S-plot可以获得标记物在两组中相对含量的变化。也就是说,处在S-plot 右上角的化合物(距离原点越远,对分类贡献越大)在处在得分图y轴右侧的样本中含量较高,反之亦然。
代谢组学文章中常见的统计图(二)
•图中每一行代表一个化合物,每一列代表一个样本。
•上边对样本进行聚类分析,左边对化合物进行聚类分析。
•绿色代表该化合物在样本中含量较低,红色代表含量较高(也有用其他颜色表示的)。•通过此图,可以直观地看出化合物在样本间的变化趋势;同时也可以找出具有相同变化趋势的代谢物。
•在对化合物进行鉴定之后或选择出生物标记物之后,可将化合物名称(或
对应的HMDB或者KEGG编号)输入MetaboAnalyst软件(免费)进行此分析,来观察体内哪些代谢途径受到了影响。
•在图中,p值越小(-logo(p)越大),pathway impact越大,证明该条代谢通路被严重扰动。
•此分析可用来寻找化合物之间的内在联系(数值上的联系),如图中红色表示负相关,黄色表示正相关。
•可用来筛选与某一类或者某一个自己感兴趣的化合物产生正相关或者负相关的代谢物。
•用来评价算选出的标记物的诊断能力。
•AUC曲线下面积越大,诊断能力越好。
非目标代谢组学(untargeted metabolomics)中常用的方法学考察的方法
QC样本的制备:
•混合相同体积的所有待检测样本,然后按照与待测样本相同的前处理方法来处理QC样本,之后进样进行LC-MS分析。
•样本检测时,通常在检测最开始运行几次QC样本,之后根据样本量的大小在每检测几个样本之后检测一次QC样本。
方法学考察:
方法一:
最早使用的一种方法,从QC样本的总离子流图中选择具有代表性的离子峰(覆盖不同的保留时间,不同的强度),在对QC样本进行重复检测之后,计算这些离子的保留时间以及峰面积的相对标准偏差(RSD),用以考察分析方法的稳定性以及重复性。
方法二:
所有样品检测完之后,收集所有的QC样本的原始数据进行数据预处理,包括(峰提取,排列,归一化等),经过数据过滤(80%规则)之后,计算剩下的峰的峰面积的RSD值。
通常如果在一个样本中有超过70%的化合物的RSD值小于等于30%,则证明该方法有良好的稳定性以及重复性,所得到的数据可靠(也有不同的评价标准,比如要求LC-MS数据小于20%,GC-MS数据小于30%等)。
图中柱形图表示化合物在不同RSD范围内的百分比分布,折线图表示在不同RSD范围的累计百分比。
方法三:
原始数据经过数据预处理之后,将所有样本(包括QC样本)进行PCA分析,在得分图中观察QC样本的聚集程度。
由于QC样本是等量混合了所有的被检测样本,理论上QC样本包含了所有样本中的代谢物,因此QC样本理论上会分布在原点周围。
图中QC样本紧密聚集,证明方法稳定,重复性良好。
方法四:
采用混合标准品作为QC,该QC通常包含不同物理化学性质的体内和体外代谢物(使所选择的化合物具有代表性)。
检测结束后,计算这些化合物的保留时间以及峰面积的RSD用以对分离分析方法进行评价。