代谢组学小常识
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
代谢组学小常识
概念:
•代谢组:指一个细胞、组织或器官中所有代谢物的集合, 包含一系列不同类型的小分子(通常分子量<1000), 比如肽、碳水化合物、脂类、核酸等。
•代谢组学:通过考察生物体系(细胞、组织或生物体)受刺激或扰动后,其代谢产物的变化或其随时间的变化,来研究生物体系的一门科学。
实验流程:(以液质联用为基础的代谢组学为例)
•样本前处理:在保证小分子代谢物完整的前提下,处理的步骤越简单越好,以保证操作容易重复,也为大批量样本的处理节约时间。
•数据采集:依据实验目的有所不同。
o非目标代谢组学:选用高分辨质谱仪(TOF,Orbitrap等),有助于检测到尽可能多的化合物,另外高分辨的质核比数据也有助于数据库检索以及化合物的鉴定。
o目标代谢组学:通常使用三重四极其杆质谱,提高检测的灵敏度以及定量的准确性。
•数据预处理:峰提取,排列,归一化。
o多数质谱商家都提供了配套的预处理软件,例如安捷伦公司的MassHunter,热电的Sieve,沃特世的MarkerLynx以及Progenisis QI。
o同时也有一些基于网络的可以免费获取的软件。建议使用配套的软件,因为不需要额外的数据转换,不需要上传数据,节省时间。
•数据分析:多元统计分析包括主成份分析(PCA),偏最小二乘判别分析(PLS-DA),正交偏最小二乘判别分析(OPLS-DA),聚类分析(HCA)等。各个厂商也提供了相应的统计分析软件,比如安捷伦的MPP,热电的Sieve,沃特世的Ezinfor。目前常用的第三方软件是Simca-p,同时也有一些网络的开源软件可以使用。
•化合物鉴定:数据库检索,标准品对比,二级质谱对比。
代谢组学文章中常见的统计图(一)
主成分分析(PCA)
PCA得分图(score plot),用来看样本天然的分组情况,在分析时不加任何分组信息。图中每一个点代表一个样本,样本在空间中所处的位置由其中所含有的代谢物的差异决定。
PCA载荷图(loading plot),用来寻找差异变量。同种的每一个点代表样本中还有的一个代谢物物,距离原点越远的代谢物被认为对样本的分类贡献越大。
偏最小二乘判别分析(PLS-DA)
得分图和载荷图的解释同PCA。区别在于,PLS-DA在分析时提前赋予每个样本分组信息,简单说,就是在分
析时扩大组间差异,减少组内差异,多用来寻找标记物。
正交偏最小二乘判别分析(OPLS-DA)
在OPLS-DA分析中,寻找标记物通常使用S-plot。如图中所示,得分图中,两组样本分布在y轴两侧,通过S-plot可以获得标记物在两组中相对含量的变化。也就是说,处在S-plot右上角的化合物(距离原点越远,对分类贡献越大)在处在得分图y轴右侧的样本中含量较高,反之亦然。
代谢组学文章中常见的统计图(二)
•图中每一行代表一个化合物,每一列代表一个样本。
•上边对样本进行聚类分析,左边对化合物进行聚类分析。
•绿色代表该化合物在样本中含量较低,红色代表含量较高(也有用其他颜色表示的)。
•通过此图,可以直观地看出化合物在样本间的变化趋势;同时也可以找出具有相同变化趋势的代谢物。•在对化合物进行鉴定之后或选择出生物标记物之后,可将化合物名称(或对应的HMDB 或者KEGG编号)输入MetaboAnalyst软件(免费)进行此分析,来观察体内哪些代谢途径受到了影响。
•在图中,p值越小(-logo(p)越大),pathway impact越大,证明该条代谢通路被严重扰动。
•此分析可用来寻找化合物之间的内在联系(数值上的联系),如图中红色表示负相关,黄色表示正相关。
•可用来筛选与某一类或者某一个自己感兴趣的化合物产生正相关或者负相关的代谢物。•用来评价算选出的标记物的诊断能力。
•AUC曲线下面积越大,诊断能力越好。
非目标代谢组学(untargeted metabolomics)中常用的方法学考察的方法
QC样本的制备:
•混合相同体积的所有待检测样本,然后按照与待测样本相同的前处理方法来处理QC样本,之后进样进行LC-MS分析。
•样本检测时,通常在检测最开始运行几次QC样本,之后根据样本量的大小在每检测几个样本之后检测一次QC样本。
方法学考察:
方法一:
最早使用的一种方法,从QC样本的总离子流图中选择具有代表性的离子峰(覆盖不同的保留时间,不同的强度),在对QC样本进行重复检测之后,计算这些离子的保留时间以及峰面积的相对标准偏差(RSD),用以考察分析方法的稳定性以及重复性。
方法二:
所有样品检测完之后,收集所有的QC样本的原始数据进行数据预处理,包括(峰提取,排列,归一化等),经过数据过滤(80%规则)之后,计算剩下的峰的峰面积的RSD值。
通常如果在一个样本中有超过70%的化合物的RSD值小于等于30%,则证明该方法有良好的稳定性以及重复性,所得到的数据可靠(也有不同的评价标准,比如要求LC-MS数据小于20%,GC-MS数据小于30%等)。
图中柱形图表示化合物在不同RSD范围内的百分比分布,折线图表示在不同RSD范围的累计百分比。
方法三:
原始数据经过数据预处理之后,将所有样本(包括QC样本)进行PCA分析,在得分图中观察QC 样本的聚集程度。
由于QC样本是等量混合了所有的被检测样本,理论上QC样本包含了所有样本中的代谢物,因此QC样本理论上会分布在原点周围。
图中QC样本紧密聚集,证明方法稳定,重复性良好。
方法四:
采用混合标准品作为QC,该QC通常包含不同物理化学性质的体内和体外代谢物(使所选择的化合物具有代表性)。
检测结束后,计算这些化合物的保留时间以及峰面积的RSD用以对分离分析方法进行评价。
代谢组学研究中需要了解的质谱知识(一)
主要介绍以液质联用为分析工具的代谢组学研究中的常见问题:
1)在分析样本时,要选用什么质谱?
2)质谱仪中通常按照质量分析器以及联用方式的不同对质谱进行分类,常见的包括包括:单四级杆,三重四级杆,飞行时间(TOF),Q-TOF,离子阱,线性离子阱(LTQ),静电场轨道阱(Orbitrap),LTQ-Orbitrap等。这么多质谱,我们应该如何选择?
在靶向代谢组学中,通常使用三重四级杆质谱。因为靶向代谢组学是针对某一些特定的化合物进行定量检测,而LC-QqQ/MS 在MRM扫描模式下对化合物进行定量分析(如药代动力学研究)已非常普遍,所以使用此方法以达到更高的灵敏度,更准确的定量。
在非靶向代谢组学研究中,需要选择高分辨质谱进行数据采集,因为高分辨质谱可以帮助我们检测到尽可能多的化合物,提供所检测化合物的精确分子量,同位素分布等信息,有助于化合物的鉴定。
何为高分辨?首先了解以下分辨率,分辨率就是指质谱仪区分两个质量相近的离子的能力。这个区分能力也有不同的定义,如10%峰谷分离,50%峰谷分离等。
理论知识就不多解释了,举个例子说明便知。
以H为例,低分辨质谱测得的H的分子量为1,而高分辨质谱测得的H分子量为1.007825(当然,能测到多精确,取决于分辨率有多高)。
有什么用呢?
有用!以C2H4,CO,N2为例,这三者在低分辨质谱中测得的分子量均为28,也就是说低分辨的质谱没有办法根据分子量将三者分离;但是高分辨质谱测得三者的分子量分别为28.0313,27.9949,28.0061,可以将三者分开。
所以在非靶向代谢组学中,由于生物样本中化合物的组成非常复杂,所以要用高分辨的质谱仪对其进行检测,以达到尽可能多的检测到化合物的目的。
常用的高分辨质质量分析器:TOF和Or比trap,以及他们与其他质量分析器的联用形式如Q-TOF,Q-Orbitrap,LTQ-Orbitrap等。
注:
可以简单的认为,分辨率越高,区分离子的能力越强,即能够区分离子在很细微的分子量上的差异。但请不要将分辨率和质量精度混淆,两者不一样。
有一个简单的类比,低分辨质谱对比高分辨质谱就类似于普通天平对比十万分之一天平,精密天平可以区分物质质量的细微差异,但是天平称出的质量准确与否,取决于天平在使用之前是否校正。
代谢组学研究中需要了解的质谱知识(二)
上一篇介绍了以下质谱的分辨率,高分辨率质谱有区分分子量细微差异的能力,但是测得的分子量准确与否,则要看质谱的质量精度了。分辨率和质量精度不一样,高分辨质谱也会有质量偏差很大的情况,那今天就来谈一谈质量精度。
什么是质量精度?质量精度指的是质谱测得值和理论值之间的误差。常以mDa或者ppm表示。
举个例子:
C6H12O6理论精确分子量为180.0634,