代谢组学数据处理方法_主成分分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
◇专论◇
中国临床药理学与治疗学
中国药理学会主办
CN 3421206/R ,ISSN 100922501
E 2mail :ccpt96@ 2010May ;15(5):481-489
2010203211收稿 2010204224修回E 2mail :ajiye333@hot
代谢组学数据处理方法———主成分分析
阿基业
中国药科大学药代动力学重点实验室&代谢组学研究室,南京210009,江苏
摘要 代谢组学在生命科学领域得到了越来越
广泛的应用并展现出良好的前景。代谢组学分析产生的含有大量变量的数据难以用常规方法进行分析,如何正确分析和解释代谢组学的数据是研究的关键。本文主要介绍了在代谢组学数据分析中占主导地位的主成分分析基本方法,旨在加强代谢组学数据分析的基础知识并规范数据分析的方法。关键词 代谢组学;主成分分析;偏最小二乘投影关联分析;偏最小二乘投影判别分析;正交偏最小二乘投影分析
中图分类号:R969.1文献标识码:A
文章编号:100922501(2010)0520481209代谢组学(metabolomics 或metabonomics )是“后基因组学”时期新兴的一门学科,“代谢组学”一词虽然常以“metabonomics ”或“metabolo 2mics ”出现,但多数学者通常并不对其加以严格区分,绝大多数情况下这两个词被认为包含了等同的意义。根据研究的内容、目的、偏重点和对代谢
组学的认识不同,代谢组学被赋予了不同的英文
名称,如代谢物分析(metabolite p rofiling )、代谢谱分析(metabolic profiling )、代谢指纹谱分析(metabolic fingerp rinting )等;根据分析的目标化合物不同,还可以分为目标化合物分析(targeting analysis )和(无设定目标的)全谱分析(non -tar 2geting analysis )。无论采用了哪种名称和说法,代谢组学的研究对象都是体内“代谢组”
(metabo 2lome ,即生物样本、系统、组织或细胞中小分子化合物的总称)。不管采用哪种测定方法,应用代谢
组学技术都可以测定到许多内源性化合物的定性/定量信息。这些信息在输出的谱图上表现为许多信号峰,在色谱质谱图上表现为不同保留时间出现色谱峰,在核磁共振谱图上表现为不同化学位移处的色谱信号。每个信号峰都既包含了检测分子的定性/结构信息,也包含了定量信息。以气相色谱-质谱检测为例,样品中的分子经过数十米长的石英毛细管色谱柱色谱分离后在色谱图上的不同时间出现,输出的总离子流图上的每个色谱峰都包含该物质定性信息(质谱图)和定量信息(峰高或峰面积),图1。对于特定化合物来说,其定性信息就是该化合物的特征谱图和色谱保留时间,是化合物鉴定的基础;其定量信息就是该化合物的色谱响应强度,如峰高、峰面积,是定量比较不同样品或组别之间差异的基础
。
中国药科大学药物代谢动力学重点实验室&代谢组学研究室副研究员,
主要从事药物代谢动力学、代谢组学、代谢性疾病发病机制、与代谢相关的药效或药物毒性的分子机制等方向的研究。
·
184·
由于每分析一个样品都出现大量(通常数百甚至数千个)色谱峰,这些色谱峰包括氨基酸、脂肪酸、脂、小分子有机酸、核苷、嘌呤化合物、氨类化合物、糖醇类化合物、神经递质,还有许多暂时无法鉴定的分子。无论是来源于气相色谱-质谱(GC/MS )、液相色谱质谱(L C/MS )、核磁共振(NMR )波谱,最终所得到的定量数据都将构成一
个如表1所示的数据集,该表第一列为样品名/观测对象(observation );第一行为色谱峰/化合物(即检测变量,variables )或特定保留时间(MS 数
据)或特定化学位移(NMR 数据),对应之处为色谱定量数据。这样每个样品的特征就由同一行中
的众多定量数据所决定,而各个样品之间或者各组样品之间差异的程度取决于上述定量数据。然而,由于数据量非常大,采样常规统计分析方法既难以发现样品之间或各组之间的异同,也难以发现样品中的哪些变量(分子)造成上述差异。因此代谢组学数据需要特殊方法加以分析。通常情况下,可以采用主成分分析(也称模式识别)、聚类分析、神经元网络分析等方法进行分析,其中应用最为广泛的是主成分分析方法[1]。由于主成分分析方法比较抽象,并不为许多代谢组学研究者所熟悉,本文希望用最简洁、易懂的语言介绍主成分分析的原理和常规分析方法
。
图1 G C/T OFMS 测定血浆和血清的总离子流图
A :plasma ;
B :serum.The compounds were identified as :1,Pyruvate ;2,Alanine ;3,Hydroxy -acetate ;4,Lactate ;5,3-Hydroxy 2butyrate ;6,Valine ;7,Urea ;8,Isoleucine ,Proline ;9,G lycine ;10,Serine ;11,Threonine ;12,Pyroglutamate ;13,Creatinine ;14,Phenylalanine ;15,G lutamine ;16,glutamate ;17,Citrate ;18,G lucose ;19,Uric acid ;20,Linoleic acid ;21,Oleic acid ;22,Trypto 2phan ,stearate ;23,gamma -Tocopherol ;24,Cholesterol.
1 主成分分析的原理
下面就以表1数据为基础介绍主成分分析方法的原理。假如该组数据中样品数为n ,检测到的色谱峰/或变量数为m 。那么,这个原始数据表的几何含义就代表了在一个m 维空间中分布着n 个点,每个样品的位置由其对应的一组变量(矢量)所确定。因代谢组学可以检测许多色谱峰/变
量,m 数目通常很大,由此原始数据产生的数学模型无法直观地发现样品或组别之间差异,这时
就可以考虑用投影的方法对上述(多维空间)模型进行降维处理以化繁为简。主成分分析是一种基于投影技术的数据分析方法[2]。在模型计算时首先利用最小二乘法原理找到一条直线使所有样品距离该直线的残差平方和最小,而投影在此数轴方向的矢量平方和最大,那么该直线方向也就体
·
284·Chin J Clin Pharmacol Ther 2010May ;15(5)