代谢组学在医药领域的应用与进展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
代谢组学在医药领域的应用与进展
一、学习指导
1.学习代谢组学的概念及内涵,掌握代谢组学的研究对象与分析方法。
2.熟悉代谢组学数据分析技术手段
3.了解代谢组学优势特点
4.了解代谢组学在医药领域的应用
5.了解代谢组学发展趋势
二、正文
基因组功能解析是后基因组时代生命科学研究的热点之一,由于基因功能的复杂性和生物系统的完整性,必然要从“整体”层面上来理解构成生物体系的各个模块功能。随着新的测量技术、高通量的分析方法、先进的信息科学和系统科学新理论的发展,加上生物学研究的深入和生物信息的大量积累,使得在系统水平上研究由分子生物学发现的组件所构成的生命体系成为可能[1]。系统生物学家们认为,将生命科学上升为“综合”科学的时机已经成熟,生命科学再次回到整合性研究的新高度,逐步由分子生物学时代进入到系统生物学时代[2]。系统生物学不同以往的实验生物学仅关注个别基因和蛋白质,它要研究所有基因、蛋白质,代谢物等组分间的所有相互关系,通过整合各组成成分的信息,以数学方法建立模型描述系统结构[3,4]。
(一)代谢组学的概念及内涵
代谢组学是继基因组学、转录组学和蛋白质组学之后,系统生物学的重要组成部分,也是目前组学领域研究的热点之一。代谢组学术语在国际上有两个英文名,即metabolomics 和metabonomics。Metabolomics是由德国的植物学家Fiehn等通过对植物代谢物研究提出来的,认为代谢组学(metabolomics)是定性和定量分析单个细胞或单一类型细胞的代谢调控和代谢流中所有低分子量代谢产物,从而监测机体或活细胞中化学变化的一门科学[5]。英国Nicholson研究小组从毒理学角度分析大鼠尿液成份时提出了代谢组学(Metabonomics)的概念,认为代谢组学是通过考察生物体系受扰动或刺激后(如某个特定基因变异或环境变化后),其代谢产物的变化或代谢产物随时间的变化来研究生物体系的代谢途径的一种技术[6]。国内的代谢组学研究小组基本用metabonomics一词来表示“代谢组学”。严格地说,代谢组学所研究的对象应该包括生物系统中所有的代谢产物。但由于实际分析手段的局限性,只对各种代谢路径底物和产物的小分子物质(MW<1Kd)进行测定和分析。
(二)代谢组学优势特点
代谢组学作为系统生物学的一个重要组成部分,代谢组可以更好地反映体系表型生物机体是一个动态的、多因素综合调控的复杂体系,在从基因到性状的生物信息传递链中,机体需通过不断调节自身复杂的代谢网络来维持系统内部以及与外界环境的正常动态平衡[7]。
DNA、RNA以及蛋白质的存在为生物过程的发生提供了物质基础,而代谢物质和代谢表型所反映的是已经发生了的生物学事件,是基因型与环境共同作用的综合结果,是生物体系生理和生化功能状态的直接体现。
代谢组学放大了基因和蛋白表达的微小变化,从而使检测更容易。细胞的功能在很大程度上体现于代谢水平的调节,比如某些相关基因的表达谱相似,但代谢物谱或代谢通量(flux)却差异明显[8];fluxome是基因组功能的终端体现,在扰动情况下,由于基因或蛋白的补偿作用,使最终代谢通量维持相对稳定以抵消干扰效应,但代谢物水平却变化显著,因此,细胞代谢物的浓度改变要比代谢通量变化敏感得多[9,10]。可见,基因和蛋白表达的细微变化都可能在相应的代谢物水平上得到放大。
代谢组学的研究不需建立全基因组测序及大量表达序列标签(EST)的数据库,且代谢物的种类要远小于基因和蛋白的数目。与核酸和蛋白质等大分子相比,小分子代谢物的数量以及空间结构的复杂性要小得多,由于给定的代谢物在每个组织中都是一样的,所以研究中采用的技术更为通用也更易被人们所接受[11]。这对于借助多种甚至是全代谢物系统分析、快速准确寻找相应的生物标记物和应用代谢组新技术进行代谢表型和功能基因组研究提供了极大的便利。
(三)代谢组学的技术平台及分析方法
由于代谢物的多样性,许多分析技术得到广泛应用。最初代谢组学的数据主要来源于核磁共振光谱学,近来代谢组学运用HPLC-ESI-MS,HPLC和LC/MS/MS结合,HPLC和LC/TOF-MS 结合,HPLC和UPLC/ TOF-MS(超高效液相色谱/时间飞行质谱)结合等方法来进行研究[12.13],MALDI-MS则能够测量出比代谢产物更小的肽和蛋白碎片。质谱作为常见的技术之一,目前发展了有飞行时间质谱仪TOF-MS、四级杆质谱仪QMS、三重四级杆质谱仪QQQ,其中四级杆质谱仪QMS最为常见,定量能力突出。一般根据样品的属性和研究目的来选择并综合利用多种技术平台(图1)。通常情况,研究植物与微生物常使用,HPLC和LC/MS/MS检测代谢物,而在动物样品的研究中则更多地采用了核磁共振(NMR)技术。质谱与核磁共振技术分析,这两种分析方法各存在优缺点,其中NMR样品处理方法简单,对化学结构无破坏,可定量。
图 1 代谢组学常见硬件技术平台
代谢组学分析产生的是信息含量丰富的多维数据,由NMR或MS得到组织和体液的谱峰复杂,仅仅依靠谱图对代谢物进行指认分析是不可能的,因此有必要充分运用化学计量学理论和多元统计分析新方法对采集的多维海量原始信息进行压缩降维和归类分析,从中有效挖掘出潜在关联的信息和对代谢分析有用信息。对数据的分析多采用化学计量学的方法[15],并建立专家系统对谱图进行解析,这种统计分析的方法类似于在基因组学、蛋自组学中所采用的数据处理模式。解决复杂体系中归类问题和标记物鉴别的主要手段是模式识别,模式识别(Partern Recognization)是通过一系列的试验测量从而建立起数据内部关联的模式来澄清一个事物、预测它的起源。
模式识别方法具有明显的优点,它不需要数学模型,需要的先验知识很少,擅长处理复杂事物和多源数据,它对所有的数据进行无歧视的分析,因此在代谢物组学研究的数据分析过程中扮演着重要的角色。无论是内源性物质,还是外源性物质的代谢产物峰,都能进行全部分析。通常包括监督和非监督两种分类方法,非监督方法不需要有关样品分类的任何背景信息,而监督分类便于由已知有效推测未知。目前在代谢组学中运用较多的包括主成分分析(PCA)、层次聚类分析(HCA)、非线性影射(NLM)等非监督分类方法,以及偏最小二乘法-判别分析(PLS-DA)、k-最近邻法(KNN)、神经网络(NN)等监督分类方法。
在模式识别的各种方法中,主成分分析法(principal components analysis,PCA)是最有用且最易使用的模式识别技术。经典PCA线性降维的基本思想是对原变量空间进行旋转变换(方差最大化)以形成新的变量矩阵和误差矩阵,即先计算原变量(n维)相关系数的协方差矩阵,再按矩阵特征根由大到小顺序确定出原变量线性组合后的新变量主成分,目标是尽量用较少(一般2或3维)的独立主成分综合体现原多维变量中蕴含的绝大部分(习惯上>85%)整体信息[15]。在代谢组学分析中,常通过PCA得分图(score plot)以获得对样品分类的信息;通过PCA载荷图(loading plot)以发现可作为生物标记物的变量。
数据输出的最终目的是将代谢组数据转化为标准化和统一的格式[16]。分析仪器直接导出的元数据(metadata),由于原始谱图的信号量大、噪音复杂、格式各样、尺度迥异、基线漂移和测试重现性等问题[ 17 ],不能直接用于模式识别分析,此前须经过原始数据的预处理,如采用多种方法[ 18,19]进行原始图谱的分段积分、滤噪、峰匹配、标准化和归一化等处理,