化学计量学在中药组效关系研究中的应用进展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
化学计量学在中药组效关系研究中的应用进展
化学计量学是一门新兴的化学分支学科,被广泛应用于分析化学的各个领域。
它运用数学、统计学、计算机科学以及其他相关学科的理论和方法,优化化学量测过程,通过解析化学测量数据,最大限度地获取有关物质系统的化学信息及其他信息。
近年来,中药研究受到了人们的广泛关注。
在中药研究中,如何阐释多样的化学组分与其药效之间的关系一直是一个重点难题,严重制约了中药现代化发展。
化学计量学将多变量的分析方法引入化学研究,为中药组效关系研究提供了有效的研究工具。
该文就近年来化学计量学方法在中药组效关系研究中的应用及进展展开综述,详细介绍了回归分析、相关分析、主成分分析等多元统计分析方法以及BP神经网络、径向基网络、支持向量机等人工神经网络的应用,包括基本原理、研究内容以及优缺点,最后,简要分析了其存在的问题并对其未来的发展进行展望。
标签:化学计量学;中药组效关系;多元统计分析;人工神经网络
近年来,随着新化学实体药物发现数量逐年下降,研发投入大幅增加,中药以其丰富的资源、独特的疗效、较少的毒副作用等特点,引起了世界各国的广泛关注。
然而,中药具有的疗效是多种药效组分的综合作用结果,由于中药的化学成分十分复杂,如何阐释多样的化学成分与其药效之间的关系一直以来都是中药研究中的一个重点难题,严重影响了中药现代化发展。
为此,周立东[1]提出了在天然药物研究中建立定量组效关系(QCAR),用以解决中药复杂多样的化学成分与其生物活性之间的关系问题。
中药组效关系研究旨在通过采用现代分析手段,对中药中化学成分进行定性定量,并采用动物或细胞试验,检测中药药效活性,用以建立中药化学成分与药效之间的相互关系,其难点在于关系模型的建立。
随着仪器分析技术、药理实验技术、计算机技术等现代科学技术的迅猛发展,引入化学计量学方法,使得建立中药组效关系模型成为可能。
化学计量学是一门应用数学、统计学和计算机技术的原理和方法来处理化学数据的一门学科[2],自20世纪70年代初诞生起,在施行化学量测的各个领域的应用中得到了迅速的发展和完善。
其最大的特征就是将多变量分析方法引入化学研究[3],通过解析化学测量数据,最大限度的获取有关物质系统的化学信息及其他信息。
由此分析,化学计量学在中药组效关系的数据分析中可发挥重要作用。
目前,已有研究者将多种化学计算方法应用于中药组效关系研究。
本文就近年来化学计量学方法在中药组效关系研究中的应用展开综述,为中药组效关系研究提供参考。
1多元统计分析
多元统计分析是从经典统计学中发展起来的一个分支,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律[4],适合中药研究特点。
目前应用于研究中药组效关系的多元统计分析方法主要包括回归分析、相关分析、主成分分析、偏最小二乘分析、灰色关联度分析等。
1.1回归分析回归分析(regression analysis)是一种研究因变量(Y)和自变量(X)之间定量关系的统计分析方法,是数理统计中最常用的方法之一,其关系类型可分为线性回归分析和非线性回归分析。
目前,中药组效关系中多运用线性回归法,线性回归分析是通过确定一个或多个自变量与因变量之间的线性相关数学表达式(即线性回归方程,见公式1),以便对问题进行估计或观测,从而对它们之间的依存关系进行分析[5]。
y=β0+mi=1βi·xi(1)
式中xi是第i个自变量,βi是第i个自变量的系数,m是自变量总数,Y是因变量。
中药组效关系反映了药物内部各成分与药效之间的相关性,线性回归分析为其研究提供一条可行途径。
在中药组效关系研究中,采用线性回归分析,确定中药组分与其药效之间的定量关系回归方程,构建的数学方程的系数能在一定程度上反映该组分对药效的影响效果,系数越大,该组分对药物活性的贡献越大,由此可辨识出中药的有效组分,并且通过方程可预测不同成分组成的混合物的生物活性。
回归分析中的多元线性回归分析法(multiple linear regression analysis,MLR)以及多元线性回归分析中的逐步回归法(stepwise)和强迫引入法(enter)等方法已被运用到中药组效关系研究中,并且模型被成功应用于活性成分辨识。
Zhang Qing-ce等[6]采用多元线性回归法建立了牛黄7种溶剂提取物的UPLC指纹图谱7个共有峰峰面积与其抗菌活性之间的回归方程,通过比较方程系数辨识出3种潜在抗菌活性成分牛黄胆酸钠、胆酸、鹅去氧胆酸;尹莲等[7-8]采用强迫引入法和逐步回归法构建了加味四妙丸GC指纹图谱以及HPLC指纹图谱共有峰与其药效之间的回归模型,分别识别出多个潜在活性成分。
然而,尽管多元回归分析一定程度上模拟了中药组效关系,所得关系方程的系数一定程度上反映各成分的重要程度,但中药组效关系复杂多变,完全确定的定量关系方程可能并不存在,采用回归分析建立的模型多为线性方程,不能完全与实际模型相符。
1.2相关分析不同于回归分析对自变量与因变量之间定量关系的确定,相关分析(correlation analysis)是研究多个变量之间的相关关系密切程度的统计方法[9]。
它一般运用公式2计算相关系数(即Person相关系数)以此评价变量间的相关关系。
|r|越接近1,说明该自变量与因变量的相关程度越高,r>0时,该自变量与因变量呈正相关,r<0时,该自变量与因变量呈负相关。
由于中药组效关系的复杂性,组分和药效之间的相互关系一般是非严格的、不确定的数量依存关系,相关分析方法适合于研究组分和药效之间的相互依存关系,并可探讨其相关方向以及相关程度。
目前,在中药组效关系研究中常用的相关分析方法有双变量相关分析(bivariate correlation analysis,BCA)、典型相关分析(canonical correlation analysis,CCA)和多变量相关分析(multivariant correlation analysis,MCA)等。
黄勇等[10]采用双变量相关分析进行了灯盏细辛9种不同提取物的12个UPLC 色谱特征峰与其对脑神经细胞损伤保护作用的组效关系分析,通过计算各组分与其药效的相关系数,探讨了中药组分与药效之间的相互依存关系,并辨识出多个与活性相关的色谱峰。
孔维军等[11-12]用典型相关分析法分别研究了左金丸及类方的HPLC指纹图谱中7个特征峰与其生物热活性之间的相关性、黄连的UPLC 指纹图谱与其抗菌活性的相关性,通过相关系数的正负及大小来阐释各成分对药物活性的影响;采用多变量相关分析构建了多批次板蓝根HPLC指纹图谱与其抗菌活性之间的组效关系模型,并通过相关系数大小辨识出潜在抗菌活性成分[13]。
相关分析依据测量值研究各变量之间关系的密切程度,为中药组效关系研究提供了有效的研究方法。
但相关分析不能直接作出因果关系的解释,并且要求变量组内部及之间有很好的线性关系、变量组服从多元正态分布,以致相关系数受样本数据影响较大,这些都制约了其构建的中药组效关系模型的精确性,有待进一步优化。
1.3主成分分析主成分分析(principal component analysis,PCA)是将原来具有一定相关性的变量,通过线性组合得到能尽可能多地表征原变量的数据结构特征而不丢失信息的新变量,从而进行分析,其目的是将数据降维,以排除众多化学信息共存中相互重叠的信息[14]。
假设x1,x2,…,xP为该样品的P个自变量,z1,z2,…,zm(m≤P)为主成分变量,则
通过公式3可把自变量X=(x1,x2,…,xP)映射到新的坐标系,向量Li=(li1,li2,…,lip)是新坐标系的第i个坐标轴向量,向量Z=(z1,z2,…,zm)是主成分变量。
Li的选取满足任意zi,zj不相关,且z1方差最大,其后方差大小依次降低,各主成分的方差反映了该主成分包含原始数据的信息量占全部信息量的比重。
主成分个数M的选取,取决于方差的变化规律,可人为规定一个阀值,或是一个突跃。
主成分分析在保存大量信息的同时降低变量个数,对成分复杂的中药组效关系研究有重要意义。
中药组分数量庞大,各组分间可能存在着密切的联系,主成分分析可以消除这些信息中的冗余,大大降低工作量。
王毅等[15]采用主成分分析分别对33批川芎35个共有组分和34批当归29个共有组分的组效关系进行了研究,由此构建的模型预测误差均在5%以内,表明此方法适合多维小样本,预测精度较好;孙琴等[16]采用主成分分析研究了板蓝根正丁醇提取物指纹图谱13个共有峰相对峰面积与其红细胞凝集效应之间的关系,成功辨识出2个活性成分。
在主成分分析中,主成分变量个数的确定至关重要,理论上尽量减少主成分个数,同时应保证提取的主成分变量的累计信息量在一个较高水平,然而尽管如此,主成分分析方法仍可能会发生重要信息遗漏,对最终的分析结构产生巨大的影响,从而影响研究结果。
1.4偏最小二乘分析偏最小二乘回归(partial least squares regression,PLS)集多元回归分析、典型相关分析和主成分分析为一体,以主成分分析为数学基础,能够在自变量存在多重相关性的条件下进行回归建模,并在最终模型中包含原有
的所有自变量[17]。
基于中药组分及相互关系的复杂性,集多种方法为一体的偏最小二乘法可能更适合用于组效关系研究。
将偏最小二乘回归应用于中药组效关系研究中,其建模过程由3步构成:第1步,对自变量X(由m个组分和N批次实验构成的m×N维的矩阵)和自变量Y(由P种生物活性数据和N批次实验构成的P×N维的矩阵)分别进行主成分分析得到一对主成分T,U,提取原理与主成分分析基本一致,但在提取主成分时不仅要保证信息丢失尽可能少,还要保证T,U之间的相关性尽可能大;第2步,对X和Y提取出的主成分T,U进行回归分析,构建回归方程,并还原主成分,得到X与Y之间的回归方程;第3步,检测构建的Y-X回归方程的精度是否满足要求,若不满足,则从X和Y 剩余的信息中提取新的一对主成分,即重复上述3个步骤,直至方程精度满足要求。
偏最小二乘回归综合了多元回归分析、典型相关分析和主成分分析的基本功能,能够在样本数量少、变量之间高度相关且噪音较大的条件下进行回归建模,适用于中药复杂高维小样本的组效关系研究[18]。
Kvalheim等[19]采用PLS建立了由12种植物成分(其中7种具有抗氧化活性)配成的60种混合物与其抗氧化活性之间的组效关系模型,模型具有良好的预测能力,预测误差均在10%以内,并且根据选择比图成功识别出已知的6种抗氧化活性成分。
Chau[20]、张磊等[21]采用PLS分别建立了78批葛根HPLC指纹图谱和10批黄芪注射液的HPLC指纹图谱与其抗氧化活性之间的组效关系模型,模型预测精度良好,并且分别利用选择比图和各变量标准化回归系数的大小与符号的正负解释了各组分对药效的贡献大小。
然而,PLS只能在小区间内描述非线性现象,多用于线性相关的系统,对于复杂的中药组效关系,PLS建模可能产生较大偏差或出现不符合实际的模型。
有研究者对其进行改进,将正交投影偏最小二乘分析(orthogonal partial least squares regression,OPLS)应用于中药组效关系研究,OPLS通过对数据进行正交投影处理,除去与Y不相关的信息,从而减低PLS回归模型的复杂性,提高模型的解释能力。
蒋建兰等[22-23]采用OPLS分别建立姜黄中姜黄素类和挥发油类指纹图谱与宫颈癌HeLa细胞的抗肿瘤活性组效关系模型,模型预测精度良好,并根据变异权重系数(VIP)分别辨识出13种和9种明显活性成分。
不能否认PLS在处理样本容量小、自变量多、变量间存在严重多重相关性问题方面具有独特的优势。
但是,对于复杂的非线性系统,PLS模型容易产生较大误差,OPLS也只能够在一定程度上对其进行了改进,仍不能保证PLS完全适合中药组效关系模型。
1.5灰色关联度分析灰色关联度分析(grey relational analysis,GRA)是近年来发展起来的一种基于灰色系统理论根据关联度顺序来描述变量之间关系的紧密程度的方法。
关联度是事物之间、因素之间关联性大小的量度,如果其变化态势基本一致,则认为他们之间关联度较大,反之,关联度较小。
灰色关联度分析依据各因素数列曲线形状的接近程度做发展态势的分析,如果2个因素变化的态势是一致的,即同步变化程度较高,则可以认为两者关联较大;反之,则两者关联度较小。
灰色关联度分析原理简单,易于理解和掌握,所需数据较少,对数
据的要求较低,却适用于多因素非典型分布特征的数据[24]。
因此,近年来许多研究者将灰色关联度分析应用于中药组效关系研究中。
梁建娣等[25]采用灰关联度研究了少毛北前胡氯仿提取部位HPLC 指纹图谱与其化痰作用之间的组效关系,并根据关联度的大小来确定各成分对其化痰作用的贡献大小。
李治建等[26]采用灰关联度法研究了地锦草不同洗脱部位指纹图谱与其抗真菌活性之间的关系,确定特征峰代表的化学成分对药效贡献的大小。
灰色关联度分析简单易于使用,但是对数据敏感度较高,应当在分析前对数据进行预处理,另外该方法只能对各组分对药效的贡献大小进行排序,模型较为粗糙,可信度也相对较低。
1.6其他除以上多元统计分析常用方法外,一些其他统计方法也被应用于组效关系研究中。
王毅等[27]创新研究了一种因果发现算法,以此构建人参中9种皂苷成分与其药效之间的组效关系模型,用以辨识活性成分,结果证明此算法是有效的且预测精度良好;随后提出了逐步因果相邻关系发现算法用以解决因果发现算法鲁棒性差、泛化能力弱等缺点[28],并建立了丹参和牡丹皮混合物的组效关系模型用以对方法的适用性进行验证,结果表明模型预测精度良好,此方法有良好的适用性。
吴宏伟等[29]以丹参为范例,将最小角(LARS)回归算法应用于丹参3种成分不同配比混合物与其抗氧化活性之间的组效关系研究,预测活性结果与实验活性结果基本一致,模型较为稳定;李振坤等[30]基于LARS算法构建了川芎中3种成分配伍与其血管扩张活性之间的关系模型,用以优化其成分配比,最终获得血管扩张活性超过80%的组合。
以上方法均建立在多元统计分析理论基础之上,以此研究中药成分与药效之间的统计关系,众多研究表明这些方法对中药组效关系的研究有重大意义,从一定程度上阐释了中药组分与药效之间的关系,通过这些方法建立的模型能够预测中药药效、辨识活性成分、优化成分配伍。
但由于中药成分与药效之间的关系复杂多变,并不一定能用统计关系完全表达,多元统计分析理论基础在一定程度上制约了模型的精确性和稳定性,削弱了统计分析的泛化能力,从而限制了统计分析方法在中药组效关系研究中的应用。
2人工神经网络
人工神经网络(artificial neural network,ANN)简称神经网络,是一种模拟大脑功能的信息处理系统,它主要借鉴了人脑神经系统处理信息的过程,以数学网络拓扑结构为理论基础,由多个非常简单的处理单元按某种方式相互连接形成计算系统,具有学习、记忆、联想和计算功能。
神经网络能够有效地对模型不确定的数据进行大规模非线性自适应信息处理,自动调节不同类型的非线性响应,更加适用于复杂的非线性的数学处理。
20世纪90年代以来,神经网络理论得到迅猛发展,其应用领域也迅速扩大,特别在图像识别、语音识别、股票预测等方面展现出了很好的智能特性,并且在化学、生物技术和药学领域中的应用迅速增长[31]。
近年来,人工神经网络作为一种重要的化学计量学方法,已被广泛应用于中药组效关系研究中。
2.1BP神经网络误差反向传播(back propagation,BP)神经网络是一种按误差逆传播算法训练的多层前馈神经网络,是目前应用最广泛的神经网络模型之一[32]。
它由一个输入层,一个或多个隐含层和一个输出层构成,每一层由一定数量的神经元构成,其拓扑结构见图1。
其中X1,X2,……XN为BP神经网络输入值,Y1,……Ym为预测值,ωij和ωjk为网络权值,bij和bjk为网络阀值。
输入信号前向传递,信号输入至输入层,加以连接权值(ω)和阀值(b)后传输至隐含层;隐含层对信号进行逐层处理,进行权重加和和转换,然后传输至输出层;输出层给出神经网络的预测值。
在信号逐层传递过程中,每一层的神经元状态只影响下一层神经元状态。
如果输出层得不到期望输出,即误差大于神经网络允许的误差精度,则转入反向运算。
反向运算是把误差信号按原来的前向运算的路径反向传回,同时根据预测误差调整隐含层中各神经元的权值和阀值,从而使BP神经网络预测输出不断逼近期望输出。
网络中每个神经元都是通过激励函数完成信号的输入到输出的转换,这是一个非常强烈的非线性映射。
BP网络中常用的激励函数有Sigmoid函数f(x)=1/(1+e-x)和双曲正切函数f(x)=(ex-e-x)/(ex-e-x)。
BP神经网路可以看成一个非线性函数,网络输入值和预测值分别为该函数的自变量和因变量,当输入节点数为m,输出节点数为N时,BP神经网络就表达了从m个自变量到N个因变量的函数映射关系,能够有效的表达非线性系统模型。
并且BP模型网络结构简单,只要有足够多的隐含层和隐含层节点,可以逼近任意非线性映射关系,其算法属于全局逼近算法,具有较强的泛化能力,并且其结构由多个神经元组成,个别神经元的损坏只对输入输出关系有较小的影响,具有较好的容错性。
侯恩广等[33]以黄芩为研究对象,将BP神经网络应用于建立300批黄芩指纹图谱10个共有峰与其抑菌药效之间的组效关系模型,模型预测误差均在±10%以内,表明该方法在组效关系研究中先进可靠。
然而,BP神经网络优化基于经验风险最小化准则,这就使得模型建立过分依赖学习样本,存在过学习能力,并且只有在样本数目趋于无穷大时才能保证经验风险和期望风险概率上保持一致,不适合小样本数据。
与此同时,由于BP神经网络采用梯度修正法作为权值和阈值的学习算法,使得学习过程收敛速度慢、可能局部收敛或过拟合[34]。
为此,研究者不断尝试新的方法优化其算法,以求建立更加稳定可靠、适用范围更广的组效关系模型。
范骁辉等[35]提出一种变结构多层前馈神经网络即AS-RLS-BP神经网络,用于川芎药效活性预测计算,结果显示训练误差和预测误差比BP算法要低,运算效率比RLS-BP神经网络算法高;王毅等[36]采用全新设计的AFCGA-BP神经网络应用于当归质量评价,在训练精度和预测精度上均优于BP模型。
然而,尽管采用这些改进方法可以较好地解决一些实际问题,但仍然无法保证每次训练时BP神经网络的收敛性和全局最优性,并且模型的建立需要样本量大,试验量大。
2.2径向基神经网络径向基(radical basis function,RBF)神经网络由Broomhead和Lowe于1988年根据生物神经元具有局部响应的特点将RBF引入神经网络设计所得[37]。
它是一类以函数逼近理论为基础构造的前向神经网络,其结构与多层前馈神经网络类似,包含3层,见图2:第1层为输入层,由信号源结点组成,在RBF网络中,输入层仅仅起到传输信号的作用,与第二层之间可以看作连接权值为1的连接;第2层为
隐含层,该层的激活函数为径向基函数,该函数为对中心点径向对称且衰减的非负非线性的局部响应函数,隐含层对输入矢量进行非线性变换,将低维的模式输入数据变换到高维空间内,使得在低维空间内的线性不可分问题在高维空间内线性可分;第3层为输出层,从隐含层到输出层进行线性变换,对输入模式做出响应。
RBF神经网络中最常用的径向基函数为高斯函数,构造和训练一个RBF神经网络就是通过网络的不断学习来映射函数确定出每个隐含层神经元年基函数的中心c、宽度σ以及隐含层到输出层的权值ω的过程。
RBF网络是一种局部逼近网络,即对于输入空间的某一局部区域只存在少数的神经元用于决定网络的输出,因此其学习速度较快,并且RBF网络具有唯一最佳逼近的特性,无局部极小。
一般情况下,RBF网络学习速度较快,且函数逼近能力、模式识别与分类能力都优于BP网络[38]。
赵筱萍等[39]分别采用BP神经网络和RBF神经网络对33批川芎样品中的5种降维处理得到的共有化学成分与其血小板聚集等5个药效检测指标之间的组效关系进行了研究,BP网络模型和RBF网络模型预测精度良好,模型相关系数分别为0.963和0.976,与PCR和PLSR法所得的模型相比,BP网络模型和RBF网络模型具有更高的可行度和预测精度,同时,在训练误差和预测误差上,RBF网络明显优于BP网络。
陈超等[40-41]采用RBF神经网络分别建立了香丹注射液以及加味生化汤的药效预测模型,结果表明此模型具有很高的预测精度。
然而,RBF网络只适合用于小样本数据,当输入样本数量很大时,网络需要更多的隐含层神经元才能达到预期的训练目标,从而使得计算变得复杂,学习收敛速度迅速下降,且可能收敛到局部极小点,影响组效关系模型的训练速度及预测精度。
在中药组效关系研究中,对于成分复杂的样本,采用RBF网络前可能需要对数据进行降维处理[39],然而降维处理后的数据信息丢失同样可能影响模型的预测精度。
因此RBF网络需要进一步优化。
2.3支持向量回归机支持向量机(support vector machine,SVM)是Vapnik[42]于1995年首次提出的建立在统计学习理论的VC维(vapnik-chervonenkis dimension)理论和结构风险最小原理基础上的机器学习方法,可用于模式分类和非线性回归(即支持向量回归机,SVR)。
针对非线性回归问题,SVR的主要思想是通过引用适当的核函数将输入样本空间映射到高维特征空间,在这个新空间中构建回归估计函数,其中核函数K (X,X′)为某一非线性函数,见图3。
每一个中间节点对应一个支持向量,输出值为中间节点的线性组合。
SVR通过将样本映射到高维特种空间将非线性问题转化为线性问题。
SVR模型的建立主要包括核函数的类型选择和参数优化。
常用的核函数主要有线性核函数、多项式核函数、Gauss径向基核函数、多层感知器(sigmoid)核函数以及混合核函数等,合适的核函数能够很大程度上增大模型的泛化能力。
惩罚系数c(即模型对超出范围的样本数据的惩罚程度)以及核函数参数g等参数对SVR回归模型的学习精度和推广能力起着决定性作用,建立模型的过程一般为对c和g 2个参数进行优化的过程[43]。
与传统的神经网络相比,SVR在解决小样本、非线性及高维模式识别问题。