中药色谱指纹图谱的信息获取与分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5/45
© 2005 Chromap Co.
1 色谱指纹图谱信息的特点
但在这些纷繁芜杂的表象之下,样本特 征间的关系仍由一系列非线性的客观规律所 支配,其属于概率分布、拓扑与图论等研究 范畴。 因此借助现代谱学、数据分析及计算机 学等研究领域的理论和技术,使研究者能够 对中药有效成分所体现的客观物质规律加以 揭示并付诸应用于质量控制、药效学研究等 中药现代化的各个领域。
27/45 © 2005 Chromap Co.
举例:采用统计模型进行相似度判别的随机模拟 依据得到的各柴胡皂苷的正态分布参数建立了统计 模型进行随机模拟,对可能的相似度结果采用计算机学 中常用的穷举迭代法进行近似估算。 针对考察成分间相互关系不同的各类型样本对相关 系数的影响情况共设计了三个实验模型,对各成分的含 量使用计算得到的正态分布参数进行随机生成。 • 统计模型Ⅰ:北柴胡特征峰的近似模拟; • 统计模型Ⅱ: 假设柴胡皂苷a、d间不存在任何相关; • 统计模型Ⅲ: 在Ⅰ的基础上增加了一个与柴胡皂苷 a分布规律一致的随机色谱峰作为柴胡同属来源的 未知样本进行模拟。
1 色谱指纹图谱信息的特点
4/45
© 2005 Chromap Co.
1 色谱指纹图谱信息的特点
中药色谱指纹图谱作为狭义上的化学指纹 图谱,着眼于一类复杂物质体系-生物代谢 产物化学特征-的质量分析与控制研究,代 表着中药质量控制模式的发展趋势 。 色谱指纹图谱所表达的信息是复杂的。以 药材和饮片为例,成分特征信息受到植物基 源、生长采收、加工贮藏、分析误差等诸多 因素的综合作用和影响。
15/45
© 2005 Chromap Co.
3.1 特征指标参数的选择
3.1.2 特征指标单位的选择 a. 相对峰面积(RA)和相对保留时间(RTR) 实际上对数据进行了压缩,即保留了比例信息而丢 弃了量化信息,存在数据丢失和失真,同时也不利于数 据的谱图重现和可视化研究。 b. 特征峰的成分含量(C)或归一化含量(CN)信息和 保留时间(TR) 提供了完整的特征峰的含量信息,使得指纹图谱具 备了更好的横向可比性。在指纹图谱分析中如果将与研 究对象质量状况密切相关的成分含量和比例信息这二者 割裂开来,是不利于样本客观综合评价进行的。
6/45 © 2005 Chromap Co.
2 指纹图谱特征性成分的分布规律
7/45
© 2005 Chromap Co.
2.1 样品收集的统计学意义
以中药材为例,其作为一种自然界的生物 代谢产物,成分的积累和最终表达受到诸多因 素的影响,因此其含量经对数转换后必然符合 正态分布这种概率分布。 若成分含量的正态分布概率不存在逸出值, 则从统计学角度表明取样是成功的。这说明在 虽然采取非随机抽样,但只要严格按照指纹图 谱抽样的要求进行且样本数目足够大,则结果 同样服从正态分布规律,所建立的指纹图谱将 能够反映研究对象的真实内在质量。这对于获 得可靠的指纹图谱信息具有重要的意义。
rxy =
∑ (x
i =1
n
i
− x )( y i − y )
n 2
∑ (x
i =1
n
i
− x ) · ∑ ( yi − y ) 2
i =1
用方差和协方差的形式可简写为:
cov( x, y ) cov( x, y ) rxy = = sx s y cov( x, x) cov( y, y )
20/45 © 2005 Chromap Co.
相关系数的几何意义 在由两组变量构成的二维平面上,表征两组变量变 化趋势的相关程度。其取值范围为[-1, 1],可分为正 相关、不相关和负相关等3类情况。
图 相关系数的几何学意义
21/45 © 2005 Chromap Co.
夹角余弦(cosine coefficient,亦称相合系数)是 欧氏几何中度量两组向量之间夹角大小的角度向量之一。 在线性代数中其与向量乘法(vector multiplication) 互为逆运算。
© 2005 Chromap Co.
5 模式识别技术在指纹图谱中的应用
sim ( x , y ) =
∑xy
i =1 i
n
i
∑
i =1
n
x i2 ·∑ y i2
i =1
n
以空间向量的形式,可简写为:
rr xy sim ( x , y ) = cos( θ ) = r r x y
22/45 © 2005 Chromap Co.
夹角余弦的几何意义可从图2中直观得出,即在由n个 特征值组成的n维向量空间中,表征2组变量定义的2个 向量之间夹角的余弦值。其取值范围为[0, 1],可分为 相似和不相似(正交)等2类情况。
12/45 © 2005 Chromap Co.
图5 柴胡皂苷 a、c、d含量散点图
13/45
© 2005 Chromap Co.
3 标准指纹图谱建立的原则
14/45
© 2005 Chromap Co.
3.1 特征指标参数的选择
3.1.1 特征指标类型的选择 a.全谱相似度分析 对于色谱所携带的信息的而言,其所反映的成分性 质和含量信息是有效的,而诸如基线及色谱峰形等大量 的正态概率随机分布信号都应被视做无效的干扰信息。 b.色谱峰面积/峰高相似度分析 通过色谱峰判别和积分等处理,是将信息化繁为简 的有效提取途径。通过上述数据抽提方法有利于进一步 分析样品之间或成分之间的含量及比例变化趋势及其内 在联系。
中药色谱指纹图谱的信息 获取与分析
Info Acquisition and Analysis On TCM Chromatographic Fingerprints
CHROMAP Inc. 2005.3.5
提
• • • • • • • • • •
纲
色谱指纹图谱信息的特点 指纹图谱特征性成分的分布规律
r x
θ
r y
图 夹角余弦的几何学意义
23/45 © 2005 Chromap Co.
进一步比较2个相似度计算公式可知,夹角余弦是 相关系数当 ( x → 0, y → 0 ) 时的极限形式。因此在计算全 谱相关系数时由于平均值趋近于零,导致2种相似度计算 结果基本一致,呈现良好的线性关系的情况。正态随机 模拟计算结果见图中所示。
8/45 © 2005 Chromap Co.
p=0.002, h=1 8 6 5 6 4 4 3 2 2 1 0 0 2000 4000 s aikos aponin a 6000 0 6
p=0.826, h=0
7 8 ln s aikos aponin
9
图 河南北柴胡中柴胡皂苷a的概率分布直方图
图 全谱的相关系数与夹角余弦之间的正态相关分布(n=15000)
24/45 © 2005 Chromap Co.
然而相关系数表征的是2组变量的相关从而衡量它们 之间的密切程度,而夹角余弦考量的是2个向量的夹角从 而判断两者的相似程度。一般情况下二者之间不具有确定 的相关性,仅存在着一个概率密度的分布关系,且随着特 征变量的数目和相对丰度的不同而变化,如图所示。
26/45
图 模拟色谱图的全谱与色谱 峰面积的相关与回归
© 2005 Chromap Co.
4.2 相似度评价结果的置信度考察
目的:对所使用的相似度判别限度(阈值)可能造成的 预测风险和错误概率进行估算。 a.相关系数的显著性检验 例如当特征数目n=5时,需相关系数r≥0.878才 认为2个样本间的相关性具有统计学意义(a=0.05)。 b.拒识率和误识率的考察 拒识率:来源符合要求的样本落入所给定的置信范 围之外的概率。 误识率:伪品及不合格样本被错误判别为合格品的 概率。
28/45
© 2005 Chromap Co.
29/45
模型Ⅰ:拒识率为22% (r=0.9) ,与实际的样本相似度 评价结果相吻合,说明所建立的描述模型是成功的。 模型Ⅱ:结果出乎预料,对其误识率接近60%(r=0.9)。 其迭代曲线与模型Ⅰ较接近且在r<0.8的区间表现更好。 模型Ⅲ:相关系数明显下降,但对其误识率仍有23% (r=0.9)。
中药作为一种复杂的天然代谢产物体系,成 分之间存在着其生源关系的体现。指纹图谱的特 征峰中检测到的呈高度正/负相关的色谱峰组即 提示组间成分在生源途径及底物水平上存在的关 系。因此这些色谱峰组所提供的实际为一组互相 关联、高度冗余的信息。 掌握这些基本成分信息,对图谱特征的提取 和分析具有指导性意义,有助于对样品相似度的 变化趋势和后继模式识别深入分析。
0.99 0.98 0.95 0.90 y t i l i b a b o r P 0.75 0.50 0.25 0.10 0.05 0.02 0.01 1000 2000 3000 4000 5000 s aikos aponin a
Probability
0.99 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 0.01 6.5 7 7.5 8 ln s aikos aponin a 8.5
Βιβλιοθήκη Baidu
17/45
© 2005 Chromap Co.
3.2 特征指标的筛选
3.2.2 特征指标的预处理 视具体情况可针对特征值或样本进行预处理,对于色 谱指纹图谱而言一般推荐使用前者。 a.中心化变换 将样本空间分布的重心转换到原点,PCA中采用。 b.对数变换 将样本特征值进行对数变换,median中间接引用。 c.标准化及规范化 将各组变量转化至相同的特征值分布区间,一般着重 于样本间比例信息的研究。 d.加权和组合 调整和重组特征值对结果的影响因子。
10/45 © 2005 Chromap Co.
图 柴胡皂苷a的含量正态分布概率密度图
因此对指纹图谱的研究从理论和实践中表 明,采用标准提取物等形式作为原料药投料和 临床调剂,并通过勾兑的方法严格控制其指纹 图谱指标是完全必要及可行的。
11/45 © 2005 Chromap Co.
2.3 特征成分之间的相关性
16/45 © 2005 Chromap Co.
3.2 特征指标的筛选
3.2.1 特征指标的提取 a.人为指定样本和特征峰 无统计学意义,存在主观因素的干扰。 b.算术均数(average) 常用的样本的数字特征。 c.中位数(median) 在统计意义上是稳健(robust)的。可直接得出 真实的样本均值;通过其对指标进行排列筛选,更有利 于掌握研究对象的成分宏观的实质情况。
图 河南北柴胡中柴胡皂苷a的正态分布概率图 9/45 © 2005 Chromap Co.
2.2 特征性成分的含量规律
由获得的成分含量正态分布的函数可知一 般成分的含量分布范围均较宽。即便在固定 产地及GAP种植的前提下,这种客观现象也 难以避免。 而目前通常在制定药材及饮片的含量测定 标准时,往往以不低于个别含量偏低的样品 为依据制定其含量限度要求,这样的限定标 准无疑过于宽泛,很难对药材质量起到预期 的控制作用。
18/45 © 2005 Chromap Co.
4 常用的相似度分析
19/45
© 2005 Chromap Co.
4.1 相关系数与夹角余弦
相关系数(correlation coefficient)是多元统计学 中用来衡量两组变量之间的线性密切程度的无量纲指标, 与协方差相比其不受变量单位的影响。相关与回归有着 密不可分的关系。
图 峰面积的相关系数与夹角余弦之间的正态相关分布(n=15000)
25/45 © 2005 Chromap Co.
图 包含5个色谱峰的模拟色谱图
例如图中所示,原本所 包含的5个色谱峰的峰面积 相关系数为-0.46的2张色谱 图,其全谱相关系数却为 0.84,得出了前后相悖的结 论。由于基线和色谱峰形状 等信号的影响,后者的判断 结果是错误的。
样品收集的统计学意义 特征性成分的含量规律 特征成分之间的相关性 特征指标参数的选择 特征指标的筛选 相关系数与夹角余弦 相似度评价结果的置信度考察 主成分分析和因子分析 系统聚类分析 人工神经网络
标准指纹图谱建立的原则
常用的相似度分析
模式识别技术在指纹图谱中的应用
结语
3/45 © 2005 Chromap Co.