TQ Analyst

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
标准样品光谱采集标准样品光谱采集重视背景光谱对定量结果的影响设计和收集标准样品设计和收集标准样品对组成相对简单的分析对象如西药气体等可以根据含量分布情况设计标准样品集避免共线性即各组分含量不可存在相关性分布均匀analytelevel38避免过拟合overfitting现象过拟合标准曲线交叉验证示意图39定量模型的评估评估产生异常数据的原因并对其合理处理最后以校正相关系数r校正均方差rmsec交叉验证相关系数r交叉验证均方差rmsecv预测均方差rmsep为指标评价模型质量注意如果含量范围很宽如跨过不同数量及应注意在不同含量范围的偏差对nir分析经验规律是
22
PLS 主因子数计算自光谱信息和含量数据
23
NIR光谱分析中的PCR和PLS
通常,PLS和PCR比SMLR更为稳健,大多数情况下PLS是 首选 NIR光谱信息复杂,PLS力图从复杂的光谱信息中提取感兴 趣的相关信息 避免变量间的内部共线性(SMLR的潜在问题) 需要避免“过拟合( over-fitting )”,例如,使用太多的主因 子数往往会出现该现象
服务科学,世界领先
TQ Analyst 红外定量分析
刘 全 Applications Specialist quan.liu@
定量分析理论基础
2
比尔定律
A = a · b · c
• a - absorption coefficient吸光系数 • b - pathlength光程 • c - concentration浓度
X
Y
Y’
X’
X
9000
8000 7000 6000 Wavenumbers (cm-1)
5000
“特征向量2”
以30张光谱的2个波长点的简单对象为例. 两个相互正交的特征向量组成了一个椭圆的空间 两个主成分描述数据信息 更多的波长增加了空间的复杂性 数据间的共线性现象带来大量的冗余信息,允许通过相对较少的主成分数或 因子数对复杂体系进行描述
Aν=(K1C1+K2C2+K3C3+…+KnCn)ν
′ ′ ⎧ sij = s ji = ∑ cki ckj = ∑ (cki − ci )(ckj − c j ) ⎪ k k ⎨ ′ ⎪ s jy = ∑ cki A′j = ∑ (cki − ci )( Ak − A) k k ⎩
通过对以上方程采用最小二乘法 求解,可以解决光谱重叠问题.
16
基于因子分析的建模方法(Factor-based Modeling)
PLS – 偏最小二乘 PCR – 主成分回归
• 与SMLR一样,均采用反向最 小二乘算法 • 与SMLR采用有限的数据点不 同,PLS和PCR运用因子分析 ,对光谱信息进行了压缩 • 主因子通过主成分分析(PCA) 计算得到
13
逐步多元线性回归 (SMLR)
逐步多元线性回归(SMLR)属于反向最小二乘(IIS)回归方法 (也称为”P矩阵”) 基于对比尔定律的反向表达: C = PA 与CLS不同,SMLR不需要所有所有组分的含量值 对所利用的吸光度点数有限制 这就是SMLR为何使用单点或离散点(或一段光谱范围内吸光度平 均值)的原因
7
经典最小二乘回归 (CLS)
经典最小二乘回归
• 多元线性回归算法
经典(Classical)
反向(Inverse)
8
经典最小二乘回归 (CLS)
在比尔定律中,因变量只有一个“ 峰面积”或 特定波长处的“峰高”( 吸光度) 比尔定律方程 A = KC 可被扩充 至包含光谱中多个波长处的吸光 度,K - K矩阵
∑ (ci − c )( Ai − A)
(ci − c ) 2 ∑
c = (A – b ) / a
6
简单比尔定律(一元线性回归)
非常简单的线性回归模型 Very simple model using simple linear regression of absorbance versus concentration. 只需最少的标准样品(standards) Uses a minimum number of standards. 不适用于存在谱峰重叠的情况下 Can not be used with significantly overlapped peaks. 要求含量与吸光度间呈线性关系 Linear behavior between concentration and absorbance is required. 通常不适用于NIR定量分析 Not very effective in NIR quantitative analysis because band overlap is generally present.
A = a · b · c
a - absorption coefficient吸光系数 b - pathlength光程 c - concentration浓度
通常 A=a · C + b
• 一元线性回归
两点确定一条直线
• 需至少两个标准样品(Standard)
5
简单比尔定律(一元线性回归)
通常,采用更多standards绘制标准曲线 Ai = a · Ci + b i = 1, 2, 3, 4, 5, ……
19
PCR 和 PLS 模型
PCR和PLS通过PCA对原始光谱数据进行压缩(降维,特征提取), 然后通过ILS(反向最小二乘算法)创建线性多元回归模型 PCR and PLS use a PCA step to reduce the data into factors then use an ILS step to create a linear combination of variables which generate calibration parameters. PCR仅利用光谱信息计算主成分 PCR uses only the spectral information to determine the factors. PLS同时利用光谱数据和浓度信息计算主因子 PLS uses both the spectral and concentration information to determine the factors. 因此,PLS在避免引入不相关因素方面风险更小 Due to this fact, PLS runs less risk of correlating to irrelevant information.
17
主成分(Principal Component, PC)或因子(Factor)
0.80 0.70 Log(1/R) 0.60 0.50 0.40 0.30 0.20 10000
X
Y
Y’
Y
“共线性”
X’Байду номын сангаас
“特征向量1”
9000
8000 7000 6000 Wavenumbers (cm-1)
5000
或 A = KC 最小二乘回归得原理是,根据观测值找出最佳的a, b的估值,使观 测值与预测值达到最佳接近的程度。a的值可以通过最小二乘法得 到,即选取a使观测值与预测值间的残差平方和达到最小
Calibration Model
1 ⎧ ci Ai − (∑ ci )(∑ Ai ) ∑ ⎪ n = ⎪a = 1 ⎨ ∑ ci2 − n (∑ ci )2 ⎪ ⎪b = A − ac ⎩
SMLR的Other窗口
15
SMLR的特点
对简单样品体系往往可以得到较比尔定律或CLS更好的效果 Good for quantifying fairly simple systems but does better than Simple Beer’s law or CLS. SMLR可用于无法获知所有组分含量的情况下 Can be used when all “components” can not be accounted for by standard concentrations. 许多情况下是一种相对简单且稳健的方法 A fairly simple and robust method for many problems. SMLR不增加多余变量,但正因为此,不能处理异常样品 SMLR does not add unnecessary variables, but it can’t handle unusual samples because of this same fact. 只有在变量只受待测组分含量变化而变化的情况下才能采用 It only works well when variation is due exclusively to the component of interest. 标准样品数量较少时,是一种较好的方法(例如,用于可行性研究) Good for instances with a limited calibration set (i.e. feasibility studies)
• 一元线性回归
经典最小二乘(CLS)
• 多元线性回归
逐步多元线形回归(SMLR)
• 反向回归
主成分回归(PCR)
• 基于主成分分析PCA的回归
偏最小二乘回归(PLS)
• 基于PLS的回归
除比尔定律外,其它几种方法均为 多元校正方法(Multivariate Calibration)
4
简单比尔定律(一元线性回归)
吸光系数 – 通常可认为是常数,但应注意分子间的相互作用. 光程 – 定量分析时非常重要且复杂的因数,特别是固体样品的定 量分析. 如果光谱采集时光程不可知或无法保证其恒定,建模 (Calibrate)时必须加以考虑. 含量 – 事先需确定合适的含量范围.
3
定量分析方法
简单比尔定律(Simple Beer’s Law)
14
逐步多元线性回归 (SMLR)
用户不需要选择每个数据点,只 需给出光谱范围 逐步算法按组分逐个选择被使用 的最佳的数据点(TQ提供设置数据 点个数的选项) Summation of responses compensates for matrix (chemical) effects. 可以通过选择第二个光谱范围作 为分母对无关的物理因素作出补 偿 当建模时所使用的光谱点数太多 时,存在“过拟合(over-fitting)”的 风险
9
经典最小二乘回归 (CLS)
CLS要求必须对光谱中的所有变化因素都能够作出解释,不能处理未 知的干扰和相互作用 最少标准样品数量 = 组分数 + 1 通常不用于NIR,但对该方法的理解有助于理解基于因子分析的建模 方法
10
反向最小二乘回归(Inverse Least Square, ILS)
“经典”校正假设误差主要来自于响应来拟合模型,而“反向”校正 假设所有误差主要来自于含量测定来拟合模型 基于对比尔定律的反向表达: C = PA 要求标准样品数量大于自变量即所使用的光谱点数
⎡ s11 ⎢ ⎢ s 21 S=⎢ Λ ⎢ ⎢ s m1 ⎣
s12 s 22 Λ sm2
Λ Λ Λ Λ
⎡ s1 y ⎤ s1m ⎤ ⎢ ⎥ s ⎥ s2m ⎥ Y = ⎢ 2 y ⎥ ⎢ Μ⎥ ⎥ Λ ⎢ ⎥ ⎥ ⎢ s my ⎥ s mm ⎥ ⎦ ⎣ ⎦
⎧K= S-1Y ⎪ ⎨ ⎪k0 = A − (k1c1 + L + km cm ) ⎩
X
以5张光谱的2个波长点的简单对象为例. 第一个特征向量是最重要的,最大程度上描述了数据的变化 该简单对象通过第一个特征向量得到了完全描述. 可从该特征向量中计算出主成分或因子.
18
主成分(Principal Component, PC)或因子(Factor)
“特征向量1”
Y
0.80 0.70 Log(1/R) 0.60 0.50 0.40 0.30 0.20 10000
A = KC “K矩阵”
11
C = PA “P矩阵”
ILS 与 CLS
12
逐步多元线性回归 (SMLR)
逐步多元线性回归
• 逐步回归是从多元线性回归的m个自变量中 挑选出对y的变化起重要作用的那些因子来 组成偏回归方程,为此我们需要对回归方程 中的每个自变量对每个因变量作用大小进行 比较。 • 逐步回归的基本思想是,在计算的每一步中 ,都要对回归方程中当时所含的自变量x逐 个进行检验,看其对y的作用是否显著,一 旦发现不显著的x时予以剔除。只有在回归 方程中所含全部x对y的作用都显著时,才考 虑在未选入回归方程的那些x中挑选出对y作 用最大者,检验其显著性。若显著,则引入 回归方程,否则计算即行停止。这样所得回 归方程全部包含了并且仅包含对y作用显著 的那些x。
20
PCR 和 PLS
Spectrum Principal Components PLS Factors
Concentrations
Statistical Model or Calibration Method
Result 1
Result 2
Result 3
21
Result 4
Result 5
PCR主成分数仅计算自光谱数据
相关文档
最新文档