软测量建模

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

软测量建模综述
摘要:软测量技术已经成为工业生产中实现监测、控制不可缺少的步骤。

本综述介绍软测量的定义以及几种软测量建模方法。

着重介绍两类目前成为研究热点的基于数据的软测量建模——基于人工神经网络和支持向量机的软测量建模,介绍各自的原理、分类,并对它们的优缺点进行分析,通过引用文献的方式介绍几种改进方法。

关键词:软测量,建模,神经网络,支持向量机
引言
在过程控制中,若要使生产装置处于最佳运行工况、实现卡边控制、多产高价值产品,从而提高装置的经济效益,就必须要对产品质量或与产品质量密切相关的重要过程变量进行严格控制[1]。

由于工业生产中装置是不断运行的,生产产品的浓度、质量等指标是动态变化的,利用一些在线传感器,不仅成本较高,并且由于一定的滞后性,导致最后不能精确监测生产过程中的一些指标,难以满足生产需求。

除此之外,许多复杂的化工过程中往往不能使用传感器来对某一变量进行直接测量。

例如化工生产过程中,精馏塔产品组成成分,塔板效率,干点、闪点等;一些反应器中不断变化的产品浓度,转化率以及催化剂活性等等[1]。

这就使得软测量技术被提出并不断发展起来。

1 软测量
所谓软测量技术,就是将不可测变量(称为主导变量)进行间接测量,通过建立与之相关系的其他变量(辅助变量)之间的数学关系模型,进行在线的估计。

这类方法响应迅速,实时性好,可靠性高。

它可以很好的解决变量不可测量的问题,也为对生产过程的监测控制节省了大量成本。

软测量的应用范围很广,它最原始和最主要的应用都是有关对过程变量的预测,而这些变量可以通过低频率采样或者离线分析确定。

同时,这些变量经常涉及到过程输出的品质,对于过程的分析和控制显得尤为重要。

由于这些原因,如何在高采样频率或者低成本的情况下利用适当的软测量建模方法来获得过程变量的信息是非常重要的。

目前软测量建模也发展出多种方法,各自都有其优缺点,选择适当的软测量建模方法,对工业生产具有很大意义。

1.2 软测量建模方法
现在一般的软测量建模方法可以分为大的三类,即:机理建模,基于数据的软测量建模和混合建模。

1.2.1 机理建模
机理模型也即模型驱动模型(Model-driven models,MDM),主要是用于设计和规划工业生产中的过程装置[2]。

它是建立在对于过程的工艺机理有深刻认识的基础上,运用一些化学、物理方程式来表示,例如能量、物料平衡,相平衡方程以及反应动力学等等。

然后再通过对建模对象的机理分析,确定主导变量和辅助变量之间的关系式。

由于辅助变量容易测得,因此通过它们之间的关系式可以间接测量出主导变量。

但是机理建模有很大的缺点,它对工艺过程的机理要求很高,对于过程很复杂,机理尚未完全清楚的情况下就无法准确建立机理模型。

另外,过程也往往是动态的,工业
生产中的仪器设备也会随着时间发生变化(如老化,摩擦等),从而使得建立的模型不精确。

1.2.2 基于数据的软测量建模(Data-based soft sensor )
数据驱动建模法是针对对象内部结构与机理不清楚或不了解的情况提出的[3],通过测量所得的工业数据,利用某种方法对主导变量和辅助变量构建恰当的数学关系,实现对主导变量的间接测量。

相比与机理建模,数据驱动的软测量建模则能更好描述过程内部实际的情况,因为它所用的数据是从过程本身得到的,因此可以描述实际的工艺过程。

用在数据驱动软测量建模的方法主要有一下几个[2]:主元分析法(Principle Component Analysis PCA ),线性回归,部分最小二乘法(Partial Least Square PLS ),人工神经网络(ANN ),神经模糊系统(Neuro-Fuzzy Systems )和支持向量机(SVM )。

此次综述则主要介绍基于神经网络和基于支持向量机的两种建模方法。

1.2.3 混合建模
混合建模结合了之前两种方法的优点,以弥补之前两种建模方法的不足。

目前,混合建模方法也是众多学者的研究热点。

混合建模是通过在一定已知的机理基础上,利用数据驱动建模来确定实际过程中的内部参数,或者同时采用两种建模方法进行软测量建模。

对于存在简化机理模型的过程,可以将简化机理模型与基于数据的模型结合一起,互为补充。

前者的先验知识,可以为后者节省训练样本;同时后者又可以补偿前者的未建模特性[4]。

1.3 系统建模及其一般方法与步骤
软测量技术其实质就是将所需测量的变量(往往很难测得或者成本很高),通过先测得其他与之相关的变量,并建立它们之间的联系,从而计算推断出所需测的变量。

软测量的步骤一般包括以下四部分的内容:辅助变量的选择,数据处理,数据归一化和模型的建立。

如之前所述,其他容易测得的变量称为辅助变量,它们的选取没有统一标准,选择过少则容易缺失信息,选择过多则会造成模型求解过于复杂。

目前常用的方法是主元分析法(PCA ),它以一种数学统计分析方法,选择最少数目的辅助变量,并且包含建模所需的大部分信息[5]。

选取完辅助变量之后,要进行样本数据采集,并经过误差处理,最后再进行归一化处理。

得到的最终数据才可用于模型的建立。

软测量系统实现的基本框架如图所示。

图1 软测量系统框架
2 人工神经网络网络
2.1 人工神经网络概念及其发展
人工神经网络(Artificial Neural Network ,简称ANN )是理论化的人脑神经网络的数学模型,是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。

它是由大量简单元件相互联结而成的复杂网络,具有高度的非线性,能够进行复杂的逻辑操作和非线性关系实现的系统。

80年代中期
以来,在美国、日本等一些西方工业发达国家里,掀起了一股竞相研究、开发神经网络的热潮。

它已经发展成为一个新兴的交叉学科,对它的研究涉及生物、电子、计算机、数学和物理等学科。

近十年来人工神经网络的发展表明,这是一项有着广泛的应用前景的新型学科,它的发展对目前和未来的科学技术水平的提高将有重要的影响。

在四十年代初,由MaCulloch和Pitts发表的一篇文章中提出了二值神经元模型,人工神经网络就从这里开始发展起来。

然后是在1949年,心理学家Hebb提出了链接权值强化的Hebb法则,给神经网络学习制定了规则。

Rosenblatt在1958年提出一种实际感知器模型。

接着是Uttley在1960年,Widrow和Hoff提出一种自适应线性神经元网络模型。

人工神经网络从形成到现在,曾在70年代进入低谷时期,到80年代开始复兴,然后开始发展。

经过许多学者的不懈努力,多种功能强大的非线性多层网络模型被提了出来。

如今,人工神经网络已经被应用到许多工业领域,如信息领域,控制领域,医学领域等等。

2.2 几种不同神经网络的结构
2.2.1 BP神经网络结构
BP神经网络是目前应用最为广泛的一种网络结构。

它是一种多层前馈神经网络,由一个输入层、一个输出层和若干隐含层组成。

如图2所示,层与层之间多采用全连接方式,位于同一层的神经元之间不允许有连接,各层的神经元只能向高层的神经元输出激活信号。

该网络在输入层接收信号,经隐含层逐层处理,直到输出层,由输出层向外界输出信息处理结果,从而完成一次学习的正向传播处理过程。

当实际输出与期望输出不符时,则转入反向传播,从输出层向隐含层、输入层逐层反传,按预测误差梯度下降的方式修正各层权值和阈值。

信息正向传播和误差反向传播反复迭代,从而使BP神经网络预测输出不断逼近期望输出。

图2 三层BP神经网络结构图
2.2.2 RBF神经网络结构
RBF神经网络即径向基函数神经网络(Radical Basis Function)。

径向基函数神经网络是一种高效的前馈式神经网络,它具有其他前向网络所不具有的最佳逼近性能和全局最优特性,并且结构简单,训练速度快。

同时,它也是一种可以广泛应用于模式识别、非线性函数逼近等领域的神经网络模型。

径向基函数神经网络,其结构与BP 网络相似,由3层组成,隐层神经元的激励函数选取高斯函数:)2||||ex p()(2
i i i c p p R σ-= 与BP 网络不同,隐层神经元中的基函数用以实现从输入向量到Ri(R)的非线性映射,其中p 为R 维输入向量,i c 为高斯函数中心,i σ为该函数围绕中心点的宽度。

||||
i c p -为输入模式与中心
向量之间的距离,如图3所示。

空间1 :非线性 空间2:线性
X1 X2
图3 RBF 结构图示 RBF 只是把输入映射到另一个空间,类似于时域与频域这两者之间的映射关系一样。

从而原先的几个输入,如果目标是分类的话,可能因分布杂乱而无法达到,但映射到另一空间后,就能达到分类的目的。

RBF 的隐层,即输入层映射过去的那一层,这跟BP 网络的隐层是不同的。

另外,神经网络模型还有例如Hopfiled 网络,FLAT 网络等,都有各自的特点和优势。

2.3 人工神经网络建模原理
神经网络虽然分许多不同的结构模型,但其基本原理是一致的。

首先根据实际的工业生产情况建立合适的结构模型,例如使用主元分析法确定网络的输入个数,另外需通过试凑法等来确定隐含层的层数和节点数。

选择适当的激励函数之后,根据现有的工业数据进行网络的训练。

神经网络会根据自身的优化算法(如梯度下降法)来不断调整权值阈值,使得模型输出与实际值之间的误差达到最小。

当达到训练终止条件之后,模型就建立了。

2.4 人工神经网络建模特点
1)非线性映照能力:已经有文献证明神经网络能以任意精度逼近任何非线性连续函数。

而建模过程中的许多问题正是具有高度的非线性。

2)自学习和自适应能力:神经网络在训练时,能从输入、输出的数据中提取出规律性的知识,记忆于网络的权值中,并具有一定泛化能力,即将这组权值应用于一般情形的的时候能在一定精度范围内预测,当然对于这部分也是有待改进,下文会进行介绍。

3)数据融合的能力:神经网络可以同时处理定量信息和定性信息,因此它可以利用传统的工程技术(数值运算)和人工智能技术(符号处理)。

4)多变量系统:神经网络的输入和输出变量的数目是任意的,对单变量系统与多变量系统提供了一种通用的描述方式,不必考虑各子系统间的解耦问题。

2.5 人工神经网络网络的过拟合问题
涉及有关对于人工神经网络的内容时,不得不提及神经网络的过拟合问题。

所谓过拟合,简单来说,就是使用一些样本数据来拟合(无论是用来分类还是拟合一条直线),所得到结果往往能很好的拟合已知的样本数据,但当用测试数据来检验时,会发生误差较大的情况,就产生了过拟合现象[6]。

过拟合问题是指建立的模型能够以一定精度拟合所有的样本数据点,但是模型和实际建模对象存在较大偏差,即所建的模型并不能很好地描述建模对象的变化规律[7]。

在用神经网络来建立模型的过程中,建模对象本身就决定了输入和输出层所需的节点个数,输入层的节点个数和辅助变量相等,输出层的节点个数和主导变量相等,而中间的隐层节点数需根据实际情况来适当确定。

神经网络建模过程实质上是各个层节点参数的确定,而实际中,由于建模对象的复杂性,网络中隐层节点个数会增加,使所需确定的参数个数的增加,这样往往会使得模型中参数的个数要大于样本数据,从而容易发生过拟合现象。

近年来,神经网络出现的过拟合现象已经引起学者们的注意,如覃光华等学者就对BP网络建模中的过拟合问题进行研究和讨论[8]。

过拟合现象的出现使得所建立的模型与对象本身存在较大偏差,模型不能描述建模对象的变化规律,使模型的泛化性能下降,这会导致非常严重的后果。

2.6 解决过拟合的方法
目前对于神经网络过拟合问题也有大量学者进行了研究。

对于过拟合情况,一种常采用的简单方法是减少权值的数值,使之与其他权值之间不要相差过大,否则会由于某个输入所占比重过大,导致模型的推广能力下降。

可以在优化目标(即偏差平方和)上施加关于权值的惩罚项来实现。

有文献提出对于训练数据小的情况下,如何利用小数量数据来进行“扩展”,给输入输出数据加适当的小噪声,构建新的数据,从而解决由于训练数据小于权值阈值数而造成的过拟合问题[9]。

还有文献则在神经网络训练过程中引入专家知识,对违反专家知识的情况施加惩罚来提高模型的泛化性能[3]。

3 支持向量机
支持向量机(Support Vector Machine,SVM)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。

支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(即泛化能力)。

3.1 统计学理论
统计学习理论是一种专门研究小样本情况下机器学习规律的基本理论和数学构架是对小样本数据进行统计估计和预测学习的最佳理论[11]。

机器学习是让计算机通过对样本的输入输出之间找到某种线性或者非线性的关系,使之能对未
知的输出作尽可能准确的预测,其本质就是一种对问题真实模型的逼近。

在支持向量机中引入了风险的概念,即我们通过机器学习建立的模型和实际模型之间的误差,从严格意义上讲,误差的累积即为风险。

风险分为经验风险和置信风险。

之前的机器学习是以经验风险最小化原则 (ERM, Empirical Risk Minimization )进行的,使得训练样本的误差尽可能的小,例如人工神经网络就是基于这样的原则。

而如前文所述,这样的方法很有可能产生过拟合现象,导致最后建立的模型的泛化性能很差。

因此,统计学习引入了泛化误差界的概念,即真实风险应该由两部分内容组成,一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了对于未知数据正确分类的信任程度。

泛化误差界的公式定义为:
)/()()(h n w R w R emp Φ+≤ (1)
其中,)(w R 表示真实风险(结构风险),)(w R emp 和)/(h n Φ分别表示经验风险和置信风险。

n 表示输入空间的样本数。

h 表示VC 维(pnik-Chervonenkis Dimension ),是统计学习理论中定义的最重要的学习性能指标,反映了函数集的学习能力,可以简单的理解为问题的复杂程度,VC 维越高,一个问题就越复杂[12]。

从定义公式中可以看出,统计学习的目标从之前的经验风险最小化变成经验风险与置信风险的和最小化,遵从结构风险最小化原则(SRM, Structural Risk Minimization )。

3.2 支持向量机原理 支持向量机一开始是用于线性可分问题的。

各处文献大多都以二维线性可分问题为例讨论其分类原理。

如下图所示,目标是找到一条直线(如果维数为3维则是一个平面,维数大于3维则是超平面),将其两类点分开。

如图4所示,图中的H ,H1和H2均是这样的直线。

图4 最优超平面示意图
每一个点(样本)用向量i x 表示,用i y 表示样本的类别,在这里i y 的值为1或-1,即为分类标记。

这条直线(以下都称线性函数)以b wx x g +=)(来表示。

取阈值为0,将每个点i x 带入可得)(x g ,如果0)(>x g ,则认为它属于第一类,反之则属于第二类。

而如果等于0,则说明这个点恰好落在
分类面上。

可以看出这样的直线(超平面)不止一个。

用),(i i i y x D =来表示一个样本点和其类别的组合。

定义样本点到其中一个超平面的距离(间隔)为
)(b wx y i i i +=δ (2)
如果0>+b wx i ,根据之前所述,i y 的值也大于0。

反之,如果0<+b wx i ,i y 也小于0。

因此,样本点到超平面的距离可以表示为
|)(||)(|i i i i x g b wx y =+=δ (3)
将w 和b 进行归一化,即以||||w w 和||
||w b 代替原w 和b 值,得到归一化之后的间隔表达式如下: |)(|||
||1i i x g w =δ (4) 将其称作几何间隔。

图3中所示的H 是分类面,H 与H1和H 与H2之间的距离就为几何间隔。

SVM 的目标是寻求一个使得训练数据集中的不同类向量(即样本点)之间的距离最大的超平面,样本点离这最优超平面的距离最大[13]。

离此超平面最近的点“支撑”起这个最大间隔,这是支持向量机名称的由来。

之所以寻求距离最大是因为下式:
2)2(δR
mc ≤ (5)
其中mc 表示误分次数,R 表示所有样本中向量长度(范数)最长的值。

从式中可以看出,要使误分次数尽可能少,则几何间隔应该尽可能大。

而从几何间隔的表达式看出,求几何间隔的最大值即求||w||最小值。

因此,问题的目标转化为求解||w ||的最小值,即min 2||||2
1w 。

约束条件是样本点必须满足在分类面的一侧。

把所有样本点中离分类面最近的点到分类面的距离定为1,则所有样本点的几何间隔应满足:
1)(≥+b wx y i i (6)
最后,两类分类问题可以转化为以下求解最优值问题:
2||||2
1min w (7) 01)(..≥-+b wx y t s i i
其中i=1,2,...,l (l 为训练样本总数)。

进一步,当空间中的样本确定时,最优的超平面其实已经
确定,可以理解为w 由样本点决定。

因此,w 可以描述为样本的某个组合:
n n x x x w ααα+++=...2211 (8)
其中α为拉格朗日乘子。

但是除了样本点的位置,样本点的类别也能影响w 的取值,因此更为一般的,
n n n x y x y x y w ααα+++=...222111 (9)
这样w 可以表示成如下形式:∑==n
i i
i i x y w 1)(α,从而原先的)(x g 可以表示为 b
x x y b x w x g n i i i i +>=<+>=<∑=,)(,)(1α (10)
其中< >表示内积。

经过上述代换,从求w 值变换为求α值。

根据一定的优化算法求解出α值,参数b 则由KKT (Karush-Kuhn-Tucker )条件解出,即i T i x w y b -=
对于线性不可分的情况,SVM 引入了核函数的概念。

核函数的本质是一种低维到高维的映射,使得在低维不可分的情况,映射到高维之后变成线性可分。

但目前没有系统的找到合适的核函数的方法。

几种最常用常用的核函数主要有以下三类:多项式核函数(POL Y )、径向基核函数(RBF )、Sigmoid 核函数、傅里叶核函数等。

在实际运用中会根据不同实际情况选择合适的核函数。

有文献提出新的寻找合适核函数的方法,例如文献[14]提出一种混合核函数法和适度衰减核函数。

文献[15]讨论了不同情况下选择不同核函数的结果,表明应结合具体情况选择合适的核函数及相应的参数。

为了使分类间隔最大(此时w 最小),得到一个广义最优分类面。

此时很可能由于过大的分类间隔,使得部分样本点错分,因此引入一个惩罚项,这样使得错分的样本点不会不可分,得到的优化目标更改为下式:
)(||||21min 1
2∑=+i i i C w ζ (11) 其中i ζ称为松弛变量,值为非负。

C>0,为一常数,控制对错分样本的惩罚程度。

对于没有离群的样本(即无错分),松弛变量为0。

松弛变量的大小反应了错分样本点离群体的距离大小,越大对应的距离就越远。

3.3 支持向量机的优化算法
为了解决之前分析的最优值问题,找到合适的拉格朗日乘子,许多学者研究提出了各种优化算法。

例如较早的二次规划方法,包括内点法,wolfe 算法,拉格朗日鞍点法等;早起的分块,分解算法;还有最近提出的SVMlight 算法,SMO 算法,LS-SVM [12]等等。

3.4 支持向量机的特点
支持向量机可以应用在线性或者非线性分类中,同时也能推广到解决函数回归问题。

相比基于神经网络的软测量,支持向量机是基于结构风险最小化,因此不会发生神经网络过拟合的现象,有
较强的泛化能力。

此外,算法最终会转化为一个凸优化问题,保证最终收敛到全局最优,这也是优于神经网络的一面。

支持向量机应用核函数,可以通过非线性映射到高维,解决输入空间中的非线性问题,并且相比传统方法,支持向量机有严格的理论和数学基础。

文献[16]将支持向量机和神经网络用在实际建模时的结果进行对比来分析支持向量机的优点。

由于这些优势,支持向量机越来越成为研究热点,并在一些实际应用中达到了良好效果。

4 总结
本综述介绍了软测量技术的几种方法,简单介绍它们的区别以及软测量建模过程。

重点对两种基于数据驱动的软测量方法进行介绍,这两种方法也是目前的研究热点。

通过详细对其原理进行介绍,分析了各自的特点。

根据不同的工艺特点和对象,要使用不同的软测量建模方法。

目前将机理和基于数据驱动的软测量结合的混合建模是研究热点,特别是结合神经网络或者支持向量机,可以将复杂的生产过程简单化。

对于基于数据驱动的软测量建模方法,完全可以不用了解复杂生产过程内部蕴含的物理或者化学机理,只需要根据输入输出数据建立模型。

而基于神经网络和基于支持向量机建模的最大区别在于,前者是基于经验风险最小化,也即目标是使得训练误差尽可能小,但对于测试数据的预测能力就不能保证了,模型对于已知数据的分类能力很强大,却不能保证泛化能力。

为此,许多学者对支持向量机的发展前景非常看好,它是基于结构风险最小化,即经验风险与置信程度之和。

支持向量机的目的就是在经验风险和置信程度之间权衡,找到一个最优的值。

根据之前的原理分析,如果要使支持向量机学习能力提高,则它的VC维h的值越大,也即构造的函数集越复杂。

因此,通过在不同VC维下将经验风险最小化,最后每个VC维情况下找出两者之和最小的情况。

这样即使模型的对于训练的拟合能力与神经网络模型相比可能稍有欠缺,但大大增强了泛化能力。

许多文献针对这两种软测量建模中的缺陷进行改进,例如神经网络会产生过拟合现象,常规BP 算法容易陷入局部最优的问题,支持向量机核函数的选择、优化方法的选择等等。

总之,如何建立一个泛化性能良好,鲁棒性强且易实现的模型是关键。

References
[1]俞金寿.软测量技术及其应用[J].自动化仪表,2008,29(1):1-7
[2]Kadlec, P., Gabrys, B., & Strandt, S. Data-driven soft sensor in the process industry[J]. Computers and Chemical
Engineering, 2009, 33(4): 795-814
[3]曹鹏飞,罗雄麟.化工过程软测量建模方法研究进展[J].化工学报,2013,64(3):788-800
[4]梁杰.基于数据的软测量建模方法研究及应用[D].杭州:杭州电子科技大学,2009
[5]马顺龙.基于神经网络和EAEA优化算法的软测量建模研究[D].上海:华东理工大学,2013
[6]W. Sha. Comment on the issues of statistical modelling with particular reference to the use of artificial neural networks[J].
Applied Catalysis A, 2007, 324: 87-89
[7]Hawkins D M. The problem of overfitting[J]. Journal of chemical information and computer. 2004, 44(1): 1-12。

相关文档
最新文档