基于主成分分析的统计过程控制图模式识别方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

D01:10.13546/ki.tjyjc.2020.24.004
{亟论丽J
基于主成分分析的统计过程控制图模式识别方法
王海燕,卓奕君
(北京信息科技大学机电工程学院,北京100192)
摘要:通过统计过程控制图的模式识别可以判断生产状态的类型,帮助管理人员及时调整生产线以维持高质量的产品生产。

文章首先将统计过程控制图的统计特征和形状特征进行整理,通过主成分分析方法进行降维,将高维特征数据进行线性组合并向低维空间投影,减少分类器输入维数;之后利用支持向量机进行控制图的多分类模式识别;最后通过仿真数据集和实例数据集进行比较验证。

结果表明,基于主成分分析的统计过程控制图模式识别方法在分类准确率方面有显著提升,在漏报率和虚警率方面有显著降低,测试结果稳定,更适合统计过程控制图的模式识别。

关键词:模式识别;统计过程控制;控制图;主成分分析;降维
中图分类号:TB114.2文献标识码:A文章编号:1002-6487(2020)24-0020-05
0引言
作为全面质量管理中最有效的工具之一,统计过程控制(Statistical Process Control,SPC)可以通过对生产过程中的各种异常波动进行监控来提高产品质量。

随着工业的大型化、连续化和自动化发展,生产加工过程中产生的数据越来越多,对数据进行及时有效的处理和分析,能反映生产过程中的运行状态,判断动态过程运转是否正常,从而对产品的生产质量做岀判别与诊断叫
统计过程控制的概念通过1924年美国品管大师W.A. Shewhart博士发明的控制图而推广。

统计控制图在生产过程中可以提前发现异常波动的趋势,避免产生大批量不合格品。

根据美国西电公司(Western Electric)在1958年的“统计质量控制手册”中统计,控制图一共有15种模式,其中有8种是基本模式:正常控制图模式、分层控制图模式、系统控制图模式、循环控制图模式、趋势上升控制图模式、趋势下降控制图模式、阶跃上升控制图模式和阶跃下降控制图模式。

其余模式通常是基本模式的特殊形态或者几种基本控制图模式的组合叫
国内外学者关于控制图模式识别的研究主要集中在两方面,一是控制图特征的提取,二是分类器的选择。

相关研究中提取的特征主要有:(1)统计特征13'4|;(2)形状特征('叫(3)小波分解特征旷警(4)融合特征》叫相关研究中关于分类器的选择主要有:(1)支持向量机⑺回;(2)模糊聚类方法|n|;(3)神经网络0叫(4)决策W7l4,o相关学者已经证明使用统计特征、形状特征以及原始检测数据的融合特征比单一使用原始数据、单一使用统计特征或者单一使用形状特征,能够得到更高的识别质量W但两者在使用融合特征时,文献[10]仅仅融合了5个形状特征和原始检测数据,文献[11]仅仅融合了4个统计特征、5个形状特征和原始检测数据。

这样做的缺点有两个:(1)特征概括不全。

对于控制图来说存在的统计特征至少包括均值、方差、最大值、最小值、极差、中位数、峰度、偏度等14个,形状特征按照不同的划分标准至少包括27个特征,因此上述两篇文献在进行特征融合时对于控制图的特征涵盖不全;(2)原始检测数据作为融合数据与统计特征和形状特征的量级不同,而为了区分正常模式和分层模式没有进行数据标准化处理就进行融合,原理有误。

本文放弃使用控制图的原始检测数据而尽可能涵盖所有统计特征和形状特征,并利用主成分分析法对数据进行降维处理,然后选择分类器进行识别验证。

目前,相关研究主要使用支持向量机和人工神经网络作为分类器进行识别,其识别效率一般高于决策树和模糊聚类方法。

人工神经网络算法容易过拟合、收敛较慢、确定结构多依靠经验,因此本文的分类器选择支持向量机。

1基于主成分分析方法的降维
主成分分析是将数据中的多个变量转化为数量较少的几个主要变量的方法。

每个主要变量都由原始变量的线性组合而成,各个主要变量相互独立,主要变量能反映绝大部分信息,但又互不重叠。

主成分分析之后重复变量被删去,留下的新变量尽可能少,但原有大部分的信息又得以保留问,因此是一种较好的数据降维手段。

基于主成分分析方法的降维主要步骤是"':
(1)选取特征,形成特征矩阵;
(2)将特征矩阵标准化处理,消除特征间量纲和数量
基金项目:国家自然科学基金资助项目(51575055)
作者简介:王海燕(1979—),女,山东青州人,硕士,副教授,研究方向:工业工程与运筹优化。

20统计与决策2020年第24期•总第564期
「理论逐辻}
级上的差异,产生标准化矩阵;
(3)根据标准化矩阵建立协方差矩阵,反映特征之间的相关程度,值越大说明越适合做主成分分析;
(4)根据协方差矩阵求出特征值和特征向量,计算主成分贡献率以及累计方差贡献率,将累计方差贡献85%以上的成分确定为主成分。

根据主成分分析的步骤,首先需要确定进行主成分分析的所有特征。

统计过程控制图的统计特征及形状特征在相关文献资料中的总结如下
1.1统计特征
主要的统计特征包括:均值亍、方差$2与标准差S、最大值乙”、最小值x min、极差R、中位数X”咖”、离散系数(变异系数)匕、偏态系数SK、峰态系数K、平均偏差£、平均幅值X amp、均方幅值Xg、波形X*、脉冲X,。

1.2形状特征
主要的形状特征包括:
(1)建立在整个区域的最小二乘线基础上:最小二乘线斜率B、观测值方差(SD?)与代表整个模式的平均最小二乘误差平方和(MSE)的比值RVE。

(2)建立在模式与某条直线的面积基础上:模式数据与中心线形成的面积与数据标准差的比值ACLPI、每个中心线交点模式与中心线形成的面积与数据标准差的比值ACLMLC、平均间隔面积与观测值标准差的比值ALSPI海个最小二乘线交点模式与最小二乘线形成的面积与数据标准差的比值ALSLSC、ACL与ALS的比值RACLALS。

(3)在中心线与最小二乘线的交点基础上构建:MLC 与观测数量的比值PMLC、LSC与观测数量的比值PLSC、中心线交点与最小二乘线交点均值与观测数量的比值PSMLSCo
(4)建立在相邻连续点距离上:相邻两点平均距离与SD的比值RDIST、所有通过连续相邻两点直线斜率的均值AASBP0
(5)建立在通过四均分区域中心点的直线上:经过各个分块区域的中间点组合而成的斜率平均值ASL.6条直线斜率最大值与最小值的差值SRANGEo
(6)建立在四个均分区域通过两两组合形成的6个分段的最小二乘线基础上:6个分段的最小二乘线斜率的平均值ABL、6个区域最小二乘线斜率的极差BRANGE、整个区域的MSE与6个区域的MSE均值的比值REAE、整个区域观测值的方差(SD2)与6个区域的MSE均值的比值RVAE、不同组合区域的最小二乘线斜率DABL、四个区域斜率的极差DBRANGE。

(7)建立在分界点区域划分基础上:两个分段的最小二乘误差的平方和的平均值中最小值PMSE、两个分段区域的最小二乘回归线的斜率均值的绝对值AABPE、所有数据的最小二乘回归线斜率与两个分段区域的最小二乘回归线斜率的均值之差的绝对值ABDPE、所有数据最小二乘回归线的斜率与两个分段区域的最小二乘回归线的斜率之差的绝对值的综合SASDPE、两个分段区域的最小二乘回归线的斜率绝对值之和SASPE、所有数据平均最小二乘误差平方与两个分段的最小二乘误差平方和的最小平均值的比值REPEPE、SD,与PMSE的比值RV-PEPEo
2支持向量机分类
支持向量机是在19世纪90年代的统计学理论基础上发展起来的何,这种算法最初用于二类别数据的分类,基本思想是寻找一个最优分类面,在满足分类要求的同时,使训练集中的样本点和分类面的距离尽可能大爾。

设线性可分的样本集为(z),其中i=l,,特征集a,e麼,分类标签y e{+l,-1}。

存在一个超平面,其分类方程为:
w T*X+b=0
对应的判定函数为:
f(X)=w r*X+b
归一化处理后的判定函数,需要两个类别中的样本都满足|/(x)|>1,因此可以将分类问题转化为如下的最优化问题:
min飒w)=寺||w『=~w T w
s.t.y^(w T x)+b]-120,i=1,2,
定义如下的拉格朗日函数:
L(w,b,a)=y(w r w)-^a,{y,[(w7'x/)+ft]-1}
Z i=1
其中,£>0为拉格朗日函数,利用拉格朗日最优化方法,基于对偶理论将上式转化为对偶问题的求解:
max T(a)=工勺-*工勺勺”匕仗,x/
«=1厶i、j=\
s.t.a.>0,z=1,2,•••,w;工必勺=0
«=i
对上式进行求解,可以得到最优分类面的权重系数W•和分类标号其中权重系数W•的求解公式为:
W*=工/=1,2,•••,«
/=1
最终得到最优分类函数为:
/■(X)=sgn{£a;”(xf x)+b"}
i=1
以上是完全线性可分的情况。

对于线性不可分情况,需要引进松弛项©和惩罚系数C等参量,并通过选用合适的核函数,将特征空间的内积运算(xjx)转换成高维空间下的内积K(x”x)运算。

支持向量机由最初的二分类发展到多类别分类,主要方法有两种:(1)一对多(One Against Others)模式;(2)一对一模式(One Against0ne)o本文使用第二种方法。

统计与决策2020年第24期•总第564期21
3仿真验证
3.1仿真数据产生
首先利用蒙特卡罗方法仿真,模拟生产过程中实时产生的测量值S(r),假设D为设计的目标值,d(r)为生产过程中异常因素导致的数据波动,Hr)为生产过程中由于随机因素导致的数据波动,W)~N(0,1);g为统计过程控制图趋势上升或趋势下降的斜率;P为统计过程控制图阶跃模式下发生阶跃的位置,用%表示发生阶跃的具体时刻,A是0-1变量,发生阶跃前4=0,发生阶跃后A=1;s 设为统计过程控制图阶跃模式下的阶跃幅度;T为统计过程控制图周期模式下的变化周期,A为周期变化幅度;。

为稳态生产过程时的数据测量标准差。

具体公式如表1所示叫
表1各种模式的仿真公式
模式名称仿真公式
正常控制图模式S(t)=D+r(t)*o
分层控制图模式S(r)=D+r(/)忖=0.2<7~0.4<7
系统控制图模式
S(/)=£>+"/)%+沪(-1)'
d=\a~3o
循环控制图模式
S(r)=r(r)WT+/*sin(亨)
A=l.5a~2.5a,7=8,16
趋势上升控制图模式S(f)=D+rit'fa+g*i g=0.05(7-0
趋势下降控制图模式S⑴=D+r(0*kg引g=0.05<r~0
阶跃上升控制图模式S(f)=Z)+r(r)%+Fs
s=1.5°〜2.5°,阶跃位置P=9,17,25 ifi<P,k=Q,else k=1
阶跃下降控制图模式S(t)=D+r(t)*ff-k^s
$=1.5o■〜2.5”,阶跃位置P=9,17,25 ifi<P,k=Q,else k=1
在MATLAB R2016a软件环境中进行测试,通过编程实现实验数据生成、特征提取和多分类支持向量机的训练和测试,本文中程序运行的硬件环境为:CPU-2.3GHz、内存-8GB O
3.2模型评估
算法模型建立后需要进行评估,以判断算法的优劣。

对于统计控制图的模式识别来说,主要包括三类评价指标:
(1)分类准确率。

即8种类别能够正确识别的概率:
88
Accuracy=
1=1J=1
其中.P,是集合中第i种类别的数量,7P,是集合中第i种类别被正确识别为第i类的数量。

(2)漏报率。

在8种类别中,只有第1种类别是正常模式,其他7种模式的发生都代表系统发生了异常,需要停机检修,如果没有检测出异常,则为漏报。

漏报率指将异常模式判断为正常模式的概率:
AbRate=士NPnfP]
i=2/=2
其中,P,指的是第i种异常模式的样本数,NP“指集合i中异常模式i被错误识别为正常模式的数量。

(3)虚警率。

在统计过程控制中.系统处于正常状态而被错误识别为异常状态导致虚假报警的概率称为虚警率:
8
FARate=工NP'JPi
i=2
其中,4是集合中第1种模式(正常模式)的数量,NP”是将正常模式错误识别为其他异常模式的数量。

3.3仿真结果
为了方便比较,参考文献[19]中参数设置的方法,均值设置为D=80,标准差设置为。

=5,训练集合和测试集合中的样本个数都是8*100个,即总共有8种不同的控制图模式,每个分类中包含100个训练样本及100个测试样本,一共测试10次,统计6种方案的3个评价指标的均值和标准差。

方案1:文献[4]基于统计特征的分类;方案2:文献⑺基于小波处理特征的分类;方案3:文献[17]基于形状特征的分类;方案4:文献[10]基于形状与原始数据的融合特征进行分类;方案5:文献[11]基于4个统计特征、5个形状特征和原始数据的融合特征进行分类;方案6:基于本文14个统计特征和27个形状特征进行主成分分析后进行分类。

为了便于比较,分类器均使用支持向量机,其参数优化都采用网格法。

统计结果如表2所示。

表2仿真实验测试结果
方案1方案2方案3方案4方案5方案6分类均值0.73050.81560.94330.90210.94720.9660准确率标准差0.0240.0170.0180.0280.0220.009
漏报率
均值0.40990.05870.01140.01940.04500.0000
标准差0.0190.0120.0040.0230.0050.000
虚警率
均值0.15100.63900.21300.52500.28200.200
标准差0.0380.0750」260」400.1710.028在SPSS中进行分类准确度的方差分析(AN0VA),结果如表3所示:P=0,P<a(a=0.05)。

因此,在显著性水平0.05下,认为6种方案的分类准确性有显著差异。

表3分类精确度WANOVA结果
平方和df均方F显著性P 组间0.42850.086200.2610.000组内0.023540.000
总数0.45159
对6种方案进行两两对比(LSD多重比较),结果如下页表4所示。

可见,除方案3和方案5没有显著性差异外,其他方案都有显著性差异,而方案6的分类准确度显著高于其他5种方案,而且从标准差来看,方案6的分类结果稳定性高于其他5种方案。

使用同样的方法对6种方案的漏报率和虚警率进行方差分析,得到的结果类似,能够证明第6种方案的漏报率和虚警率显著低于前5种方案,并且其标准差更小,测试结果更稳定。

从上述统计分析结果可以看出,本文提取的特征并采
22统计与决策2020年第24期•总第564期
{理论探讨〕表4分类精确度LSD多重比较结果
方案均值差(I-J)标准误P值95%置信区间下限上限
2-0.08510*0.009250.000-0.1036-0.0666
3-0.21280*0.009250.000-0.2313-0」943 14-0.17160*0.009250.000-0.1901-0.1531 5-0.21670°0.009250.000-0.2352-0.1982
6-0.23550'0.009250.000-0.2540-0.2170
10.08510'0.009250.0000.06660.1036
3-0.12770'0.009250.000-0.1462-0.1092 24-0.08650*0.009250.000-0.1050-0.0680 5-0.13160'0.009250.000-0.1501-0.1131
6-0.15040°0.009250.000-0.1689-0.1319
10.21280'0.009250.0000.19430.2313
20.12770'0.009250.0000.10920.1462
340.04120*0.009250.0000.02270.0597 5-0.003900.009250.675-0.02240.0146
6-0.02270'0.009250.017-0.0412-0.0042
10.17160*0.009250.0000.15310.1901
20.08650°0.009250.0000.06800.1050
43-0.04120*0.009250.000-0.0597-0.0227 5-0.04510*0.009250.000-0.0636-0.0266
6-0.06390°0.009250.000-0.0824-0.0454
10.21670*0.009250.0000.19820.2352
20.13160*0.009250.0000.11310.1501
530.003900.009250.675-0.01460.0224
40.04510*0.009250.0000.02660.0636
6-0.01880°0.009250.047-0.0373-0.0003
10.23550*0.009250.0000.21700.2540
20.15040*0.009250.0000.13190.1689
630.02270*0.009250.0170.00420.0412
40.06390*0.009250.0000.04540.0824
50.01880'0.009250.0470.00030.0373
注:*代表差异显著。

表56种方案的实验测试结果跃上升模式,第501至600行为阶跃下降模式。

使用均匀采样方法,训练样本与测试样本比例为1:3,即每个模式中的25%作为训练样本,其余75%作为测试样本,保证不同模式的比例相同,这样共有150个训练样本和450个测试样本。

使用上述6种方案进行特征提取和支持向量机分类识别,测试10次,结果如表5所示。

从测试结果看,6种方案大部分误报率和虚警率都很低,第6种方案最低;本文采用的第6种方案分类准确率比其他5种方案更高,而且结果更稳定,因此综合效果最好。

5总结
正确识别控制图模式有助于判别生产中岀现的异常情况,方便进行及时的生产调整以保证高质量的产岀。

本文对控制图的统计特征和形状特征进行了总结,提取了14个统计特征和27个形状特征,之后使用主成分分析法进行降维,提取了对模式识别最重要的主要成分,并使用仿真数据和实例数据对本文提出的方法和其他文献中提出的5种方法进行比较。

研究结果表明,本文提出的方法能够得到更高的分类准确率、更低的漏报率和虚警率,而且测试结果更稳定;使用主成分分析方法降级了数据维度,能够有效降低运算时间。

因此,本文提出的方法可以有效提升控制图模式识别的效率,适用于一般统计过程控制图的模式识别。

参考文献:
[1]刘玉敏,周昊飞.基于多特征的PSO-MSVM动态过程质量异常模
式识别[J].计算机应用研究,2015,(3).
漏报率虚菁率
測试分类准确率
序号方案1方案2方案3方案4方案5方案6方案1方案2方案3方案4方案5方案6方案1方案2方案3方案4方案5方案6
10.6890.8820.7160.9530.9760.9690000000.000.000.080.000.000.00
20.6620.8980.8380.9730.9780.980000000.000.000.010.000.000.00
30.5530.9040.7690.9560.9760.9840000000.000.000.200.000.000.00
40.6780.940.7710.9040.9690.9760000000.000.000.160.000.000.00
50.6870.9240.8470.9490.9470.9890000000.000.000.000.000.000.00
60.6910.9310.7980.9360.9330.9960000000.000.000.160.000.000.00
70.6910.8620.8380.9560.9620.9840000000.000.000.040.000.000.00
80.6890.8980.90.9580.9640.9840000000.000.000.000.000.000.00
90.6980.840.8710.9360.9780.9890000000.000.000.000.000.000.00
100.6930.8760.8310.980.9310.9580.0130.0320.04800.0030.0130.000.000.010.000.000.00均值0.6730.8960.8180.9500.9610.9810」300.3200.4800.0000.030」30.000.00 6.660.000.000.00标准差0.0430.0310.0550.0210.0180.0110.0040.0100.0150.0000.0010.0040.000.000.080.000.000.00[2]王海燕,侯琳娜•基于随
机森林的统计控制图
模式控制图识别研究
[J].工业工程,2019,22
(5).
[3]P ham D T,Wani M A.
Feature-based Control
用主成分分析方法得到的分类结果,其分类准确率更高,漏报率和虚警率更低,并且分类结果更稳定。

Chart Pattern Recogni­
tion[J].International
Journal of Production
Research,1997,35(7).
[4]刘玉敏,刘莉•基于统计
特征的动态过程质量异常模式识别[J].统计与决策,2017,(19).
[5]Gauri S K,Chakraborty S.Recognition of Control Chart Patterns Us-
4实例验证
使用文献[19]中的实例数据进行验证。

本案例中共有数据600行*60列,即每行的监控窗口显示60个采样点,共有6种控制图模式,其中第1至100行为正常模式,第101至200行为循环模式,第201至300行为趋势上升模式,第301至400行为趋势下降模式,第401至500行为阶
ing Improved Selection of Features[J].Computers and Industrial Engi­neering,2009,56(4).
[6]G auri S K,Chakraborty S.Improved Recognition of Control Chart Pat­
terns Using Artificial Neural Networks[J].International Journal of Ad­vanced Manufacturing Technology,2008,(36).
[7]V ahid R,Ata E.Recognition of Control Chart Patterns Using an Intel­
ligent Technique[JJ.Applied Soft Computing,2013,13(5).
[8]吴少雄•智能统计工序质量控制的体系研究[J].计算机集成制造系
统计与决策2020年第24期•总第564期23
{理论探讨丿
统,2006,12(11).
[9]Vahid R,Ata E.Control Chart Pattern Recognition Using a Novel Hy­
brid Intelligent Method[J].Applied Soft Computing,2011,11(2). [10]宋李俊,赵虎.基于融合特征与支持向量机的控制图模式识别[J].
计算机应用研究,2014,(3).
[11]刘玉敏,张帅.基于多特征PCA融合的SVM质量异常识别【J].河南
大学学报(自然科学版),2014,44⑹.
[12]赵方方,何桢.基于SVM的控制图模式识别方法研究[J].组合机
床与自动化加工技术,2009,(8).
[13]W ang T Y,Chen L H.Mean Shifts Detection and Classification in
Multivariate Process:A Neural-fuzzy Approach[JJ.Joumal of Intelli­gent Manufacturing,2002,13(3).
[14]G auri S K,Chakraborty S.A Study on the Various Features for Effec­
tive Control Chart Pattern Recognition[J].International Journal of Advanced Manufacturing Technology,2007,(34).[15]朱星宇,陈勇强.SPSS多元统计分析方法及应用[M].北京:清华大
学出版社,2011.
[16]王海燕,王红军,徐小力.基于支持向量机的纳西东巴象形文字符
识别[J].云南大学学报(自然科学版),2016,38(5).
[17]Munish K,Sharma R K,Jindal M K.Efficient Feature Extraction Tech­
niques for Offline Handwritten Gurmukhi Character Recognition[J].
National Academy Science Letters,2014,37(4).
[18]A iyer B G.Prediction of Compressive Strength of Self-compacting
Concrete Using Least Square Support Vector Machine and Rele­vance Vector Machine[J].KSCE Journal of Civil Engineering,2014, 18(6).
[19]Gauri S K,Chakraborty S.Recognition of Control Chart Patterns Us­
ing Improved Selection of Features[J].Computers&Industrial Engi­neering,2009,56(4).
(责任编辑/易永生)
Pattern Recognition Method of PCA—based Statistical Process Control Chart
Wang Haiyan,ZhuoYijun
(Mechanical Electrical Engineering School,Beijing Information Science and Technology University,Beijing100192,China)
Abstract:The pattern recognition of the statistical process control chart can determine the type of production state and help managers timely adjust the production line to maintain high-quality production.Firstly,the paper sorts out the statistical features and shape features of the statistical process control chart,uses principal component analysis(PCA)for dimensionality reduction, and linearly combines the high-dimensional feature data and projects it into the low-dimensional space so as to reduce the input dimension of the classifier.Then,the paper employs support vector machine to recognize the multi-classification pattern of the con­trol chart.Finally,the simulation data set and instance data set are applied to perform comparation and verification.The results show that the pattern recognition method based on PCA has significant improvement in classification accuracy and significant re­duction in non-response rate and false alarm rate,and that the test result is stable and more suitable for pattern recognition of sta­tistical process control chart.
Key words:pattern recognition;statistical process control;control chart;principal component analysis;dimensionality re­duction
24统计与决策2020年第24期•总第564期。

相关文档
最新文档