用DEA优化偏最小二乘回归建模及应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第45卷第9期2011年9月
浙 江 大 学 学 报(工学版)
Jo urnal of Zhejiang U niv ersity (Engineer ing Science)
Vol.45No.9Sep.2011
收稿日期:2010-06-02.
浙江大学学报(工学版)网址:w w w.jou /eng
基金项目:中国博士后科研基金资助项目(20080431380).
作者简介:张小海(1981-),男,博士生,从事船舶寿命周期费用分析.E -mail:hailang12080@
通信联系人:金家善,男,教授.E -mail:qiezioba@yah
DO I:10.3785/j.issn.1008-973X.2011.09.028
用DEA 优化偏最小二乘回归建模及应用
张小海,金家善,耿俊豹
(海军工程大学船舶与动力学院,湖北武汉430033)
摘 要:偏最小二乘回归(P LSR)统计建模方法本质上是对数据平均趋势的估算,无法避免 依据错误的数据得到错误的模型 的根本问题.为此,提出用数据包络分析(D EA )优化偏最小二乘回归的建模方法,用DEA 方法对数据进行评价,剔除无效数据,将有效的数据用来偏最小二乘回归建模.该方法能有效克服干扰数据对提取成分的影响,弥补偏最小二乘方法的不足.通过实例计算并与PL SR 、主成分回归(P CR )比较分析表明:DEA 优化偏最小二乘回归建模平均绝对误差为2.66%,低于P LSR 的4.07%和PCR 的4.45%.关键词:偏最小二乘回归;数据包络分析;多重相关性
中图分类号:O 29 T B 11 文献标志码:A 文章编号:1008-973X(2011)09-1688-05
Optimized partial least squares regression
with data envelopment analysis and its application
ZHA NG Xiao -hai,JIN Jia -shan,GENG Jun -bao
(College of S hip s and Po wer ,N av al Univers ity of Engineering ,W uhan 430033,China)
Abstract:The par tial least squares reg ression (PLSR)statistical mo deling appro ach estimates the av erag e trend of the data essentially,w hich cannot avoid the pr oblem that obtain the w rong model accor ding to the error data.Aim at this problem ,the optim ized PLSR w ith data envelopment analy sis (DEA)w as propo sed to overco me this problem,w hich co uld evaluate the efficiency of the data and remo ve the inefficiency data
for the PLSR mo deling.T he new approach can o ver com e the effect of the disturbed data w hen filtering principal com po nents in the independent paring w ith the principal component reg ressio n (PCR)and the PLSR w ith computing exam ple,the av erag e abso lute error of the optim ized the PLSR w ith DEA w as 2.66%,w hich w as much low er than PLSR w ith 4.07%and the PCR w ith 4.45%.Key words:PLSR;DEA;mult-i co rrelation 在工程和经济技术应用领域,多元回归分析是常用的建模方法.用多元回归分析建模时,最小二乘法是常用的参数估计法,但在样本数小于自变量个数或者自变量参数之间多重相关的情况下,最小二乘估计容易失效.为此,通过主成分变换、并以主成分为自变量进行主成分回归(pr incipal com po nents regr ession,PCR)的方法[1]有效改善了最小二乘估计法在建模中的应用效果.但是,由于PCR 方法在
提取成分时没有考虑到与因变量的联系,其主成分
对因变量的解释性不强.针对PCR 存在的不足,钱筱丹等[2-3]提出用偏最小二乘回归(partial least squares reg ressio n,PLSR)对费用进行建模,并在特定的条件下提高了费用回归建模的精度;然而,上述回归统计建模方法本质上是对平均趋势的估算,无法避免 依据错误的数据得到错误的模型 根本问题.对于实际数据建模问题,由于各个时期的数据样
本对于建模的有效程度不等,而回归建模方法对此并不加以区分,得到的估算值只能是 平均值 ,不能提供 最优值 ,鉴于数据包络分析(data envelopment analysis,DEA)方法可以克服通常方法中常见的 平滑性 ,进行 最优性 回归建模预测[4],因此,本文提出用DEA优化PLSR的建模方法.
1 DEA理论
数据包络分析(DEA)是美国著名运筹学家Char nes等[5]以相对效率概念为基础发展起来的一种效率评价方法,自1978年第一个DEA模型 C2R模型[5]发表后,相关的研究不断涌现,至今已形成关于效率、生产可能集、生产前沿面等概念的完整的理论、方法和模型,并广泛应用于管理科学、系统工程和决策分析等各个领域,DEA已成为管理科学与系统工程领域处理复杂问题的一种重要而有效的分析工具.Seifo rd[6]介绍了DEA的起源和模型等内容;魏权龄[7]系统介绍了DEA理论、模型及应用;吕建伟[8]将DEA用于费用效能分析的评价,并指出DEA在装备效费方面的应用前景;瘳武等[9]采用DEA二次相对评价法对装备效费进行评价,明确了非有效决策单元的调整量;Ram anathan[10-11]将DEA应用于能源及环境使用效率评价;Azadeh 等[12]将DEA、PCA及数值分类方法结合起来用于制造业中的能源消耗使用效率评价,但至今未见DEA在回归建模方面的应用.下面介绍DEA的基本模型.
假设n决策单元DM U1,DM U2, ,DM U n,每个DM U有m种输入和s种输出,DMU j的输入和输出向量分别为x j={x1j,x2j, ,x mj}T,y j={y1j, y2j, ,y sj}T,j=1,2, ,n.
设DMU j0的输入、输出为(x j0,y j0),这里简记为(x0,y0),评价DMU j0相对有效性的C2R[5]模型为
max T y0 T x0,
T y0
T x0j
1,
0, 0.
(1)
式中:v=[v1,v2, ,v m]T,u=[u1,u2, ,u s]T分别为m种输入和s种输出的权系数.利用Charnes和Cooper关于分式规划的Charnes-Cooper变换[7]:
t=1
T x0, w=t , =t u.(2)
在上述条件变换下,可得 T x0=1,则分式规划(C2R)
等价于线性规划(P C2R),且它们的最优值相等:
m ax T y0=V C2R,
T x j- T y j 0,j=1,2, ,n,
T x0=1,
0, 0.
(3)
线性规划(P C2R)的对偶规划(D C2R)为
m in ,
n
j=1
x j j x0,
n
j=1
y j j y0,
0,j=1,2, ,n.
(4)
式中:V C2R、 为规划目标值, 、 、 为规划决策变量.
定义1 若线性规划(P C2R)的最优解 0、 0满足 T y0=1,则称DMU j0为弱DEA有效.
定义2 若线性规划(D C2R)的最优值 =1,且线性规划(P C2R)的最优解 0、 0满足 T y0=1,
0>0, 0>0,则称DM U j0为DEA有效.
2 用DEA优化偏最小二乘回归建模
DEA方法具有不需要先验信息直接对数据输入输出进行评价的能力,因此,在进行偏最小二乘回
归分析之前,利用DEA评价出有效的数据来进行
偏最小二乘回归建模.
分析建模步骤如下:
1)根据DEA理论,采用C2R模型,将多个自变
量作为输入指标、费用作为单变量输出指标进行数
据有效性分析,利用线性规划的对偶理论求解效率
值,将评价出来无效的数据剔除,采用有效的数据即
效率值=1的数据来进行偏最小二乘回归建模.
2)根据文献[13]中偏最小二乘回归建模的步
骤,对建模数据标准化处理,得到标准化后的自变量
矩阵E0和因变量矩阵F0,在此基础上对向量进行
成分提取.
3)从E0中抽取一个成分,t1=E0W1,其中
W1=
E 0F0
E 0F0 .(5)
实施E0和F0在t1上的回归:
E0=t1p 1+E1,F0=t1r 1+F1.(6)式中:E1、F1是残差矩阵,p1、r1是回归系数向量,即
p1=
E 0t1
t1 2,r1=
F 0t1
t1 2.(7)
4)检查收敛性,若Y对t1的回归方程已达到满
1689
第9期张小海,等:用DEA优化偏最小二乘回归建模及应用
意的精度,则进行下一步;否则,以E1取代E0,以F1取代F0,实施与第1)步基本相同的算法,对残差矩阵进行新一轮的成分提取和回归分析.
5)依此类推,在第h步(h=2, ,s)方程满足精度要求(可用交叉有效性确定),这时得到s个成分t1,t2,t3, ,t s,实施F0在t1,t2,t3, ,t s上的回归,得
F0=t1r1+t2r2+t3r3, ,+t s r s+F s.(8)
由于t1,t2,t3 t s是E0的线性组合,F*0可写成E0的线性组合形式,即
F*0=r1E0W*1+r2E0W*2+ +r s E0W*s+F s.(9)
6)还原方程为
y*=a1x1+a2x2+a3x3+ +a s x s.(10)式中: i为x i的回归系数.
7)交叉有效性分析[13].对于全部因变量Y,成分t h的交叉有效性定义为
Q2=1- q
k=1
S PRESS,hk
q
k=1
S SS,(h-1)k
=1-
S PRESS,h
S SS,h-1
.(11)
用交叉有效性测量成分t h对预测模型精度的边际贡献有以下2个尺度:
当Q h2 (1-0 95)2=0 0975时,t h成分的边际贡献是显著的.显而易见,Q h2 0 0975与S PRESS,h/S SS,h-1<0 952是完全等价的决策原则;
对于k=1,2, ,q,至少有1个k,使得Q2hk 0 0975,这时增加成分t h,至少使1个因变量y k的预测模型得到显著的改善,因此,考虑增加成分是明显有益的.
偏最小二乘回归在建模过程中集中了主成分分析、典型相关分析和线性回归分析的工作特点,因此,在分析结果中,除了提供一个更为合理的回归模型外,还提供一些类似于主成分分析和典型相关分析的研究内容,如精度分析、变量投影重要度、特异点发现等,这方面的有关内容被称之为偏最小二乘回归的辅助分析技术[13].
1)精度分析R2x:提取的成分t h对自变量x j的解释能力;R2y:提取的成分t h对因变量Y的解释能力; R2x(cum):提取的累积成分t h对自变量x j的解释能力; R2y(cum):提取的累积成分t h对因变量Y的解释能力.
2)变量投影重要度(VIP).自变量x j在解释因变量集合Y时的作用.
3)特异点发现.对所有数据进行T2椭圆图分析,在95%的检验水平上,如果数据样本点落在椭圆边界内,则认为样本数据点的分布是均匀的;反之,则认为该数据样本为特异点,可排除.
3 实例分析
为了说明用DEA优化偏最小二乘回归建模方法的优势.下面以文献[13]中刀具磨损实验数据的建模计算来说明该方法的应用,具体数据见表1的刀具磨损量y和自变量x1、x2、x3、x4、x5之间的关系.
将此5个自变量的10组数据作为DEA的输入,y作为DEA模型的输出代入C2R模型中,借助matlab优化工具箱中的线性规划命令 linprog ,可以算出各组数据的相应最优效率值,计算结果如表1所示.
从表1中剔除效率值<1的样本序号为6、7两组数据,将效率值=1的序号1,2,3,4,5,8,9,10组数据作为偏最小二乘回归建模的数据,文献[13]研究表明,y和x1,x2,x3,x4,x5之间是一种非线性的指数关系,去除样本6、7数据后,重新排序并对数据作对数变换后的建模数据如表2所示.将表中的数据进行偏最小二成回归分析,之后再反变换还原方程,即可得y与x的方程.
表1 刀具磨损实验数据
T ab.1 Ex perimental data of knife to ol abr asion
序号x1x2x3x4x5y效率值
1482 864751 03620 6553 438102 4581
2494 491839 381665 8833 655307 21341
3545 946956 572701 9564 293512 01771
4499 069923 429708 1824 052614 41851
5398 541745 418595 7523 544716 81861
6443 403781 060691 4273 721819 21880 93319
7475 448874 172685 4763 935921 62080 93083
8478 011927 274761 1934 0261126 42541
9517 1971068 540800 1044 4601228 82761
10513 4431063 510822 9014 3261331 22901
1690浙 江 大 学 学 报(工学版) 第45卷
表2 建模数据T ab.2 M odeling data
序号log 10(x 1)log 10(x 2)lo g 10(x 3)lo g 10(x 4)log 10(x 5)log 10(y )12 68382 87572 79290 53632 01031 763422 69422 92402 82340 5629
2 4874
2 1271
32 73712 98072 84630 63282 70932 248042 69822 96542 85010 60772 78852 267252 60052 87242 77510 54952 85542 269582 67942 96722 88150 60493 05172 404892 71373 02882 90310 64933 08952 440910
2 7105
3 0267
2 9153
0 6361
3 1242
2 4624
利用PLSR 软件计算和分析可知V IP 值相差不大,VIP:0 807992,0 925034,0 924112,0 963474,1 30736,因此,可判定这些变量都是
重要的.
通过T 2椭圆图分析(见图1),没有数据落在椭圆之外,可判定样本数据都是重要的.提取至第5个主成分,Q 2
均为正,此时R 2x (cum)和R 2y (cum)已经为1,无法继续提取成分,因此,指标R 2x 和R 2x (cum)、特征值、R 2y 和R 2y(cum)及Q 2和Q 2(cum)的分析结果值见表
3.
图1 T 2
椭圆图F ig.1 T 2ellipse 表3 分析指标值T ab.3 A nalyzed index v alue
成分R 2x R 2x (cum)特征值
R 2y R 2y (cum)
Q 2
Q 2(cum)10 7610 7613 8100 7670 7670 5280 52820 2110 9721 0600 2010 9680 8270 91830 0230 9950 1130 0130 9810 2250 93740 0040 9990 0200 0170 9990 8020 9875
0 0011
0 006
0 0011
0 663
0 996
由于F 0可表示为t h 的回归方程,最终得到:F 0 0 401863 E 01+0 357979 E 02- 0 357979 E 03-0 520993 E 04+ 1 37342 E 05.(12)
将标准化的变量F 0和E 0j (j =1,2,3,4,5)分别
还原得回归方程为
lo g 10y =2 24767 log 10x 1+1 33938 log 10x 2-1 71599 log 10x 3-2 75296 log 10x 4+0 83229 log 10x 5-3 52389.(13)
指数反变换得方程y =0 0002993 x 2 247672
1
x 1 339381
2
x -1 71599
3
x -2 75296
4 x 0 832293
5.(14)
用DEA 优化PLSR 计算结果如表4所示.
表4 用DEA 优化PLSR 计算结果
T ab.4 Co mputing result of o pt imized P LSR w it h DEA 序号回归计算结果原始数据绝对误差158 ******** 001982132 958471340 007773177 556061770 003144186 031351850 005585186 277061860 001496190 747311880 014617249 026432080 197248252 880242540 004419271 773042760 0153210294 31872290
0 01489平均绝对误差/%
2 66
4 比较分析
为了说明DEA 优化偏最小二乘回归建模的优势,将表1的数据未通过DEA 评价直接进行偏最
小二乘回归和主成分回归作为比较.
采用同样的方法对数据进行处理,取对数后进行PLSR 分析计算,通过分析可知,VIP 值相差不大,因此,可断定这些变量都是重要的.由椭圆图可知,没有数据落在椭圆之外,可判定样本数据都是重要的.
提取前3个成分时,Q 2均为正,如果继续提取主成分,从第4个成分开始Q 2为负,因此,提取前面3个成分.分析结果值见表5.
表5 分析指标值
T ab.5 A naly zed index value
成分
R 2x R 2x (cum)特征值R 2y R 2y (cum)Q 2
Q 2(cum)
10 7290 7293 6500 7560 7560 4720 47220 2340 9641 1700 2120 9680 8230 9063
0 0260 990
0 1290 0120 9800 254
0 930
1691
第9期
张小海,等:用DEA 优化偏最小二乘回归建模及应用
最终得回归方程为
y=61 3035 x-0 88605
1 x0 593629
2 x-0 34824
3
x1 439546
4 x0 440806
5.(15)
同样,将表1的数据标准化后进行主成分分析,提取3个成分时的主成分回归方程为
y=163 4806 x-1 37583
1 x 0 575578
2 x
-0 03974
3
x1 816081
4 x0 383616
5.(16)
PLSR和PCR分别计算的结果如表6所示.
表6 PLSR和PC R方法结果比较
T ab.6 R esult of PL SR and P CR metho ds
序号原始
数据
PLS R方法
计算结果绝对误差
PCR方法
计算结果绝对误差
127663 417630 0934164 625050 11423
2290114 714900 14392113 233600 15497
3276176 071900 00524173 257400 02115
4290185 583800 00316185 383400 00207
5276186 964900 00519187 044500 00562
6290188 942600 00501189 695800 00902
7276217 410200 04524212 990400 02399
8290243 960800 03953245 249200 03445
9276292 846500 06104296 659100 07485 10290288 549300 00500291 228100 00424平均绝对误差/%4 074 45
5 结 语
(1)提出用DEA优化偏最小二乘回归建模方法具有较高的建模精度.通过综合DEA评价数据的有效性,剔除无效的数据,利用有效数据进行偏最小二乘回归建模,有效地克服了无效数据对回归建模的影响,通过实例分析与PLSR、PCR方法进行对比, DEA优化偏最小二乘回归建模平均绝对误差为2 66%,PLSR建模平均绝对误差为4 07%,PCR平均绝对误差为4 45%,该方法具有一定的实用价值.
(2)通过分析发现,偏最小二乘回归方法的辅助分析技术也存在不足,其中的T2椭圆图分析并不能很好的发现并剔除其中的数据特异样本点,而DEA方法正好弥补了PLSR的不足.
(3)用DEA优化偏最小二乘回归方法突出了 最优性 回归建模的思想,尤其是在经济应用领域具有重要意义.将通过DEA评价后的有效数据用来建模,克服了常用的回归统计建模方法对平均趋势估算的不足,突出以最大效率为目标的最优费用回归建模,从而有效的控制费用及对费用进行预决测.
(4)不同的DEA数学模型可能对评价结果有影响,采用更好更适合的DEA评价模型是值得进一步研究的方向.参考文献(References):
[1]涂延军,梁工谦.基于主成分分析的飞控系统研制费用
估算[J].机械科学与技术,2003,22(9):13-15.
T U Y an-jun,L IA N G Gong-qian.Evaluat ion o f R&D cost fo r an aircraft flig ht contr ol sy stem based on pr inc-i pal co mpo nent analysis[J].Mechanical Science and Technology,2003,22(9):13-15.
[2]钱筱丹,黎放,卞金露.偏最小二乘回归在舰船维修费用预
测中的应用[J].舰船科学技术,2007,29(8):98-100.
QIA N Xiao-dan,L I F ang,BIA N Jin-lu.A pplication of par tial least-squar es reg ression in for ecast of war ship maintenance cost[J].Ship Science and Technology, 2007,29(8):98-100.
[3]李寿安,张恒喜,李东霞,等.基于偏最小二乘回归的
军用飞机采购价格预测[J].海军工程大学学报,2005, 17(4):64-68.
L I Sho u-an,ZHA N G H eng-x i,LI D ong-x ia.Battleplan acquisition cost forecast based o n partial least-squares reg ressio n[J].Journal of Naval University of Engineer-ing,2005,17(4):64-68.
[4]段永瑞.数据包络分析 理论和应用[M].上海:上海
科学普及出版社,2006:12-13.
[5]CHA RN ES A,COO PER W W,RHO DES E.M easur-
ing t he efficiency of decisio n making units[J].European Journal of Operational Research,1978,2(6):429-444.
[6]SEIFO RD L M.Data envelopment analysis:t he evolu-
tion o f state o f t he ar t(1978-1995)[J].Journal of Pro-duction Analysis,1996,2(7):99-137.
[7]魏权龄.数据包络分析[M].北京:科学出版社,2003:1-317.
[8]吕建伟.DEA方法用于武器装备效费分析的研究[J].
系统工程理论与实践,1996,10:44-48.
L U Jian-w ei.T he st udy on weapon sy stem s cost-effec-tiveness analy sis with DEA[J].System Theories Eng-i neering and Practice,1996,10:44-48.
[9]廖武,陈云翔,孟飙.基于DEA的装备费效分析[J].计
算机工程与应用,2007,43(9):219-222.
LIAO Wu,CHEN Y un-x iang,M EN G Biao.Cos-t effec-tiveness analysis for material based on DEA[J].C om puter Engineering and Applicatio ns,2007,43(9):219-222. [10]RA M A N A T H AN R.A holistic appr oach to compare
energ y efficiencies o f differ ent tr anspor t mo des[J].
Energy Policy,2000,28:743-747.
[11]RA M A N AT HA N R.Estimating ener gy consumption
of tr anspor t modes in India using D EA and application
to energ y and environmental policy[J].Journal of the Operational Research Society,2005,56:732-737.
[12]AZA DEH A,A M A LN ICK M S,G HA DERI S F,et
a l.A n integ rated DEA PCA numer ical tax onomy ap-
pro ach for ener gy efficiency assessment and co nsump-tion o pt imizatio n in energ y intensive manufacturing sec-to rs[J].Energy Policy,2007,35:3792-3806.
[13]王慧文,吴载斌,孟洁.偏最小二乘回归的线性与非线性
方法[M].北京:国防工业出版社,2006:111-188.
1692浙 江 大 学 学 报(工学版) 第45卷。