一种电力造价异常数据辨识算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第45卷第4期2023年7月
沈 阳 工 业 大 学 学 报JournalofShenyangUniversityofTechnology
Vol 45No 4Jul 2023
收稿日期:2020-04-28.
基金项目:江西省科技厅项目(S2018CXCPB0484).
作者简介:程 津(1967-),男,湖南湘潭人,高级工程师,硕士,主要从事电力工程技术应用等方面的研究.
doi:10.7688/j.issn.1000-1646.2023.04.06
一种电力造价异常数据辨识算法
程 津1,周 鲲2,徐志强2,伍家耀2
(1 国网湖南省电力有限公司经济技术研究院,长沙410000;2 湖南经研电力设计有限公司技术经济部,长沙410000)
摘 要:为了解决现有电力造价异常数据检测算法无法识别清单详情及清单与施工细节不符的问题,提出了一种基于规则匹配的电力造价异常数据辨识算法.利用K means聚类算法实现了清单的初步分类和特征清单的提取,将特征清单的特征词作为清单类别特征.采用规则库对清单详情进行分词,并提取清单特征词,采用多项式贝叶斯算法计算出清单位于当前类别的概率.实验结果表明,所提出算法较传统异常数据检测算法的准确率提高了约1
0%.关 键 词:电力造价;规则匹配;规则库;异常数据;异常检测;清单详情;特征词;多项式贝
叶斯
中图分类号:TM769 文献标志码:A 文章编号:1000-1646(2023)04-0387-05
Arecognitionalgorithmforabnormaldataofelectricitycost
CHENGJin1,ZHOUKun2,XUZhi qiang2,WUJia yao
2
(1.EconomicandTechnologicalResearchInstitute,StateGridHunanElectricPowerCo.Ltd.,Changsha410000,China;2.TechnicalandEconomicDepartment,HunanEconomicResearchElectricPowerDesignCo.Ltd.,Changsha410000,China)
Abstract:Inordertosolvetheproblemthattheexistingabnormaldatadetectionalgorithmsforelectricitycostcannotidentifylistdetailsandlistsnotinconsistentwithconstructiondetails,arecognitionalgorithmbasedonrulematchingforabnormaldataofelectricitycostwasproposed.AK meansclusteringalgorithmwasusedtorealizethepreliminaryclassificationoflistsandtheextractionoffeaturelists,andthefeaturewordsoffeaturelistswereusedaslistcategoryfeatures.Accordingtotherulebase,thelistdetailsweresegmented,andthelistfeaturewordswereextracted.ApolynomialBayesalgorithmwasusedtocalculatetheprobabilityofalistinthecurrentcategory.Theexperimentalresultsshowthattheaccuracyofas proposedalgorithmisabout10%higherthanthatoftraditionaldetectionalgorithmsforabnormaldata.
Keywords:electricitycost;rulematching;rulebase;abnormaldata;abnormaldetection;listdetail;
featureword;polynomialBayes
电力工程通常投资金额与工程量都较大,且
与其他制造业联系密切[1]
.电力工程造价的管理
与监督一直是电力工程建设中的一个重要环节,其可以辅助施工方合理制定工程预算,同时利于实行有效的监管,是贯穿于工程建设的主要工作,
对于维持行业秩序意义重大[2-3]
.
由于电力造价文件录入过程中的人为疏忽或造假等原因,电力造价数据库存在大量的异常数
据,主要可以分为两个大类:第一类是同类清单单价差异过大的异常;第二类是清单详情与施工细节不符的异常.
目前的电力造价异常检测方法可以基于统计学原理,对第一类异常情况进行有效的辨
识,但对第二类异常情况的辨识效果欠佳[4-6]
.
为了能够有效辨识与施工细节不符的异常清单,确保电力造价历史数据的真实性,本文提出了一种对清单详情进行综合单价异常检测的电力造
Copyright ©博看网. All Rights Reserved.
价异常数据辨识算法.该算法根据清单分类结果
确定最具有代表性的特征清单,提取特征清单详情中的特征词作为异常辨识依据,并利用多项式贝叶斯方法计算某一清单属于某一类别的概率,实现清单异常的辨识.该方法能够有效克服依靠人工主观制定类别特征的弊端,显著提升清单异常辨识的准确性和辨识效率.
1 基于综合单价的清单分类
同类清单的综合单价通常具有相似特征,由于施工方面采用的工艺、材料型号等不同,同类清单的综合单价将分布在多个小区间内,呈现出比较明显的聚类分布特征[7].但电力造价历史清单数量庞大,即使是同类清单也无法快速、准确地进行人工分类.采用传统的统计学方法不仅效率低,且无法确定准确的分类数,极易出现同类数据强行分类或欠分类的情况[8-9].K means聚类算法是一种迭代求解的聚类分析算法,可以实现大规模数据的分类和分类中心的选取.相比于传统的统计学方法,不仅提高了分类效率,而且能够克服仅依靠专家经验确定清单类别特征的泛用性低、灵活性差的弊端.
本文采用K means聚类算法,基于历史清单的综合单价对同类清单进行分类.该方法可以确定准确的聚类中心,将处于聚类中心处的清单作为类别代表清单.提取该清单的特征词作为此类清单的特征词,用于后续多项式贝叶斯的计算.以项目名称为“配电箱4AL22”的同类清单为例,采用数据库中的4800条正常清单组成聚类数据集,为此类清单建立一个分类模型.按照K means聚类算法进行清单分类的步骤如下:1)首先将聚类中心个数设置为5,并按照综合单价分布范围平均划分5个聚类中心;
2)计算每一条清单单价与聚类中心的距离,按照距离最近原则将所有清单划分到5个类别中;
3)分别计算5类清单综合单价的中心,并将该计算结果作为新的聚类中心,计算新聚类中心与旧聚类中心的偏移值;
4)重复进行步骤2)与步骤3),直至步骤3)中的偏移值小于设置阈值(该阈值一般按照项目综合单价情况灵活设置),即得到准确的聚类中心.“配电箱4AL22”类清单数据集的聚类结果如图1所示.
由图1可以看出,本文采用的清单样本综合单价完全符合前文提到的分布规律.由K mean
s
图1 “配电箱4AL22”类清单聚类结果
Fig 1 Clusteringresultsof“distribution
box4AL22”categorylists
聚类算法得到的5个聚类中心分别为4782、5489、5736、6573及7401元.但由聚类结果的分布图能够看到7个明显的聚类结果,设置为5并不是最好的分类效果,需要根据数据及具体情况不断调整聚类数值来获得最好的分类效果.这是K means聚类算法灵活性较好的体现,根据聚类结果的不同确定最准确的清单类别特征.
2 基于规则匹配的特征词提取
规则匹配是一种常规的文本分类方法,是目前为止文本分类应用中最广泛、效果最优的方法.其关键在于是否具备充分且准确的规则库,我国电力行业经历了长期的发展,尤其在造价管理方面已形成了完备的规则库.因此,规则匹配方法适用于电力造价清单特征词的提取[10-12].
图2为部分清单原始数据示意图.由于原始数据中包含大量的符号、空格及其他各类冗余字符,因此首先需要对原始数据进行预处理.预处理过程包括关键字段提取、去除无效字符、分词等步骤,经过预处理后才能够得到符合模型输入要求的清单详情格式
.
图2 部分清单原始数据示意图
Fig 2 Schematicdiagramoforiginaldataofpartiallists
8
8
3沈 阳 工 业 大 学 学 报 第45卷
Copyright©博看网. All Rights Reserved.
提取关键字段主要是提取图2中清单详情(
spec)与子信息(children)中的部分详细描述,将这两部分信息全部提取出来进行后续处理.
无效字符主要包括部分序号、标点符号、停用词和稀有词,其中序号、标点符号的去除较为简单,本文主要介绍对停用词与稀有词的判定方法.停用词是指在清单数据中出现频率较高但不反映具体意义的词,文中基于训练清单数据集,用统计学的方法对出现的所有特征值进行统计,提取在70%以上的清单中均出现过的特征词建立停用词库.但在模型训练过程中经常出现停用词的误判,将某些出现频率过高的专业名词误判为停用词.因此本文在初步建立停用词库后,再将其与专用规则库进行比对.将停用词库中的专业名词提出,形成最终的停用词库.
稀有词是指在清单训练数据集中较少出现的词,这些词一般对清单类别特征的代表性较低.文中采用类似停用词的处理方法,将特征词统计结果中出现频次少于3次的特征词放入稀有词库.
分词即特征词的提取,本文将提取的关键字段去除序号、标点符号后,再与停用词库、稀有词库与专用规则库进行匹配,得到最终的特征词形式如图3所示
.
图3 预处理后的特征词
Fig 3 Featurewordsafterpreprocessing
3 异常数据辨识算法
电力造价清单中异常数据的辨识问题也是一
类清单分类问题,在根据历史清单的综合单价建立起清单分类模型后,这一问题转变为依据清单详情特征词判断该条清单是否属于现有分类的问题.贝叶斯分类方法即通过计算某一特征属于某一分类的概率,再综合计算组合特征属于某一分类的概率来完成分类的一种数据分类方法,该方
法适用于本文提出的异常数据辨识算法[13-15]
.图4为异常数据辨识算法流程图.
行业内庞大的电力造价历史数据为贝叶斯方法的应用提供了大量的先验信息,将贝叶斯公式应用于电力造价清单分类的计算表达式为
P(CX)=P(XC)P(C)
P(X)
(1
)
图4 异常数据辨识算法流程图Fig 4 Flowchartofrecognitionalgorithm
forabnormaldata
式中:X为目标清单;C为根据历史正常清单得到的先验分类类别;P为某一事件的概率.式(1)无法直接用于经过预处理后的特征值形式清单,因此将清单详情特征值ei表示为组合的集合形式,即
X={e1,e2,…,en
} (2)
清单X属于Ci类别的概率为P(CiX),与每个独立特征词关于Ci类别的条件概率有关,P(CiX
)可表示为P(CiX)=P(Ci)∏n
j=1
P(ejCi
) (3)
传统的贝叶斯分类方法只考虑特征值是否出现,但如图3所示的电力造价清单详情中经常出
现重复的特征词,特征词的重复在一定程度上也能代表一类清单的特点.因此本文选用多项式贝叶斯方法,该方法能够将特征词重复的情况计算在内,可以有效提高分类准确度.同时为了解决每个特征词在类别表示中的权重问题,文中引入了词频逆文档频率(TF IDF)对算法进行进一步的
优化[
12]
.当一个特征词多次集中出现在某一类别中,而在整个数据集中却较少出现时,则表明了该特征词可以较好地代表这一类别.TF为词频,IDF为逆向文档频率,TF IDF值即为二者的乘积,以下表示为TI.本文建立了一种由每个类别特征词的T
I值构成的特征矩阵模型,该模型便于进行多项式贝叶斯计算.
采用式(3)计算清单X属于Ci类别的概率P(CiX),主要计算参数为P(Ci)与P(ejCi).P(Ci)表示所有正常清单中Ci类别的清单占清单总数的比例,计算表达式为
9
83第4期 程 津,等:一种电力造价异常数据辨识算法Copyright ©博看网. All Rights Reserved.
P(Ci
)=N(Ci
)N(C)
(4)
式中:N(Ci)为Ci类别的清单数量;N(C)为清单总数.P(ejCi)的计算要利用构建的特征矩阵模型,用ej特征词在Ci类清单中的TI值总和除以Ci类清单的T
I值总和,即P(ejCi
)=∑m
k=1
TIj,k(Ci
)∑n
j=1∑m
k=1
TIj,k(Ci
)
(5)
相比于传统只考虑特征词出现频率的方法,本文提出的特征矩阵模型充分考虑了每个特征词在不同类别中的权重,TI值越大的特征词对概率计算的贡献越大;相反,TI值越小的特征词对概率计算的贡献越小.TI值的大小与特征词在不同类别中出现的频率有关,这也是多项式贝叶斯方法在处理此类问题时的优势体现.
在电力造价异常检测时,给定某一待测清单,首先根据其综合单价选定综合单价与其最近的两个类别,再计算该清单属于这两个类别的概率,选择值更大的概率作为最终概率.将最终概率与概率阈值进行比较,若最终概率大于阈值,则该清单无异常;若最终概率小于阈值,则该清单为异常清单.
4 异常数据辨识实验
实验依然采用“配电箱4AL22”类清单数据集,由4800条正常清单组成训练数据集,选取500条异常清单与正常清单混合并随机排序,从中随机选取500条未知清单作为测试数据集.采用传统异常数据检测方法、传统贝叶斯方法与多项式贝叶斯方法分别进行异常数据辨识实验,K means聚类算法聚类中心个数设置为5,概率阈值取0 9.对比3种方法的辨识准确率与辨识时间,结果统计如表1所示.
表1 3种方法的对比结果
Tab 1 Comparisonresultsforthreemethods异常辨识方法准确率辨识时间/s传统异常数据检测方法
0 53270 26传统贝叶斯方法0 78320 64多项式贝叶斯方法
0 8864
0 64
由表1结果可以看出,本文提出电力造价异常数据辨识算法由于充分考虑清单详情特征与特征词在类别特征中的权重,其辨识准确率明显优于两种传统方法.在准确率较高的两种贝叶斯方法的对比中发现,本文方法的辨识时间与传统方
法差异较小.
但准确率较传统贝叶斯方法更高,因此,本文方法在电力造价异常数据辨识中表现出更优的性能.
基于综合单价的清单分类采用K means聚类算法,聚类数对分类结果具有一定的影响,进而影响到异常数据辨识结果.本文对不同聚类数值下多项式贝叶斯方法的异常数据进行辨识实验,
并采用召回率与准确率两个指标对实验结果进行评价.
由图1可以看出,该清单训练数据集可以聚类得到7个明显的聚类中心,所以对聚类数值为5、6、7、8四个异常辨识模型进行评价,测试结果如表2所示.
表2 不同K值实验结果
Tab 2 ExperimentalresultsofdifferentKvalues聚类数值
召回率准确率50 83420 886460 85340 863570 87480 84218
0 9092
0 7963
由表2实验结果可知,随着聚类数值的不断增大,召回率逐渐增大,但准确率逐渐降低.聚类数值越大表明清单数据集所分类别越多,即清单分类越细,异常清单越容易被辨识.但此时更多的正常清单被误判为异常,导致模型的整体准确率降低.通常异常清单的召回率要求达到85%以上,因此在保证召回率要求的情况下,应尽量提高识别准确率,可以将K means清单分类方法的聚类数值设置为6.
概率阈值的设定是影响识别准确率的又一个重要参数.概率阈值过低,将提高异常清单漏判的概率;概率阈值过高,会导致部分正常清单被判为异常.
因此,设计了不同概率阈值时的异常辨识实验,聚类数值设定为6,概率阈值用W表示,图5为识别准确率随W的变化结果
.
图5 不同W时准确率变化结果
Fig 5 ChangeresultsofaccuracyatdifferentWvalues
093沈 阳 工 业 大 学 学 报
第45卷
Copyright ©博看网. All Rights Reserved.
由图5结果可以看出,当概率阈值W为0 88时,异常数据的识别准确率最高,此时的识别准确率为0 8812.因此,为了保证本文异常数据辨识算法的准确率,在算法实施过程中应设置聚类数值为6,概率阈值W为0 88.
5 结 论
针对目前电力造价数据监管中出现的异常清单详情与施工细节不符的情况,本文提出了一种通过挖掘清单详情信息进行清单分类的异常数据辨识算法.该方法打破了仅依靠清单综合单价进行分类的局限性,有效减少异常清单的漏判与误判.文中提出的基于规则匹配的特征词提取方法,充分利用了电力行业内已形成的权威专家规则库,确保清单详情特征词的代表性.采用多项式贝叶斯分类方法将异常清单的辨识问题转化为清单分类的概率问题,并创新性地将特征词在类别特征中的权重融入分类概率的计算中,能够有效提升辨识准确率.
参考文献(References):
[1]唐海平.基于J2EE的电力工程造价管理系统的设计与实现[D].成都:电子科技大学,2019.
(TANGHai ping.Designandimplementationofpower
engineeringcostmanagementsystembasedonJ2EE
[D].Chengdu:UniversityofElectronicScienceand
TechnologyofChina,2019.)
[2]王绵斌,耿鹏云,安磊.基于ANN的电力工程造价预测模型的建立与实现[J].现代电子技术,2017,
40(24):166-168.
(WANGMian bin,GENGPeng yun,ANLei.Estab
lishmentandrealizationofANN basedcostforecas
tingmodelofelectricpowerengineering[J].Modern
ElectronicsTechnique,2017,40(24):166-168.)[3]毛慧.基于大数据的电力工程造价信息化管理研究[D].南昌:南昌大学,2019.
(MAOHui.Researchoninformatizationmanagement
ofpowerengineeringcostbasedonlargedata[D].
Nanchang:NanchangUniversity,2019.)
[4]方昱璋,杨晶.基于GIS的电力工程造价估算系统研究[J].现代电子技术,2017,40(22):163-165.
(FANGYu zhang,YANGJing.Researchonelectric
powerprojectcostestimationsystembasedonGIS
[J].ModernElectronicsTechnique,2017,40(22):
163-165.)
[5]谈元鹏,许刚,赵妙颖.电力工程造价的随机权深度神经学习估算方法[J].计算机工程与应用,2015,
51(21):213-218.
(TANYuan peng,XUGang,ZHAOMiao ying.Ran
domweighteddeepneurallearningbasedcostestima
tionofpowerengineeringproject[J].ComputerEn
gineeringandApplications,2015,51(21):213-
218.)
[6]韩文军,余春生.面向输变电工程数据存储管理的分布式数据存储架构[J].沈阳工业大学学报,
2019,41(4):366-371.
(HANWen jun,YUChun sheng.Distributeddata
storagearchitecturefordatastoragemanagementof
powertransmissionandtransformationengineering
[J].JournalofShenyangUniversityofTechnology,
2019,41(4):366-371.)
[7]刘念,刘宇.基于聚类分析算法的海量关系数据可视化技术研究[J].电子设计工程,2018,26(10):
92-95.
(LIUNian,LIUYu.Thestudyonmassiverelationaldatavisualizationtechnologybasedonclusteringana
lysisalgorithm[J].ElectronicDesignEngineering,
2018,26(10):92-95.)
[8]唐登平,李俊,孟展,等.统计线损数据准确性研究[J].电力系统保护与控制,2018,46(24):33-39.
(TANGDeng ping,LIJun,MENGZhan,etal.Re
searchonaccuracyofstatisticallinelosses[J].Power
SystemProtectionandControl,2018,46(24):33-
39.)
[9]王晓建,朱婷涵,劳咏昶,等.基于人工免疫优化神经网络的输变电工程造价评估[J].浙江电力,
2018,37(7):62-67.
(WANGXiao jian,ZHUTing han,LAOYong
chang,etal.Costevaluationofpowertransmission
andtransformationprojectbasedonartificialimmune
optimizationneuralnetwork[J].ZhejiangElectric
Power,2018,37(7):62-67.)
[10]庞立会,江峰.一种IPV6环境下的高性能规则匹配算法研究[J].计算机科学,2017,44(3):158-162.
(PANGLi hui,JIANGFeng.Researchonhighper
formancerulematchingalgorithminIPV6networks
[J].ComputerScience,2017,44(3):158-162.)[11]马智远,崔晓飞,黄裕春,等.辨识谐波电流监测数据中异常数据的一种方法研究[J].电力系统保护
与控制,2016,44(21):96-102.
(MAZhi yuan,CUIXiao fei,HUANGYu chun,
etal.Adetectionmethodofabnormalharmoniccur
rentmonitoringdata[J].PowerSystemProtection
andControl,2016,44(21):96-102.)
[12]程龙.基于改进TF IDF算法的信息抽取系统设计与实现[D].北京:北京邮电大学,2019.
(CHENGLong.Designandimplementationofinfor
mationextractionsystembasedonimprovedTF IDF
algorithm[D].Beijing:BeijingUniversityofPosts
andTelecommunications,2019.)
[13]袁兆祥,余春生.基于DBSCAN聚类的电力工程数据完整性分析[J].沈阳工业大学学报,2019,41
(3):246-250.
(YUANZhao xiang,YUChun sheng.Integrityanaly
sisofpowerengineeringdatabasedonDBSCANclus
tering[J].JournalofShenyangUniversityofTech
nology,2019,41(3):246-250.)
[14]汪景,夏华丽,丁伟伟.电网工程造价标准体系框架建设研究[J].浙江电力,2016,35(11):54-59.
(WANGJing,XIAHua li,DINGWei wei.Research
ontheconstructionofpowergridprojectcoststandard
system[J].ZhejiangElectricPower,2016,35(11):
54-59.)
[15]刘群,杨建旭,童 .面向变电站智能辅助系统的实时数据库设计[J].电子科技,2017,30(7):124-
127.
(LIUQun,YANGJian xu,TONGYang.Designof
realtimedatabaseforsubstationintelligentauxiliary
systems[J].ElectronicScienceandTechnology,
2017,30(7):124-127.)
(责任编辑:景 勇 英文审校:尹淑英)
1
9
3
第4期 程 津,等:一种电力造价异常数据辨识算法
Copyright©博看网. All Rights Reserved.。