电站锅炉缺失数据的遗传自适应填补方法
缺失数据填补方法
大气指标数据的缺失数据填补方法
缺失数据填补原则:
1,根据缺失数据的模式,运用不同的数据填补方法;
2,定义缺失数据过多的数据为无效数据;
3,避免利用填补的数据再进行数据的填补;
4,填补数据的方法需要简单可行,多种方法交叉验证取平均
填补法依据的主要基础:
1,相关性站点(可行度较高)
2,相关性指标(可行度一般)
3,时序性(可行度较差,考虑到突变)
可行性待验证的方法,:
1,参照同时刻其他相关性站点的平均值
2,其他相关性站点的增/降幅度加权平均确定变化幅度(加权系数可采用相关性系数)
3,利用同站点的其他指标的相关性预测值
4,其他站点最近距离的对应的指标值
填补值的优化方法:
1,根据确定的缺失数据填补办法,得到前几个时刻的填补值,确定误差均值,再优化此时刻的填补值。
数据缺失值的4种处理方法
数据缺失值的4种处理方法数据缺失值的4种处理方法一、缺失值产生的原因缺失值的产生的原因多种多样,主要分为机械原因和人为原因。
机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。
人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。
二、缺失值的类型缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。
完全随机缺失(missing completely at random,MCAR)指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。
随机缺失(missing at random,MAR)指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。
完全非随机缺失(missing not at random,MNAR)指的是数据的缺失依赖于不完全变量自身。
从缺失值的所属属性上讲,如果所有的缺失值都是同一属性,那么这种缺失成为单值缺失,如果缺失值属于不同的属性,称为任意缺失。
另外对于时间序列类的数据,可能存在随着时间的缺失,这种缺失称为单调缺失。
三、缺失值的处理方法对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。
对于主观数据,人将影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。
插补主要是针对客观数据,它的可靠性有保证。
1.删除含有缺失值的个案主要有简单删除法和权重法。
简单删除法是对缺失值进行处理的最原始方法。
它将存在缺失值的个案删除。
如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。
当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来减小偏差。
数据缺失及其填补方法综述
变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网
不处理
贝叶斯网络 人工神经网络
的结构不但复杂性较高(随着变量的增加,指数级增加),网络维 护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响
了它的预测精度。当在任何一个对象中的缺失值数量很大时,存在
指数爆炸的危险。 人工神经网络可以有效的对付空值,但人工神经网络在这方面
无回答有2种表现形式: 单位无回答(unit non-response)和项目无回答(item nonresponse) 。 “单位无回答”——被调查者不愿意或者不能够回答整张的问卷; “项目无回答”——被调查者拒绝回答个别的调查项目。来自缺失原因(Reason)
在统计调查过程中,数据缺失是不可避免的,造成这种现象的原因是多方面 的 ,主要有以下几种: 在存储数据的过程中,由于机器的损坏造成数据存储失败; 调查员在采集数据过程中,由于主观因素人为地认为数据不重要 或无用,而私自丢弃数据; 调查员信息录入失误; 受访者拒绝透露被调查信息,或回答错误信息;
简单而有效的。 它的不足之处在于,删除缺失数据的过程中减 少了原始的数据,导致了信息的损耗。因此, 当缺 失数据所占比例较大,特别当缺失数据非随机分布时, 这种方法可能导致数据发生偏离, 从而引出错误的 结论。
以在样本量较大时, 易出现错误的结果。
单一插补的优点 1、标准的完全数据分析方法 2、对公众应用数据库,程序运行一次 缺点—低估估计量的方差 人工填补法 改进—校正估计量的方差,主要利用Jackknife、Bootstrap 均值填补法 等工具,给出方差的相合估计。 回归填补法 热平台填补法(Hot deck 填补法、就近补齐法) 冷平台填补法 多重填补法1977年由Rubin首先提出, 极大似然估计 经过Meng和Schafer等人不断的完善和综合 期望最大化法(EM) 已形成一个比较系统的理论,该法有以下优 K均值聚类法( K-means clustering ) 点:①多重插补过程产生多个中间插补值, C4.5方法 可以利用插补值之间的变异反映无回答的不 随机回归填补法(PMM法) 确定性,包括无回答原因已知情况下抽样的 趋势得分法 马尔科夫链蒙特卡罗法(MCMC) 变异性和无回答原因不确定造成的变异性。 ②多重插补通过模拟缺失数据的分布,较好 地保持变量之间的关系。③多重插补能给出 衡量估计结果不确定性的大量信息,单一插
数据缺失及其填补方法综述
数据缺失的处理方法
列表删除
删除法
基于完整观测 单位的方法
个案删除(配对删除)
加权调整法 单一填补法
基 本 方 法
基于填补的方法
多重填补法
人工填补法 均值填补法 回归填补法 热平台填补法(Hot deck 填补法、就近补齐法) 冷平台填补法 极大似然估计 期望最大化法 K最近距离邻法 C4.5方法 随机回归填补法(PMM法) 趋势得分法 马尔科夫链蒙特卡罗法(MCMC)
LOGO
3
Part 1
引言
在社会调查资料中,最为常见的问题就是 数据缺失。造成数据缺失 的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有 缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的 影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到 的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解, 来挽救有缺失的调查数据,以保证研究工作顺利进行。
的结构不但复杂性较高(随着变量的增加,指数级增加),网络维 护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响
了它的预测精度。当在任何一个对象中的缺失值数量很大时,存在
指数爆炸的危险。 人工神经网络可以有效的对付空值,但人工神经网络在这方面
的研究还有待进一步深入展开。
LOGO
16
Part 3
TRANSITION PAGE
过渡页
一
引言
二
三 四
数据缺失简介 数据缺失的处理方法 处理方法的选择与评价
五
总结
LOGO
23
Part 5
总结
这段时间,阅读了相关的文献资料,对数据缺失的概念、缺失原因、缺失机制、缺 失模式以及一些基本填补方法有了大致的理解,并初步了解了数据缺失处理方法的研究 现状。 对于数据缺失国内外学者已经做了广泛的研究,但没有哪一种处理缺失数据的方法 是普遍适用的,每种方法都存在不如人意之处 。目前各种新兴的方法层出不穷, 如人工
简述缺失值处理方法
简述缺失值处理方法
缺失值是数据集中某些变量或观察值缺失的情况。
缺失值处理方法可以根据缺失值的种类和数据集的特点进行选择。
以下是一些常见的缺失值处理方法:
1. 删除法:直接将包含缺失值的观察值或变量删除。
这种方法适用于缺失值很少的情况,以确保数据集的完整性和准确性。
2. 插补法:通过某种方式填补缺失值,使得数据集中不再存在缺失值。
常见的插补方法有:
- 均值插补:用缺失变量的均值代替缺失值。
- 中位数插补:用缺失变量的中位数代替缺失值。
- 众数插补:用缺失变量的众数代替缺失值。
- 回归插补:通过回归模型预测缺失变量的值。
- 多重插补:通过生成多个完整的数据集,并利用统计模型来填补缺失值。
3. 分类法:将缺失值视为一个独立的类别,将其作为新的类别添加到数据集中。
这种方法适用于缺失值的原因与数据本身无关,且缺失的信息具有独特的意义。
4. 无效法:将包含缺失值的观察值或变量标记为无效,不添加到分析中。
这种方法适用于没有足够样本数量来补充缺失值的情况。
需要注意的是,在任何处理缺失值的方法中,都应该对处理后的数据进行检查和验证,以确保处理的有效性和准确性。
填补缺失值的方法
填补缺失值的方法
x
一、常用的填补缺失值的方法
1. 平均值法:将缺失值替换为该变量所有取值的平均数。
这种方法对数值型变量的缺失值比较有效,可以用于描述性统计分析,但其综合的统计指标会受到影响,在机器学习过程中,会带来结果的偏差。
2. 中位数法:类似于平均值法,将缺失值替换为该变量所有取值的中位数。
对于数值变量,中位数法比平均值法有效,能够抵消异常数据对整体统计指标的影响,但机器学习过程中仍存在偏差。
3. 最频繁值法:将缺失值替换为该变量取值频率最高的值。
适合处理类别型变量的缺失值,但可能会引入额外的偏差,因此在机器学习过程中需要小心处理。
4. 随机森林法:采用随机森林模型,将缺失值预测出来,是一种有效的方法,模型的预测结果较其他方法准确。
- 1 -。
缺失数据的插补方法简述.
缺失数据的插补方法简述龙信数据(北京有限公司数据研发部戴丽摘要:在各种实用的数据库中,数据属性值缺失的情况经常发全甚至是不可避免的。
因此,在大多数情况下,信息系统是不完备的,或者说存在某种程度的不完备。
对数据挖掘来说,空值的存在造成了有用信息的丢失、数据不确定性更为显著等不良影响,因此,空缺的数据需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。
本文将主要针对缺失数据的补全方法进行简要介绍。
关键词:数据缺失数据处理数据质量一、背景概述在各种实用的数据库中,数据属性值缺失的情况经常发全甚至是不可避免的。
因此,在大多数情况下,信息系统是不完备的,或者说存在某种程度的不完备。
数据缺失在许多研究领域都是一个复杂的问题。
对数据挖掘来说,空值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;第二,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;第三,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。
数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。
因此,空缺的数据需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。
二、缺失数据常见插补方法简述(一个案剔除法最常见、最简单的处理缺失数据的方法是个案剔除法,也是很多统计软件(诸如如SPSS和SAS默认的缺失值处理方法。
在这种方法中如果任何一个变量含有缺失数据的话,就把相对应的个案从分析样本中剔除。
如果缺失值所占比例比较小的话,这一方法十分有效。
至于具体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距。
有学者认为应在5%以下,也有学者认为20%以下即可。
然而,这种方法却有很大的局限性。
它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。
在样本量较小的情况下,删除少量对象就足以严重影响到数据的客观性和结果的正确性。
经济统计学中的缺失数据处理
经济统计学中的缺失数据处理在经济统计学中,数据是分析和研究的基础,然而,现实中经常会出现数据缺失的情况。
缺失数据对于经济统计学的研究和分析带来了一定的挑战,因此如何处理缺失数据成为了一个重要的课题。
一、缺失数据的原因缺失数据的原因多种多样,例如调查对象的拒绝回答、样本损失、数据采集过程中的错误等。
这些原因导致了数据的不完整性,进而影响了经济统计学的研究和分析结果的准确性。
二、缺失数据的影响缺失数据会对经济统计学的分析结果产生一定的偏差。
在实际应用中,研究人员往往会忽略缺失数据或者直接删除含有缺失数据的样本,这样处理的结果会导致样本的偏倚,从而影响研究结论的有效性。
三、缺失数据处理方法为了解决缺失数据带来的问题,经济统计学提出了一系列的缺失数据处理方法。
1. 完全案例分析法完全案例分析法是指在处理缺失数据时,只使用完全数据的样本进行分析。
这种方法简单直接,但是会忽略了缺失数据的潜在信息,从而可能导致结果的偏差。
2. 删除法删除法是指在处理缺失数据时,直接删除含有缺失数据的样本。
这种方法的优点是简单易行,但是会导致样本的偏倚,从而影响分析结果的准确性。
3. 插补法插补法是指通过一定的方法对缺失数据进行估计和填补。
常用的插补方法包括均值插补、回归插补、多重插补等。
这些方法可以利用已有的数据信息,对缺失数据进行合理的估计,从而减少数据的偏差。
4. 敏感性分析敏感性分析是指在进行数据分析时,对于缺失数据的处理方法进行敏感性检验。
通过对比不同处理方法得到的结果,评估缺失数据处理方法对研究结论的影响。
这种方法可以帮助研究人员选择合适的缺失数据处理方法,提高研究结论的可靠性。
四、缺失数据处理的注意事项在进行缺失数据处理时,需要注意以下几点:1. 缺失数据的类型不同类型的缺失数据需要采用不同的处理方法。
例如,如果缺失数据是随机缺失,可以使用插补法进行处理;如果缺失数据是非随机缺失,需要进行更加细致的分析和处理。
2. 数据的完整性在进行缺失数据处理之前,需要对数据的完整性进行检查。
一种电力数据补数方法及系统
专利名称:一种电力数据补数方法及系统
专利类型:发明专利
发明人:郭明星,沈晓岚,刘盼盼,王晓晖,莫阮清,吴恩琦,戴峥,傅晨,李灏恩
申请号:CN202111268373.3
申请日:20211029
公开号:CN113972664A
公开日:
20220125
专利内容由知识产权出版社提供
摘要:本发明涉及一种电力数据补数方法及系统,所述系统包括以下步骤:S1:获取电力设备的数据,并获取电力设备的负荷缺失点;S2:对电力设备的不同类型分别进行缺失数据计算;S3:对电力设备的缺失数据进行补数;S4:重复步骤S1~S3直到负荷缺失点占比小于预设阈值。
与现有技术相比,本发明基于主变负荷、出线开关负荷和用户负荷三个层级进行缺失分析,并逐级进行缺失补齐,提高电力电量数据的完整性。
申请人:国网上海市电力公司
地址:200122 上海市浦东新区自由贸易试验区源深路1122号
国籍:CN
代理机构:上海科盛知识产权代理有限公司
代理人:丁云
更多信息请下载全文后查看。
电站锅炉缺失数据的遗传自适应填补方法
电站锅炉缺失数据的遗传自适应填补方法任志伟;黄景涛;罗威;江爱朋【摘要】In order to improve combustion efficiency and reduce pollution emissions, the operation-based modeling and optimization of the data is an effective way. But the operation data often suffers value missing inevitably due to sensor error, transmission error, etc, which leads to incomplete information and the data can not be directly modelled and optimized. To solve this problem, a supplement algorithm based on time correlation was used for missing value supplement, which is based on the principle of linear interpolation to fill the values missed during stationary operation process. As for the non-stationary operating conditions, the class-mean (CM) supplement method was proposed and its classification result was corrected with weighting to further improve the supplement accuracy. On this basis an adaptive weighting class-mean supplement method was presented based on genetic algorithm and this method was tested with actual operation data. The result showed that this method had higher supplement accuracy.%为提高燃烧效率及降低污染排放,基于运行数据的建模与优化是一种有效途径,但现场运行数据因传感器故障或传输失败等原因不可避免地存在缺失值,进而导致信息不完备,无法直接进行建模与优化.针对这一问题,采用一种基于时间相关性的缺失值填补算法,基于线性插值原理对平稳运行过程的缺失数据进行填补;针对非平稳运行工况,提出一种类平均值填补算法,并对其分类结果进行加权修正,进一步提高填补准确性;在此基础上,提出一种基于遗传算法的自适应加权类平均值填补方法,并在实际数据上进行测试分析,结果表明该方法具有更高的填补准确率.【期刊名称】《兰州理工大学学报》【年(卷),期】2013(039)002【总页数】5页(P75-79)【关键词】电站锅炉;缺失值填补;类均值填补法;遗传算法;自适应加权【作者】任志伟;黄景涛;罗威;江爱朋【作者单位】杭州电子科技大学自动化学院,浙江杭州310018【正文语种】中文【中图分类】TP274.2;TK224针对电站锅炉运行的监测数据包含有机组负荷、煤粉细度等数以百计的监测属性,利用这些数据进行驱动建模,不仅可以提取有用的知识与规则,检测出锅炉各部件的工作状态,及时进行修护从而预防设备事故的发生,还可以实现锅炉性能的优化,提高锅炉的燃烧效率并降低其污染排放[1].但实际中这些监测数据不可避免地含有缺失值,严重影响人们利用整个数据集进行驱动建模,因此,必须对缺失值进行处理.缺失值的处理方法粗略地可以分为两类,即删除不完整数据的方法和基于填补思想的方法[2].将含有缺失值的数据元组删除会造成数据的极大浪费,因为在这些数据元组中除了缺失值以外的其他数据仍然是真实可用的,删除原始数据元组会降低分析结果的准确性.此外,反映电站锅炉某一时刻状况的监测数据只能被记录一次,因此缺失的数据是无法被重新采集的,只能被尽量准确地填补[3].基于填补思想的方法是当前的一个研究热点,方法大体可分为三个方向[4-6]:分类、聚类、关联.如贝叶斯填充法、KNN分类填充法等称为分类填补法;聚类方法是通过物以类聚的思想对缺失值进行填补;关联规则算法如基于关联规则的C4.5填补法.另外,统计学领域对缺失数据填补有着广泛的研究[7],如均值填充法、基于极大似然估计的算法等,这些方法都以数学理论为基础,为数据缺失问题的解决找到了理论依据.虽然在缺失值填补方面已有不少研究成果,但针对电站锅炉数据驱动建模中的数据缺失问题研究较少,考虑到电站锅炉数据属性多、数据量大的特点,本文研究基于遗传算法的自适应优化加权填补方法.1 基于统计方法的缺失值填补基于统计学的填补主要是通过对数据进行分析,得出数据的统计信息,然后利用这些信息填补缺失值.1.1 BA填补算法实际运行中,电站锅炉的监测数据如送风机电流等属性都是连续变化的,这些数据在较短时间内趋于稳态,具有一定的时间相关性.因此,当某一时刻的监测数据缺失时,可以根据这种时间相关性,利用与缺失值前后相邻时刻的两个完整数据对缺失值进行填补,即前后相邻(before and after,BA)填补算法.由于线性函数能够较好地近似一个较短时间周期内的感知数据变化曲线且易于计算,因此本文通过在已知数据上进行线性插值、构建分段线性函数来刻画数据的变化,并据此来估计缺失数据.对于某一数据属性,由其任意的两个时刻t B、t A的感知数据x B和x A构建的线性插值函数可以表示为对于某属性的监测数据在某一时刻t缺失时,BA填补法首先找到距离此时刻最近的前后两个时刻t B和t A(t B<t<t A),这两个时刻监测数据分别为x B和x A,然后根据式(1)来估计时刻t该属性的缺失值x BA.BA法可以对较短时间内平稳变化的监测数据缺失值取得较好的填补效果,但对非平稳变化的监测数据缺失值的估计效果却较差.例如电站锅炉的机组负荷改变时,各属性的监测数据会发生比较明显的变化,BA算法无法对这种情况下的缺失数据进行有效估计.因此,为了对非平稳变化的监测数据缺失值进行较准确的估计,本文采用一种类均值(class-mean,CM)算法.1.2 类均值填补算法CM填补算法首先通过相关性分析,得出与缺失属性关联性较高的某一属性,将其作为标准对缺失属性进行分组,然后用所分各组的均值去填补相应的缺失值.该方法适用于变化明显的数据缺失值的填补,而且操作比较简单[8].设数据集可表示成如下的矩阵:若其中x ij(i=1,2,…,n;j=1,2,…,m)为缺失项,则分层填补法实现如下:根据与第j个属性相关联的其他属性将总体分为K 个组,若x ij在第k(k=1,2,…,K)组中,则x ij=μij,其中μij为x ij所在的第k组中第j个属性的平均值.相关性系数用下式表示[9]:式中:D(X)、D(Y)为变量 X、Y 的方差;cov(X,Y)为X与Y的协方差,计算如下:E(X)、E(Y)分别为变量X、Y 的期望.然而,用与缺失属性相关联的属性分层得到的结果很可能与实际分组不一致,或者缺失属性本身就不是确切可分的,用某一组的均值填补缺失值就显得有些粗糙,可能会产生较大的偏差.针对这个缺点,本文采用下面的加权类平均填补法.1.3 加权类平均填补算法加权类平均填补算法(weighted class-mean,WCM)考虑了在其他组中的可能,利用先验知识给其他组的均值赋予不同的权重加入到所分组的均值中作为缺失数据的最终填补值.根据与第j个属性相关联的其他属性或属性组将总体分为K个类,记为C 1,C 2,…,Ck,计算K 个类中第j个属性的均值,记为μ1,μ2,…,μk,则式中:ωk是各个组的权重系数,且=1.其填补过程如图1所示.图1 WCM填补算法流程图Fig.1 Flow-chart of WCM supplement algorithm 1.4 基于遗传算法的自适应加权填补算法综上所述,当监测数据在较短时间内平稳变化时,可以采用BA算法对其缺失值进行估计;当监测数据变化明显、连续缺失的数据较多时,可以采用WCM算法估计缺失值.然而,实际中由于缺失值的存在,无法得知实际监测数据在这段时间内的具体变化状况.因此,在许多情况下人们无法确定采用哪种算法能够更准确地估计缺失值.本文将上述两种方法进行加权处理,并采用遗传算法(genetic algorithm,GA)对权值进行优化,无论缺失的监测数据处于何种变化,均能给出较准确的估计值,构成基于遗传算法的自适应加权填补算法(GA-BA-WCM adaptive weighting,GABW).GABW填补算法的主要思想是:对于数据集中的缺失值,首先分别用BA和WCM算法对其进行估计,然后利用遗传算法对这两种算法求出来的估计值进行权值分配求均值.定义由BA算法求出来的估计值为x BA,由WCM算法求出来的估计值为x WCM,则由BW算法求出来的该属性此时刻的估计值x GABW为其中ω是x BA对应的权值系数(0≤ω≤1).由于遗传算法是寻求组合优化最优解的有效工具[11],本文采用遗传算法实现权值优化.遗传算法的基本运算过程为:① 初始化:设置进化代数计数器t=0,最大进化代数为T,交叉概率p c及变异概率p m,随机生成M 个个体作为初始群体p(0);② 个体评价:计算群体p(t)中各个个体的适应度;③ 选择运算:对群体p(t)进行选择操作,得到中间群体;④ 交叉运算:把交叉算子作用于中间群体;⑤ 变异运算:把变异算子作用于交叉后所得到的群体,群体p(t)经过选择、交叉、变异运算之后得到第(t+1)代群体p(t+1);⑥ 若t<T,则令t=t+1,转②;若t≤T,则以得到的具有最大适应度的个体作为最优解,终止计算.2 实验及结果分析2.1 实验方法本文实验所用数据为测试某电厂4#锅炉NOx排放的试验数据,该数据是在3个典型负荷240、270、300 MW下采集的,包含448个属性,每个属性采集到200个值,采集间隔为5 min.但由于传感器问题等原因使得这些数据含有少量缺失值,如果直接作为本文实验数据,则对所得结果无法进行评价,因此需首先删除含有缺失值的行和列,获得完整的数据集,然后根据算法的需要随机删除一定比例的数据后得到测试数据,最后使用各种算法对测试数据中的缺失值进行估计,并将估计值与真实值进行比较.由于空预器出口氧量与锅炉内煤粉燃烧是否充分有着密切的关系,且其在实际中不易测量,本文选取空预器B出口氧量作为目标属性,对其所含缺失值进行填补研究.对缺失值的估计精度采用均方根误差(root mean squared error,RMSerror)进行评价[11]:式中:R i为真实值,Ⅰi是估计值,N 为缺失值个数.计算得到的RMSerror值越小,其估计值就越准确,反之结果就越差.本文从电站锅炉不同机组负荷和不同缺失率两个方面来分别测试BA、WCM和GABW三种算法的性能,并对各算法的实验结果进行比较分析.GABW算法中的遗传算法使用Matlab7.1中时,认为已求得满意解.的遗传算法工具箱,式(6)为其目标函数,其参数设置为:种群大小50,交叉概率80%,变异概率5%,繁殖代数300,当2.2 实验结果分别对机组负荷为300、270、240 MW 及变负荷时所采集的电站锅炉数据集,产生不同缺失率的测试数据,测试这三种算法的性能,并对比分析.实验结果如图2~5所示.图2 各算法对300 MW数据集的填补结果Fig.2 Supplement results from different methods for data set of 300 MW图3 各算法对270 MW数据集的填补结果Fig.3 Supplement results from different methods for data set of 270 MW图4 各算法对240 MW数据集的填补结果Fig.4 Supplement results from different methods for data set of 240 MW图5 各算法对变负荷数据集的填补结果Fig.5 Supplement results from different methods for varying load data set从图中可以看出,无论机组负荷处于哪种状态,随着数据缺失率的增加,BA和WCM算法的填补准确率都随之降低.这是因为数据缺失率的增加势必会造成相邻时刻数据缺失的几率增大,从而导致缺失值与前后相邻数据之间的时间相关性较低,以致BA算法的估计误差增大.对于WCM算法,缺失数据的增多会直接影响缺失属性与其他属性之间的相关性分析,导致选择的标准属性与缺失属性的相关性不高,从而降低了填补准确率.由于GABW算法是BA和WCM算法的加权结合,所以在缺失率增加的情况下,其填补准确率表现出了同样的特点.图2~4都是在机组负荷不变即数据变化趋于稳态下的实验结果.由图可知,当缺失率大约不超过20%时,由于缺失值与其前后相邻数据的时间相关性较大,所以BA 算法表现出较高的填补准确率,且优于WCM算法.随着缺失率的继续增大,BA算法的优势明显下降,而WCM算法通过分组,有效避免了对时间相关性的依赖,且由于受缺失率增加的影响相对较小,从而其填补准确率超过了BA算法.由此可得,对于变化平稳数据的缺失值,BA算法相对WCM算法具有较高的填补准确率,但在缺失率较大时,WCM算法要优于BA算法.由于GABW算法可以有效分配给BA和WCM算法中较准确估计值更大权重,因此GABW算法的估计值始终接近较准确的估计值.通过图5与图2~4的对比,可以有效验证以上所得结论,只是在机组负荷改变时,缺失值与其前后相邻数据之间的时间相关性进一步降低,而数据分组时标准属性的选择却相对明显,利用分组均值进行填补的优势得以有效显现,所以只有当数据缺失率很小的时候,BA算法才表现出了一定的优势,而WCM算法的填补准确率随着数据缺失率的增大很快超过了BA算法.GABW算法仍然表现出了较高的准确率和稳定性.3 结论实际中的电站锅炉监测数据含有缺失值,严重影响利用这些数据进行驱动建模的有效性,针对这一问题,本文采用基于统计学的填补算法.首先,对于平稳状态下缺失率不高的监测数据,本文采用一种基于时间相关性的填补算法,实验证明该算法具有较高的填补准确率.其次,对于变负荷或缺失率较高的监测数据,本文给出一种类均值填补法,并通过对其分组结果进行加权修正,实现了对缺失值的准确填补.最后,综合考虑电站锅炉实际运行的状况,提出一种基于遗传算法的集前两种算法优点于一体的自适应填补算法,无论在稳负荷还是变负荷以及缺失率较高的情况下,该算法都能取得较好的填补精度,具有较为理想的准确率与稳定性.然而,本文所用算法用于填补电站锅炉其他属性缺失数据的效果还有待验证,尤其是如何进一步提高缺失率较高以及缺失属性较多时的填补准确率需要进一步研究. 参考文献:[1]刘吉臻,杨光军,谭文,等.基于数据驱动的电站燃烧稳定度综合评价[J].中国电机工程学报,2007,27(35):1-6.[2] HRON K,TEMPL M,FILZMOSER P.Imputation of missing values for compositional data using classical and robust methods[J].Computational Statistics and Data Analysis,2010,54:3095-3107. [3]潘立强,李建中,骆吉洲,等.传感器网络中一种基于时-空相关性的缺失值估计算法[J].计算机学报,2010,33(1):1-11.[4] VATEEKUL P,SARINNAPAKOM K.Tree-based approach to missing data imputation [C]//IEEE International Conference on Data Mining Workshops.Miami,Florida:[s.n.],2009:70-75.[5] GARCIA-LAECINA P J,SANCHO-GOMEZ J L.K nearest neighbours with mutual information for simultaneous classification and missing data imputation [J].Neurocomputing,2009,72:1483-1493.[6] LIAO Zaifei,LU Xinjie,YANG Tian,et al.Missing data imputation:a fuzzy K-means clustering algorithm over sliding window [C]//6thInternational Conference on Fuzzy Systems and KnowledgeDiscovery.Tianjin:[s.n.],2009:133-138.[7] SMARAGDIS P,RAJ B,SHASHANKA M.Missing data imputation for spectral audio signals [C]//IEEE International workshop on Machine Learning for Signal Processing.Grenoble:[s.n.],2009:1-6.[8]纪燕霞.数据挖掘中处理不完全数据的类均值方法及其扩展[D].西安:长安大学,2010.[9]刘焕章,刘吉臻,常太华,等.电站锅炉参数数据分析[J].热能动力工程,2008,23(2):174-177.[10]雷英杰,张善文,李继武,等.MATLAB遗传算法工具箱及应用[M].西安:西安电子科技大学出版社,2005.[11]杨涛,骆嘉伟,王艳,等.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运行工况, 提出一种类平均值填补算法, 并对其分类结果进行加权修正, 进一步提高填补准确性; 在此基础上, 提出
一
种基于遗传算 法的 自适应加权 类平 均值 填补方法 , 并在实 际数据上 进行 测试分 析, 结果 表 明该 方法具 有更高 的
填补准确率. 关键词 :电站锅 炉;缺失值填补 ;类均 值填补法 ; 遗传 算法;自适应加权
第3 9 卷 第2 期
2 0 1 3 年 4 月
兰
州
理
工
大
学
学
报
J o u r n a l o f La n z h o u Un i v e r s i t y o f Te c h n o l o g y
Vo L 3 9 N0 . 2 Ap r . 2 0 1 3
( 1 .E l e c t r o n i c a n dI n f o r ma t i o nE n g i n e e i r n gC o l l e g e ,He n a nUn i v e r s i t yo f S c i e n c ea n dTe c h n o l o g y , L u o y a g 4 n 7 1 0 0 3 , C h i n a ; 2 .S c h o o l o f Au — t o ma t i o n ,Ha gz n h o u Di a n z i Un i v e r s i t y ,Ha gz n h o u 3 1 0 0 1 8 , Ch i n a )
i n g i n e v i t a b l y d u e t o s e n s o r e r r o r ,t r a n s mi s s i o n e r r o r ,e t c ,wh i c h l c a d s t o i n c o mp l e t e i n f o r ma t i o n a n d t h e d a t a c a n n o t b e d i r e c t l y mo d e l l e d a n d o p t i mi z e d . To s o l v e t h i s p r o b l e m ,a s u p p l e me n t a l g o r i t h m b a s e d o n t i me c o r r e l a t i o n wa s u s e d f o r mi s s i n g v a l u e s u p p l e me n t ,w h i c h i s b a s e d o n t h e p r i n c i p l e o f l i n e a r i n t e r p o l a — t i o n t o f i l l t h e v a l u e s mi s s e d d u r i n g s t a t i o n a r y o p e r a t i o n p r o c e s s .A s f o r t h e n o n - s t a t i o n a r y o p e r a t i n g c o n —
Ab s t r a c t .I n o r d e r t o i mp r o v e c o mb u s t i o n e f f i c i e n c y a n d r e d u c e p o l l u t i o n e mi s s i o n s ,t h e o p e r a t i o n - b a s e d
mo d e l i n g a n d o p t i mi z a t i o n o f t h e d a t a i s a n e f f e c t i v e wa y .Bu t t h e o p e r a t i o n d a t a o f t e n s u f f e r s v a l u e mi s s —
文 章 编 号 :1 6 7 3 - 5 1 9 6 ( 2 0 1 3 ) 0 2 - 0 0 7 5 — 0 5
电站锅 炉缺 失数据的遗传 自适 应填 补方法
任 志伟 ,黄景涛 ,罗 威 ,江爱朋
( 1 . 河 南科技 大学 电子信息工程学院 , 河南 洛阳 4 7 1 0 2 3 ; 2 .杭州电子科技大学 自 动化学院 , 浙江 杭州 3 1 0 0 1 8 )
摘要 : 为提 高燃烧 效率及 降低 污染排放 , 基 于运行 数据的建模 与优化是一种有效途径 , 但现场运行数据 因传感器故 障或传输失败等原 因不可避 免地存 在缺 失值 , 进 而导致信 息不完备 , 无 法直接进 行建 模 与优 化. 针对这 一问题, 采
用一种基于 时间相 关性的缺 失值填 补算法 , 基 于线性插 值原 理对平 稳运行 过程 的缺 失数 据进行 填补; 针对非平 稳
中图分 类号 : T P 2 7 4 . 2 ;பைடு நூலகம் K2 2 4 文献标识码 : A
Ge n e t i c a d o p t i v e s u p p l e me n t me t h o d f o r d a t a mi s s i n g o f b o i l e r i n p o we r p l a n t s RE N Z h i - we i ,HUANG J i n g - t a o ,L UO We i , J I ANG Ai - p e n g 2