基于大数据分析的输变电设备状态数据异常检测方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
鉴于以上总结,本文提出一种基于大数据分析 的设备状态数据的异常快速检测方法。计算出设备 单状态量数据基于时间轴的转移概率序列,同时将 设备多状态量间的相关关系通过无监督聚类的方 法描述,并建立异常快速检测模型。相对于传统的 阈值判定方法,本方法既简化了多维参量的复杂相 关关系,又能检测出设备运行状态的异常类型及异 常发生时间,实现异常的实时检测。
, Ci
(t))
(5)
通过反复循环和修正,确保 xt 距其所属节点的 距离最小,如式(6)所示:
54
中国电机工程学报
第 35 卷
⎧⎪⎨⎪⎩ CCii
(t (t
+ 1) + 1)
= =
Ci (t) + γ Ci (t),
(t )[ xt
− Ci (t)],
i ∈ N j (t) i ∉ N j (t)
基金项目:国家 863 高技术基金项目(SS2012AA050803);国家电网 公司科技项目(520626140020)。
The National High Technology Research and Development of China 863 Program (SS2012AA050803); State Grid Science and Technology Program (520626140020).
(2)
σ 2 = (α 2μ 2 + λ 2 + μe2 ) / (1 − α 2 )
(3)
对于每个在线监测状态量,正常状态下都不应
超过相应的限值,因此假设对所有的 t,xt 都属于区 间[a,b] ,即 a≤xt≤b。
对所有 a≤xt+k≤b,可以推导出:
a−α k xt ≤et+k +α et+k−1 +"+α k−1et+1 ≤b−α k xt (4)
2)设备状态量之间的相关关系及内Βιβλιοθήκη Baidu机理复 杂,难以用函数精确描述[15-16]。如文献[15]通过监 测导线覆冰厚度来判断导线的异常覆冰情况,其等 值覆冰厚度通过导线张力、导线倾角、风速的计算 公式求出,但公式中参数根据线路不同而存在差 异,覆冰计算结果不准确;
3)输变电设备状态数据(如在线监测数据)采集 周期短、数据量大,通常以数据流的形式传输到评 估后台,需要快速检出数据流中的异常。文献[17] 通过时间序列模型对电网的趋势进行动态检测,能 够及时检测出电网频率、电压等的短时漂移,但不 足之处在于其无法作用于大量数据流的检测,实时 性差。文献[18]对滑动窗口中的负荷数据通过核平 滑算法及时间序列建模,检测出负荷数据中的异常 值,但该方法的不足在于数据流滑动窗口的大小难 以确定,而且对每个窗口中的数据要重新拟合模 型,不利于异常地快速检出。
KEY WORDS: big data; anomaly detection; time series; neural network; unsupervised clustering
摘要:传统的阈值判定方法难以准确检测输变电设备的状态 异常,该文提出一种基于时间序列分析和无监督学习等大数 据分析的异常检测方法,从数据演化过程、数据关联的全新 角度实现异常检测。通过时间序列模型和自适应神经网络对 历史数据潜在的特征进行挖掘,并将数据对时间的动态变化 规律用转移概率序列表示。针对多维的监测数据,运用无监
t −1
∑ xt = α xt−1 + et = α t x0 + α iet−i (α < 1)
(1)
i=0
式中:xt 为在线监测数据的时间序列;et 为正态分 布序列,et~N(μe,λ2),因此 xt 服从 N(μ,σ2)的正态分 布,其中μ和σ满足如下关系:
μ = μe / (1 − α )
(6)
式中γ(t)为学习速率,取值在 0~1 之间,随着 t 的增
大而减小。
对于单状态量的时间序列 xt,通过 SOM 训练
完成后,xt 就转化为线性空间中的离散点时间序列
Ct∈{C1,C2,…,CN}:
Ct = Ci(xt )
(7)
这表示对每一个时间点 t,Ct 表示最接近于 xt 的节点,因此 Ct 就代表了对时间序列 xt 的量化。 1.3 时间序列变化过程的挖掘
第 35 卷 第 1 期 52 2015 年 1 月 5 日
中国电机工程学报 Proceedings of the CSEE
Vol.35 No.1 Jan.5, 2015 ©2015 Chin.Soc.for Elec.Eng.
DOI:10.13334/j.0258-8013.pcsee.2015.01.007 文章编号:0258-8013 (2015) 01-0052-08 中图分类号:TM 76
1 单状态量数据流特征量的提取
1.1 单状态量数据的时间序列自回归模型 时间序列的自回归模型(auto-regressive,AR)
适用于很多工业过程,其特点是 AR 系统记忆性强, 在时间 t 的值依赖于从前时刻的行为,这与设备运 行过程中的低动态性相符。输变电设备在正常运行
过程中一部分状态量的变化较小,如导线拉力、接 地电流等,这些状态量数据都属于平稳序列,可直 接用 AR(1)拟合;另一部分状态量呈日周期性变化, 但变化幅值不大,如油温、环境温度等,去除其日 周期性后也可通过 AR(1)拟合。因此,对状态数据 通过一阶 AR 模型拟合[19],公式如下:
YAN Yingjie1, SHENG Gehao1, CHEN Yufeng2, JIANG Xiuchen1,GUO Zhihong2, DU Xiuming2
(1. Department of Electrical Engineering, Shanghai Jiao Tong University, Minhang District, Shanghai 200240, China;
出其异常状态。
1.2 自组织神经网络对时间序列的量化
自组织神经网络(self organized maps,SOM)工
作原理是通过无监督学习方法,让竞争层各神经元
通过竞争与输入模式进行匹配,最后仅有一个神经
元成为竞争的胜者,这一获取神经元的输入就代表
对输入模式的分类[20]。由于无监督学习的训练样本
2. Electric Power Reasearch Institute of Shandong Power Supply Company of State Grid, Jinan 250002, Shandong Province, China)
ABSTRACT: To detect the anomaly state of power equipment, the traditional method threshold value determination is unable to ensure the accuracy. This paper proposed a method for anomaly detection of state data of power equipment based on big data analysis from time series analysis and unsupervised learning, thus a new perspective of data association and data evolution was achieved. Mining the potential features through time series model and self-organized maps, the method put the original data series into the transition probability series. To simplify the relationship between the multidimensional state sequences, the unsupervised learning was used to form several clusters. The method proposed the anomaly detection framework which has a rapid detection speed and is applicable for the state data flow. At last, the effectiveness of the method is verified by being combined with running instances and the result shows that the abnormal operating state can be rapidly detected.
第1期
严英杰等:基于大数据分析的输变电设备状态数据异常检测方法
53
型[11]、遗传规划算法[12]、分类算法[13]等。大数据分 析技术通过寻找设备信息间的关联关系,为提供设 备异常检测准确性提供了全新的解决方法和思路。
综合国内外的研究文献,总结出输变电设备异 常检测的难点在于:
1)状态数据大部分是正常数据,异常数据所 占的比例很小,按照规范中设定的阈值难以划定正 常数据和异常数据的边界。如文献[14]提出一种面 向设备群体的工况数据异常检测方法,通过检测区 间分割算法、统计理论检测出设备检测数据的阈值 异常,但该文献的不足在于仅能检测出数据的阈值 异常,且检测区间长度难以确定;
中不含有期望输出,没有任何先验知识,因此适用
于数据量大、不含标签的状态监测数据。
运用 SOM 能进行无监督分类的特点,将整个
序列 xt 作为 SOM 的输入节点,序列 C={C1,C2,…,CN} 作为输出节点,对每一个 xt 训练其属于节点 Cj 的公 式为
j
=
i( xt
)
=
arg
min i
d
( xt
由于 et~N(μe,λ2),因此由公式(4)可得仅当α小 于一个限值α0 时,整个序列可以满足属于区间 [a, b]。
由于输变电设备的绝缘劣化过程或潜伏性故
障发展缓慢,因此当设备处于异常状态时,监测到
的参量往往未超出导则或规程中的限值,从而难以
察觉。根据以上结论可知,对于没有超出状态量限
值的在线监测数据,单纯地用 AR 模型不能够检测
督聚类方法简化各参量之间的相关关系,从而避免参量间相 关性难以确定的问题。提出异常检测体系,并使之适用于输 变电设备状态监测数据流,实现数据流中异常的快速检出。 最后结合运行实例验证了提出方法的有效性,表明本方法能 快速检测出设备的异常运行状态。
关键词:大数据;异常检测;时间序列;神经网络;无监督 聚类
由于设备状态数据(包括在线监测、带电检测、 预防性试验数据等)体量大、类型繁多[7-8]的特点, 可以将大数据技术引入到设备异常检测中,充分挖 掘状态数据的异常信息。近两年大数据技术在互联 网、金融、物流领域的发展迅速,体现出极高的社 会价值[9],而在能源电力行业大数据技术正处于起 步阶段,国内外文献中在电网和设备异常检测领域 的大数 据技 术有时 间序 列分析[10]、 马尔可 夫模
0 引言
输变电设备在实际运行过程中会受到过负荷、 过电压、内部绝缘老化、自然环境等异常事件影响, 这些异常运行状态会导致设备缺陷、故障的发 生[1-3],因此对设备状态进行异常检测具有很强的必 要性。在设备的实际运维中,大都是基于单一系统 的部分设备信息,采用简单阈值判定方法来检测异 常[4-6]。这种传统的阈值判定具有局限性,一方面设 备信息利用率和状态评价正确率都偏低,另一方面 难以检测出设备的潜伏性故障及故障类别,而且相 关规范标准[4-6]中的固定阈值难以结合设备运行工 况的差异性。
基于大数据分析的输变电设备状态数据 异常检测方法
严英杰 1,盛戈皞 1,陈玉峰 2,江秀臣 1,郭志红 2,杜修明 2
(1.上海交通大学电气工程系,上海市 闵行区 200240; 2.国网山东省电力公司电力科学研究院,山东省 济南市 250002)
An Method for Anomaly Detection of State Information of Power Equipment Based on Big Data Analysis
, Ci
(t))
(5)
通过反复循环和修正,确保 xt 距其所属节点的 距离最小,如式(6)所示:
54
中国电机工程学报
第 35 卷
⎧⎪⎨⎪⎩ CCii
(t (t
+ 1) + 1)
= =
Ci (t) + γ Ci (t),
(t )[ xt
− Ci (t)],
i ∈ N j (t) i ∉ N j (t)
基金项目:国家 863 高技术基金项目(SS2012AA050803);国家电网 公司科技项目(520626140020)。
The National High Technology Research and Development of China 863 Program (SS2012AA050803); State Grid Science and Technology Program (520626140020).
(2)
σ 2 = (α 2μ 2 + λ 2 + μe2 ) / (1 − α 2 )
(3)
对于每个在线监测状态量,正常状态下都不应
超过相应的限值,因此假设对所有的 t,xt 都属于区 间[a,b] ,即 a≤xt≤b。
对所有 a≤xt+k≤b,可以推导出:
a−α k xt ≤et+k +α et+k−1 +"+α k−1et+1 ≤b−α k xt (4)
2)设备状态量之间的相关关系及内Βιβλιοθήκη Baidu机理复 杂,难以用函数精确描述[15-16]。如文献[15]通过监 测导线覆冰厚度来判断导线的异常覆冰情况,其等 值覆冰厚度通过导线张力、导线倾角、风速的计算 公式求出,但公式中参数根据线路不同而存在差 异,覆冰计算结果不准确;
3)输变电设备状态数据(如在线监测数据)采集 周期短、数据量大,通常以数据流的形式传输到评 估后台,需要快速检出数据流中的异常。文献[17] 通过时间序列模型对电网的趋势进行动态检测,能 够及时检测出电网频率、电压等的短时漂移,但不 足之处在于其无法作用于大量数据流的检测,实时 性差。文献[18]对滑动窗口中的负荷数据通过核平 滑算法及时间序列建模,检测出负荷数据中的异常 值,但该方法的不足在于数据流滑动窗口的大小难 以确定,而且对每个窗口中的数据要重新拟合模 型,不利于异常地快速检出。
KEY WORDS: big data; anomaly detection; time series; neural network; unsupervised clustering
摘要:传统的阈值判定方法难以准确检测输变电设备的状态 异常,该文提出一种基于时间序列分析和无监督学习等大数 据分析的异常检测方法,从数据演化过程、数据关联的全新 角度实现异常检测。通过时间序列模型和自适应神经网络对 历史数据潜在的特征进行挖掘,并将数据对时间的动态变化 规律用转移概率序列表示。针对多维的监测数据,运用无监
t −1
∑ xt = α xt−1 + et = α t x0 + α iet−i (α < 1)
(1)
i=0
式中:xt 为在线监测数据的时间序列;et 为正态分 布序列,et~N(μe,λ2),因此 xt 服从 N(μ,σ2)的正态分 布,其中μ和σ满足如下关系:
μ = μe / (1 − α )
(6)
式中γ(t)为学习速率,取值在 0~1 之间,随着 t 的增
大而减小。
对于单状态量的时间序列 xt,通过 SOM 训练
完成后,xt 就转化为线性空间中的离散点时间序列
Ct∈{C1,C2,…,CN}:
Ct = Ci(xt )
(7)
这表示对每一个时间点 t,Ct 表示最接近于 xt 的节点,因此 Ct 就代表了对时间序列 xt 的量化。 1.3 时间序列变化过程的挖掘
第 35 卷 第 1 期 52 2015 年 1 月 5 日
中国电机工程学报 Proceedings of the CSEE
Vol.35 No.1 Jan.5, 2015 ©2015 Chin.Soc.for Elec.Eng.
DOI:10.13334/j.0258-8013.pcsee.2015.01.007 文章编号:0258-8013 (2015) 01-0052-08 中图分类号:TM 76
1 单状态量数据流特征量的提取
1.1 单状态量数据的时间序列自回归模型 时间序列的自回归模型(auto-regressive,AR)
适用于很多工业过程,其特点是 AR 系统记忆性强, 在时间 t 的值依赖于从前时刻的行为,这与设备运 行过程中的低动态性相符。输变电设备在正常运行
过程中一部分状态量的变化较小,如导线拉力、接 地电流等,这些状态量数据都属于平稳序列,可直 接用 AR(1)拟合;另一部分状态量呈日周期性变化, 但变化幅值不大,如油温、环境温度等,去除其日 周期性后也可通过 AR(1)拟合。因此,对状态数据 通过一阶 AR 模型拟合[19],公式如下:
YAN Yingjie1, SHENG Gehao1, CHEN Yufeng2, JIANG Xiuchen1,GUO Zhihong2, DU Xiuming2
(1. Department of Electrical Engineering, Shanghai Jiao Tong University, Minhang District, Shanghai 200240, China;
出其异常状态。
1.2 自组织神经网络对时间序列的量化
自组织神经网络(self organized maps,SOM)工
作原理是通过无监督学习方法,让竞争层各神经元
通过竞争与输入模式进行匹配,最后仅有一个神经
元成为竞争的胜者,这一获取神经元的输入就代表
对输入模式的分类[20]。由于无监督学习的训练样本
2. Electric Power Reasearch Institute of Shandong Power Supply Company of State Grid, Jinan 250002, Shandong Province, China)
ABSTRACT: To detect the anomaly state of power equipment, the traditional method threshold value determination is unable to ensure the accuracy. This paper proposed a method for anomaly detection of state data of power equipment based on big data analysis from time series analysis and unsupervised learning, thus a new perspective of data association and data evolution was achieved. Mining the potential features through time series model and self-organized maps, the method put the original data series into the transition probability series. To simplify the relationship between the multidimensional state sequences, the unsupervised learning was used to form several clusters. The method proposed the anomaly detection framework which has a rapid detection speed and is applicable for the state data flow. At last, the effectiveness of the method is verified by being combined with running instances and the result shows that the abnormal operating state can be rapidly detected.
第1期
严英杰等:基于大数据分析的输变电设备状态数据异常检测方法
53
型[11]、遗传规划算法[12]、分类算法[13]等。大数据分 析技术通过寻找设备信息间的关联关系,为提供设 备异常检测准确性提供了全新的解决方法和思路。
综合国内外的研究文献,总结出输变电设备异 常检测的难点在于:
1)状态数据大部分是正常数据,异常数据所 占的比例很小,按照规范中设定的阈值难以划定正 常数据和异常数据的边界。如文献[14]提出一种面 向设备群体的工况数据异常检测方法,通过检测区 间分割算法、统计理论检测出设备检测数据的阈值 异常,但该文献的不足在于仅能检测出数据的阈值 异常,且检测区间长度难以确定;
中不含有期望输出,没有任何先验知识,因此适用
于数据量大、不含标签的状态监测数据。
运用 SOM 能进行无监督分类的特点,将整个
序列 xt 作为 SOM 的输入节点,序列 C={C1,C2,…,CN} 作为输出节点,对每一个 xt 训练其属于节点 Cj 的公 式为
j
=
i( xt
)
=
arg
min i
d
( xt
由于 et~N(μe,λ2),因此由公式(4)可得仅当α小 于一个限值α0 时,整个序列可以满足属于区间 [a, b]。
由于输变电设备的绝缘劣化过程或潜伏性故
障发展缓慢,因此当设备处于异常状态时,监测到
的参量往往未超出导则或规程中的限值,从而难以
察觉。根据以上结论可知,对于没有超出状态量限
值的在线监测数据,单纯地用 AR 模型不能够检测
督聚类方法简化各参量之间的相关关系,从而避免参量间相 关性难以确定的问题。提出异常检测体系,并使之适用于输 变电设备状态监测数据流,实现数据流中异常的快速检出。 最后结合运行实例验证了提出方法的有效性,表明本方法能 快速检测出设备的异常运行状态。
关键词:大数据;异常检测;时间序列;神经网络;无监督 聚类
由于设备状态数据(包括在线监测、带电检测、 预防性试验数据等)体量大、类型繁多[7-8]的特点, 可以将大数据技术引入到设备异常检测中,充分挖 掘状态数据的异常信息。近两年大数据技术在互联 网、金融、物流领域的发展迅速,体现出极高的社 会价值[9],而在能源电力行业大数据技术正处于起 步阶段,国内外文献中在电网和设备异常检测领域 的大数 据技 术有时 间序 列分析[10]、 马尔可 夫模
0 引言
输变电设备在实际运行过程中会受到过负荷、 过电压、内部绝缘老化、自然环境等异常事件影响, 这些异常运行状态会导致设备缺陷、故障的发 生[1-3],因此对设备状态进行异常检测具有很强的必 要性。在设备的实际运维中,大都是基于单一系统 的部分设备信息,采用简单阈值判定方法来检测异 常[4-6]。这种传统的阈值判定具有局限性,一方面设 备信息利用率和状态评价正确率都偏低,另一方面 难以检测出设备的潜伏性故障及故障类别,而且相 关规范标准[4-6]中的固定阈值难以结合设备运行工 况的差异性。
基于大数据分析的输变电设备状态数据 异常检测方法
严英杰 1,盛戈皞 1,陈玉峰 2,江秀臣 1,郭志红 2,杜修明 2
(1.上海交通大学电气工程系,上海市 闵行区 200240; 2.国网山东省电力公司电力科学研究院,山东省 济南市 250002)
An Method for Anomaly Detection of State Information of Power Equipment Based on Big Data Analysis