一种基于Spark和聚类分析的辨识电力系统不良数据新方法_孟建良

合集下载

基于有效指数k-means算法在电力系统不良数据辨识中应用

基于有效指数k-means算法在电力系统不良数据辨识中应用

基于有效指数k-means算法在电力系统不良数据辨识中应用王宝石;段志强;翟登辉
【期刊名称】《东北电力技术》
【年(卷),期】2010(031)003
【摘要】目前电力系统发展速度很快,电力网络的结构和运行模式也变得越来越复杂,电力系统中大量实时数据的质量决定电力系统运行的安全与稳定.为了确保电力系统运行的安全与稳定,必须对电力系统中不良数据进行检测与辨识.不良数据的存在会降低状态估计的收敛性能,甚至造成状态估计失败.采用有效指数与数据挖掘的k-means聚类算法相结合,并融合神经网络技术,利用VC++语言和MATLAB语言进行编程仿真,验证了算法的有效性,准确地对不良数据进行了辨识.
【总页数】4页(P16-18,31)
【作者】王宝石;段志强;翟登辉
【作者单位】沈阳工程学院,辽宁,沈阳,110136;沈阳工程学院,辽宁,沈阳,110136;沈阳理工大学,辽宁,沈阳,110168
【正文语种】中文
【中图分类】TM711
【相关文献】
1.间隙统计在电力系统不良数据辨识中的应用 [J], 吴京秋;杨伟
2.基于GSA的电力系统不良数据辨识算法 [J], 杨伟;胡军;吴军基
3.基于GSA改进算法的电力系统不良数据的辨识研究 [J], 史志平
4.电力系统不良数据的检测与辨识算法研究\r——基于IEEE33含光伏系统仿真计算 [J], 周嘉伦;刘可一;刘晓伟
5.基于深度学习网络的电力系统不良数据辨识算法研究 [J], 潘志敏;俞水琼;梁运华因版权原因,仅展示原文概要,查看原文内容请购买。

基于改进K-means聚类算法的供电块划分方法

基于改进K-means聚类算法的供电块划分方法

基于改进K-means聚类算法的供电块划分方法
韩俊;谈健;黄河;乔黎伟
【期刊名称】《电力自动化设备》
【年(卷),期】2015(035)006
【摘要】在已知供电区域内现状或远景规划的变电站的位置、座数和容量数据的基础上,应用改进的K-means聚类算法,结合变电站等效圆形供电模型将供电块划分问题由平面点划分转化为面积域的划分问题,同时定义相应指标作为评价的标准,将变电站划分至最合适的供电分块中,形成一系列由小规模数量的变电站组成的供电块集合.某实际算例验证了所提方法的合理性.
【总页数】7页(P123-129)
【作者】韩俊;谈健;黄河;乔黎伟
【作者单位】国网江苏省电力公司经济技术研究院规划评审中心,江苏南京210008;国网江苏省电力公司经济技术研究院规划评审中心,江苏南京210008;国网江苏省电力公司发展策划部,江苏南京210008;国网江苏省电力公司经济技术研究院规划评审中心,江苏南京210008
【正文语种】中文
【中图分类】TM715
【相关文献】
1.基于K-means聚类算法的风电场机群划分方法 [J], 徐立亮;胡仁祥;张毅;常喜强;闫亚东
2.改进的k-means聚类算法在供电企业CRM中的应用 [J], 孟建良;尚海昆;边玲
3.基于改进K-means聚类的物流配送区域划分方法研究 [J], 谷炜;张群;胡睿
4.一种基于改进K-means算法的空间群划分方法 [J], 汤奋; 游雄; 李钦; 王玮琦; 唐锦波
5.基于改进谱聚类算法的交通区域划分方法 [J], 杨迪;蔡怡然;王鹏;李岩芳
因版权原因,仅展示原文概要,查看原文内容请购买。

基于改进模糊聚类分析的电力系统不良数据辨识

基于改进模糊聚类分析的电力系统不良数据辨识

基于改进模糊聚类分析的电力系统不良数据辨识高金兰;康迪;雷星宇;朱佳丽【摘要】针对当前电力系统不良数据检测辨识方法的缺点,提出一种基于增强型万有引力搜索-模糊C均值算法(EGSA-FCM)的电力系统不良数据辨识新方法.通过提出的增强型万有引力搜索算法(EGSA)对SCADA系统上传的量测数据进行搜索,获得较好的初始解,再运用FCM算法获得良性数据和不良数据的分类,最后通过COS 聚类有效性判定指标判断最优聚类数目,得到最佳聚类结果和不良数据.将方法应用于IEEE14节点电力系统和大庆某区域电网中,结果表明能有效避免误检和漏检的发生,检测结果更加准确.【期刊名称】《电气自动化》【年(卷),期】2018(040)005【总页数】5页(P30-33,50)【关键词】电力系统;不良数据辨识;模糊聚类;增强型万有引力搜索算法(EGSA);最优聚类【作者】高金兰;康迪;雷星宇;朱佳丽【作者单位】东北石油大学电气工程学院,黑龙江大庆 163318;东北石油大学电气工程学院,黑龙江大庆 163318;东北石油大学电气工程学院,黑龙江大庆 163318;东北石油大学电气工程学院,黑龙江大庆 163318【正文语种】中文【中图分类】TM710 引言电力系统不良数据的检测与辨识是电力系统状态估计的重要功能之一,它能够排除量测采样数据中偶然出现的少量不良数据,提高状态估计的可靠性,确保电力系统正常稳定的运行。

目前,不良数据检测与辨识的方法主要是基于状态估计的方法,包括目标函数极值检测法、加权或标准化残差检测法和量测量突变检测法等方法[1]。

这些方法的缺点是很可能出现残差污染和残差淹没现象,从而引起不良数据的误检和漏检。

近年来,越来越多的新理论、新方法被应用到了电力系统不良数据检测辨识当中。

文献[2]提出了利用模糊数学中的ISODATA方法和隶属度概念来判定不良数据,一定程度上克服了残差污染和残差淹没现象。

文献[3]引入基于贝叶斯数据处理策略的扩展卡尔曼滤波算法及局部加权投影回归策略对电网参数进行在线检测辨识,该方法具有较高的精度。

基于Spark框架的电网运行异常数据辨识与修正方法

基于Spark框架的电网运行异常数据辨识与修正方法

基于Spark框架的电网运行异常数据辨识与修正方法曲朝阳; 朱润泽; 曲楠; 曹令军; 吕洪波; 胡可为【期刊名称】《《科学技术与工程》》【年(卷),期】2019(019)025【总页数】9页(P211-219)【关键词】电网运行异常数据; Spark; 框架; 最小生成树; K-means; RBF; 神经网络【作者】曲朝阳; 朱润泽; 曲楠; 曹令军; 吕洪波; 胡可为【作者单位】东北电力大学计算机学院吉林132012; 吉林省电力大数据智能处理工程技术研究中心吉林132012; 国网江苏省电力公司检修分公司南京 210000; 国网吉林省电力有限公司长春 130000【正文语种】中文【中图分类】TM769电力系统的快速发展促使电力数据呈几何级数增长,随着电力数据的积累和复杂化,数据异常问题日益突出。

对于电力这种特定行业,数据出现异常会导致工作人员对当前电力系统状态做出错误判断从而导致作出错误决策,进而可能发生电网瘫痪等事故[1]。

一般异常数据出现有以下原因[2,3]:第一,在数据采集过程中厂站测控装置等系统设备相关元件出现故障,导致数据缺失或出现错误;第二,受到外部环境因素干扰,部分采集及传输设备故障率偏高,故障发生时会出现数据漏传等现象;第三,数据处理中参数、系数等设置不合理,影响数据的准确性。

目前,已经提出的异常数据辨识方法大多采用基于数据挖掘或状态估计的方式。

状态估计需要反复进行多次状态化计算进而对异常数据进行辨识。

文献[4]通过计算各分界点电压的绝对量测误差,选出最小的两个点作为可信节点,再计算其他节点的绝对量测误差,最后与可信点比较从而辨别出异常数据。

文献[5]对PMU采集的同步频率信号和电压信号进行特征提取,根据频率信号时频特性训练不同的隐马尔科夫模型用于异常数据的检测和辨识。

这些基于状态估计的方法计算量大,损耗时间多,且容易出现漏判和误判,甚至可能产生“残差淹没”或“残差污染”现象,影响异常数据辨识效果[6,7]。

基于Spark框架的能源互联网电力能源大数据清洗模型

基于Spark框架的能源互联网电力能源大数据清洗模型

基于Spark框架的能源互联网电力能源大数据清洗模型曲朝阳;张艺竞;王永文;赵莹
【期刊名称】《电测与仪表》
【年(卷),期】2018(055)002
【摘要】对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性.针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型.首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正.通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性.
【总页数】6页(P39-44)
【作者】曲朝阳;张艺竞;王永文;赵莹
【作者单位】东北电力大学信息工程学院,吉林吉林132012;东北电力大学信息工程学院,吉林吉林132012;东北电力大学信息工程学院,吉林吉林132012;东北电力大学信息工程学院,吉林吉林132012
【正文语种】中文
【中图分类】TK01
【相关文献】
1.基于Spark框架的电力大数据清洗模型 [J], 王冲;邹潇
2.基于能源互联网的P2P能源共享与协调新框架 [J], 付林;黄耀德;曹新慧;郭文斌
3.基于Spark的大数据清洗框架设计与实现 [J], 张菁楠
4.基于Spark的大数据清洗框架设计与实现 [J], 张菁楠
5.基于云计算的电力能源大数据清洗模型构建 [J], 卢峰;吴朝文;陈小龙;张柯柯;桂宁
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(华北电力大学控制与计算机工程学院,河北 保定 071003) 摘要:随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中 的不良数据将导致电力系统状态估计结果的准确性降低, 而传统聚类算法处理海量高维数据时单机计算资源不足, 近年来较流行的 MapReduce 框架不能有效处理频繁迭代计算等问题, 提出一种基于 Spark 的并行 K-means 算法辨 识不良数据的新方法。以某一节点电力负荷数据为研究对象,运用基于 Spark 的并行 K-means 聚类算法提取出日 负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用 EUNITE 提供的真实电力负荷数据进 行实验,结果表明此方法能有效提高状态估计结果的准确性,与基于 MapReduce 框架的方法相比,具有更好的加 速比、扩展性,能更好地处理电力系统的海量数据。 关键词:Spark;聚类;K-means;电力系统;不良数据;负荷曲线分类
引言
随着智能电网的迅速发展,电力系统的数据呈 指数级增长,其结构和运行模式也越来越复杂,因 此对系统运行的可靠性、安全性和稳定性也就提出 电力系统状态估计是电力系统信 了更高的要求[1-3]。 息管理系统中一个重要的组成部分[4]。由于客观原 因,除了正常的数据噪声,各信息采集单元所获取 的测量数据不可避免会有不良数据。不良数据的存 在会在不同程度上使电力系统状态估计结果失真,
图 1 Spark运行架构 Fig. 1 Spark running architecture
1
基于 Spark 改进的 K-means 并行算法
1.1 传统 K-means 算法 传统 K-means 算法[13-14]的基本思想:首先从 N 个数据对象中随机初始化 K 个聚类中心;对于剩下 的其他对象,计算其与 K 个聚类中心的距离,分别 将其分配给与其距离最近的类簇;然后再计算每个 类簇新的聚类中心,即该类簇中所有对象的均值; 不断重复这一过程直到标准测度函数开始收敛为 止。一般都采用簇内误差平方总和作为标准测度函 数,其定义为
从而不能准确得到系统真实的运行状态,可能会引 发未知的安全后果。因此,对不良数据进行检测和 处理就显得尤为重要[5-6]。 传统不良数据检测方法取得了大量成果,但仍 有不少问题未得到妥善解决。现今对电力数据进行 分析和分类控制时,前期处理大多用的是神经网络 法和聚类分析法等。文献[7]运用基于蚁群优化算法 的负荷序列聚类分析,提高了对外部气象等因素的 敏感性,对负荷曲线轮廓相似性具有更细致的聚类 性能,但聚类时间较长;文献[8]将模糊聚类技术与
首先对原始数据集进行多次随机抽样,然后基 于 Spark 运用两阶段最大最小距离法以产生最佳初 始聚类中心,最后再用基于 Spark 的并行 K-means 算法进行聚类。因此,此算法的处理流程为:多次 随机抽样、最大最小距离法搜索出最佳初始聚类中 心、K-means 迭代处理。该算法通过优化 K-means 算法中初始聚类中心, 获得更准确的负荷特征曲线; 利用 Spark 并行计算框架实现并行化,克服无法处 理海量电力数据的问题,最终实现精确高效的电力 负荷曲线分类。 1.2.3 基于 Spark 的改进 K-means 算法并行化实现 利用 Spark 并行实现 K-means,总体上也是采 用“map”“reduce”的思想,即在每次迭代中,先 用“map”计算所有样本和中心点距离并归类,再 用“reduce”分类求均值算得新的中心点。然而与 Hadoop 的 MapReduce[16]最大的不同是,Spark 对所 有中心点的所有次迭代运算都是在内存中对 RDD 计算完成,中间不需要与磁盘交互,而 Hadoop 的 这个过程则要与磁盘有 n (迭代次数×分类数)次的 交互。基于 Spark 的改进 K-means 算法实现如图 3 所示。 基于 Spark 的 K-means 算法并行化实现分两部 分。第一部分,首先读取 HDFS 的文件(已经预处理 过的文件)并创建新的 RDD,并在本地执行 Cache 操作缓存 RDD 数据。之后多次随机抽样产生 J 个 抽样样本, 在 Map 过程利用最大最小距离法在本地 产生若干初始聚类中心集合, 然后在 Reduce 过程 将这些初始聚类中心集合汇总,再次调用最大最小 距离法得到最佳初始聚类中心集合。第二部分,通 过 Map 操作执行局部数据的聚类,Reduce 操作执 行汇总局部数据的聚类,计算全局的聚簇。聚类算
孟建良,等
一种基于 Spark 和聚类分析的辨识电力系统不良数据新方法
- 87 -
及算法的适用性,因此将其与抽样技术相结合。 初值优化流程图如图 2 所示。
图 2 初值优化流程图 Fig. 2 Flow chart of initial value optimization 图 3 基于 Spark 的改进 K-means 算法流程图 Fig. 3 Flow chart of improved K-means algorithm based on Spark
- 86 -
电力系统保护与控制
人工神经网络中的BP网络相结合,通过C均值模糊 聚类方法实现不同用户日负荷曲线的分类;文献[9] 提出一种基于传统K-means聚类算法并结合有效指 数准则的不良数据检测和处理方法,但收敛速度慢 且易陷入局部极小。 为了提高处理海量数据的能力, 文献[10]在Hadoop云平台下,建立并行局部加权线 性回归模型,并采用最大熵建立坏数据分类模型。 然而这些算法几乎都是通过大量的频繁迭代来实 现,算法复杂度相当高。尽管传统串行算法可以对 电力负荷数据进行聚类,但单机的计算资源依然无 法满足算法在处理海量高维数据时大量的资源消 耗;而基于MapReduce的算法能处理海量数据,却 不能有效处理频繁迭代计算。随着电力系统智能化 建设的不断深入,对不良数据的处理有了更高的要 求,云计算的出现,为更准确地进行不良数据的检 测与辨识提供了可能[11-12]。 围绕上述问题,对输电网状态估计中的不良数 据进行识别和纠正,以提高状态估计的准确性。以 某个节点的历史负荷数据为研究对象,在云集群环 境下,利用基于 Spark 的并行 K-means 算法对该节 点的负荷数据进行聚类,提取出日负荷特征曲线; 通过与特征曲线对比,辨别和处理不良数据。通过 在实验室搭建的 Hadoop 和 Spark 云集群, 并采用真 实电力负荷数据进行算例分析,验证基于 Spark 平 台的方法得到的状态估计结果准确性优于基于传统 K-means 聚类的方法[9],与传统 Hadoop 平台相比, 具有更好的加速比、扩展性,能更好地满足处理电 力系统海量数据的需求。
E=
K i =1 X ∈Ci

X − Xi
2
(1)
其中:K 为簇的总数; X i 为簇 Ci 的平均值。 1.2 基于 Spark 改进的 K-means 并行算法 1.2.1 Spark架构和弹性分布式数据集RDD Spark 由加州大学伯克利分校 AMPLab 开发,
1.2.2 改进 K-means 算法思想 传统 K-means 聚类算法属于聚类中一种基本的 划分方法,具有简单、快速的优点。然而这种算法 对初值的依赖性很强,初值选取的不同往往导致聚 类结果相当不稳定。其次,当初始聚类中心选择不 当时,算法极易陷入局部极小点;并且容易受“噪 声”数据的影响。其复杂度由 O(TKN )表示,其中 K 是期望的聚类簇的个数,T 是迭代次数,N 是数据 对象的个数;则其并不能适合处理海量数据。因此 考虑用最大最小距离法来优化初始聚类中心。 当最大最小距离法处理的样本规模为 N,每次 寻找新的聚类中心时, 很明显要进行 N 次距离计算。 若共找到 k 个聚类中心,则算法结束时共进行的计 算次数为 N k−1。最大最小距离法的计算量取决于 N 的规模,直接将最大最小距离法作用于原始数据集 的执行效率很低。考虑到数据集合本身的规律性以
第 44 卷 第 3 期 2016 年 2 月 1 日 DOI: 10.7667/PSPC150548
电力系统保护与控制
Power System Protection and Control
Vol.44 No.3 Feb. 1, 2016
一种基于 Spark 和聚类分析的辨识电力系统不良数据新方法
孟建良,刘德超
由于引进了弹性分布式数据集 (Resilient Distributed Dataset,RDD)[15]的概念,Spark 可在集群计算中将 数据集分布式缓存在各节点内存中,省去大量的磁 盘 IO 操作,从而大大缩短访问延迟。作为 Spark 架构的核心机制, RDD 是一种基于分布式内存的并 行数据结构,它能将用户数据存储在内存,并控制 分区划分以优化数据分布。数据存储在内存中,尤 其对于需要多次迭代使用的数据,省去了多次载入 到内存和存储到磁盘的过程, 大大加快了处理速度。 Spark 还支持 RDD 的显式缓存 (cache) 及持久化 (persistence)存储。 Spark运行架构如图1所示,Spark应用在集群上 以独立的执行器(executor)运行在不同节点,在主程 序 中 以 SparkContext 对 象 来 进 行 总 体 调 度 。 SparkContext 可 以 与 三 类 集 群 资 源 管 理 器 (Standalone 、Mesos或者 YARN) 相连接,集群资源 管理器的作用为在不同 Spark 应用间分配资源。 Spark在执行程序时, 需要将应用代码发送给工作节 点(worker node)的执行器去执行任务(task),以尽可 能实现数据的本地化计算。
A new method for identifying bad data of power system based on Spark and clustering analysis
MENG Jianliang, LIU Dechao (School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China) Abstract: With the development of intelligent power system construction, power data shows a massive and multi dimensions trends. The bad data in power system reduces the accuracy of the estimation results in the state of the power system, computational resources of the traditional clustering algorithms dealing with massive high dimensional data with single machine are insufficient, and the MapReduce, more popular in recent years, cannot effectively deal with frequent iteration calculation problem. According to the above, this paper puts forward a new method of identifying bad data with parallel K-means algorithm based on Spark. To a certain node load data as the research object, the parallel K-means clustering algorithm based on Spark is used to extract daily load characteristic curve, to detect and identify bad data in state estimation of power transmission network respectively. Experiments are conducted with the data of the real load provided by EUNITE, the results show that this method can effectively improve the accuracy of state estimation, and compared with the method based on the MapReduce, it has better speed-up ratio, scalability, and can better process massive data in power system. Key words: Spark; clustering; K-means; power system; bad data; load curve classification
相关文档
最新文档