孤岛检测的关键特征识别及元学习方法_张沛超

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

１特征选择方法
１．１特征判据（｝（ …，设Ｅ＝｛为训练样本集ｘｉ＝１，２，ｎ）ｙｉ，ｉ）（合，为一个样本实例。其中，ｎ为样本总数，ｘｙｉ，ｉ）（）ｄｊ …，为ｄ维的特征向量，ｘｘ２，ｄ） ∈Ｒ（ｊ＝１，ｉ＝（ｉ）｛，｝。分类器的任务就为该样本的类别标签ｙｉ∈ ０１是试图归纳出特征向量与类别之间的函数关系，所以特征的选择对分类问题是至关重要的。在已有研究中提出了多种特征判据，本文将其分为稳态量特征和暂态量特征。）稳态量特征１孤岛会破坏配电网有功功率平衡，进而引起频［］／率变化。所以有功功率Ｐ及其变化率ｄ频Ｐｄｔ８、［１］／率ｆ及其变化率ｄｄｔ很早就被用作孤岛检测特ｆ征。在孤岛／非孤岛运行方式下，无功功率的平衡方这样电压Ｕ、功率因数ｃ式也发生变化，ｏｓφ 等也可
（Ｈｉ＝－ ∑ｐｌｏ２ｇｐｉｉ）ｊｊ
ｉ＝１
（）２（）３
ｐｉ＝ｊ
λ ｉห้องสมุดไป่ตู้ｊ
ｌｉｊ ∑λ ｉ＝１
式中： λ ｉ为对信号进行第ｉ层分解并经相空间重构ｊ后的系数矩阵的奇异值；Ｈｉ为第ｉ层信号所具有的信息熵。假设对信号进行４层分解，则得到的一组暂态量特征判据为：（）Ａ（ｘ）＝｛Ｈ１，Ｈ２，Ｈ３，Ｈ４｝４１．２关键特征识别由上可见，已有文献所采用的特征判据无论在数量还是种类上都差别很大。这些特征与分类结果的相关性有多大？是否训练样本中所采用的特征越多则分类效果越好？理论分析与实践表明，如果训练样本中包含不相关或弱相关的特征，会造成特征冲突以及关键特征被低估等问题，对分类器造成困［１１］从而影响分类的可信度。以决策树为例，弱扰，相关的特征会导致决策树产生不恰当的分支，产生过度拟合现象，此时，虽然针对既有训练样本依旧能获得较高分类精度，但分类模型的泛化能力严重下降。为此，需要有一种系统化方法定量评价各特征的重要度，选出关键特征，消除不相关或弱相关的特征。依赖于特征空间搜索和信息增益的特征选择方［２］１１］。本文采用Ｒ法具有非常大的计算量［ＥＬＩＥＦ１算法进行特征选择。ＲＥＬＩＥＦ算法是一种基于实例的特征选择方法，其基本思想是：如果某个特征为关键特征，那么在同类样本中，该特征的值应相同；而，。在异类样本中该特征的值应不同ＲＥＬＩＥＦ算法的执行流程如下。（｝（步骤１：给定样本集合Ｅ＝｛ｘｉ＝１，ｙｉ，ｉ）
９］。文献［／，构成有效判据［选择了｛５－７］Ｕ，ｄｄｔｆ，ｆ
— ７２ —
· 研制与开发 · 张沛超，等孤岛检测的关键特征识别及元学习方法
｝作为特征判据，而文献［的特征集合中则ｄＵ／ｄｔ６］（）（ …，包含了１１个特征。若用Ａ（ｘ）＝｛ａｊ｝２，ｊ＝１，表示样本的特征集合，则综合已有研究，常用稳ｄ）态量特征包括：
０引言
，将大量分布式电源（ｅｎｅｒａｔｏｒｄｉｓｔｒｉｂｕｔｅｄＤＧ）ｇ以友好的方式接入系统是智能电网的重要特征。无论从系统运行、人员设备安全还是电能质量角度，都要求ＤＧ具备孤岛检测功能。现有孤岛检测方法主
］１］２４－、、要包括被动检测法［主动检测法［开关状态检。测法等３类开关状态检测法依赖于实时通信技
（）电力传输与功率变换控制教育部重点实验室，上海交通大学电子信息与电气工程学院，上海市２００２４０
摘要：数据挖掘技术能有效解决孤岛检测中检测阈值的整定问题，已成为重要的孤岛检测方法。文中提出由关键特征识别、基学习器和元学习器等３个环节构成的孤岛检测数据挖掘系统。首先，分析了孤岛检测样本中的弱相关特征对分类的不利影响，提出利用ＲＥＬＩＥＦ（ｒｅｃｕｒｓｉｖｅｅｌｉｍｉｎａｔｉｏｎ）。，，算法首先识别孤岛检测的关键特征然后分析了单一分类器的归纳偏置现象提出ｆｅａｔｕｒｅｓｏｆ利用多个分类器的互补性提高孤岛检测的精度；最后，提出了基于元学习的新的孤岛检测方法。为验证上述方法的有效性，仿真算例中充分考虑了功率不平衡度、电压扰动等因素。仿真结果表明，上述３个环节对提高孤岛检测的精度和泛化能力具有重要作用。；分布式电源；孤岛检测；数据挖掘；Ｒ关键词：微电网（微网）ＥＬＩＥＦ算法；功率不平衡度；元学习方法
２元学习方法
２．１归纳偏置现象在分类问题中，训练样本集合Ｅ给出了特征向分类器的任务就是量ｘ和类别ｙ之间的预期关系，。对Ｅ进行归纳学习，试图建立函数关系ｙ＝ｆ（ｘ）为此，分类器必须做出一些特定假设，这些假设的集合称作该分类算法的归纳偏置。例如，Ｃ４．５和［１１］，是常用的决策树算法其采用的归纳偏置ＣＡＲＴ是：采用自顶而下的贪婪算法进行空间遍历，优先选择当前信息增益最大的属性进行分支，并优先选择
（）（）（）（）步骤７：ｘｊ－Ｍｊ（ｘ）ｘｊ－Ｈｊ ω ω ｜｜－｜ｊ＝ｊ＋（ｘ）｜。步骤８：步骤６循环结束。
ｘ）＝ｆ，Ｕ，Ｉ，ＵｃｏｓＰ，Ｑ，Ａ（ φ， φ，
ｄＩ，ｄｄｄＰ，ｄＱｆ， φ，（）１ｄｔｄｔｄｔｄｔｄｔ）暂态量特征２电网扰动会产生伪孤岛事件，容易导致孤岛检］测发生误判。文献［认为多分辨率奇异谱熵能够１０
；修回日期：。收稿日期：２０１３０８０４２０１４０２２６－－－－国家高技术研究发展计划（８６３计划）资助项目（）；）。上海市科委项目（２０１２ＡＡ０５０８０３１１ｄｚ１２１０４０２
第３８卷第１８期２０１４年９月２５日
Ｖｏｌ．３８Ｎｏ．１８２０１４Ｓｅｔ．２５，ｐ
：／ＤＯＩ１０．７５００ＡＥＰＳ２０１３０８０４００３
孤岛检测的关键特征识别及元学习方法
张沛超，谭啸风，杨珮鑫
类精度和泛化能力，从应用的角度，就是如何提高算法对未知实例的适应性。已有研究都将重点放在分类算法上。本文以分类算法为中心，将重点拓展到。，个彼此串联的环节上首先分析了因弱相关特３征导致的特征冲突以及分类算法的过度拟合现象，提出利用ＲＥＬＩＥＦ（ｒｅｃｕｒｓｉｖｅｌｉｍｉｎａｔｉｏｎｆｅｏ）算法识别关键特征；然后，分析了单一分类ｆｅａｔｕｒｅｓ器的归纳偏置现象，说明利用多分类器提高分类精度的必要性；最后，提出了基于元学习的孤岛检测策略。
术，存在可靠性、费用等问题，所以目前对孤岛检测的研究兴趣主要集中在被动或主动检测方面。较之于继电保护，孤岛检测保护的各种检测阈值往往缺乏明确的整定公式，使得检测阈值的确定存在经验性和盲目性。近年来，研究者注意到可以利用机器学习中的分类算法解决上述问题并取得了良好效果。例如，文献［５６］运用分类与回归树－（，决策树ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｒｅｓｓｉｏｎｔｒｅｅｓＣＡＲＴ）ｇ算法实现了孤岛检测以及检测阈值的整定。文］献［验证了Ｃ７４．５决策树算法在孤岛检测中的有效性。文献［８］则将小波算法与支持向量机（，相结合，能够良好ｓｕｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅＳＶＭ）ｐｐ区分电网电压扰动和孤岛。含ＤＤＧ的出力存在波动性，Ｇ的配电网的运。行方式存在多样性由于分类算法属于一种有监督学习算法，所以其难点主要在于如何提高算法的分
［３］较短的树。Ｓ是用于小样本分类的优秀算法，ＶＭ１其归纳偏置是：寻找一个满足分类要求的最优分类
超平面，使得该超平面在保证分类精度的同时，能够最大化超平面两侧的边界。已有孤岛检测研究都采用单一分类器，如文，］，，。献［分别采用归纳偏６７１０ＣＡＲＴＣ４．５ＳＶＭ－置现象的存在，使得单一分类器虽能针对训练样本取得较为理想的分类精度，但对于未知实例的泛化能力可能严重下降，分类倾向与其采用的归纳偏置关系密切。泛化能力显然应是基于机器学习的孤岛检测方法的关键要求。为了克服单一分类器采用固定归纳偏置的缺点，本文提出基于元学习的孤岛检，测方法利用不同分类器的互补性来提高适应性。２．２基于元学习的多学习器策略１４］元学习［是一种两层机器学习架构。将以原（｝（ …，始样本集合Ｅ＝｛为训练集ｘｉ＝１，２，ｎ）ｙｉ，ｉ） — ７３ —
（） …，，（ …，其特征集合为Ａ（２，ｎ）ｘ）＝｛ａｊ｝２，ｊ＝１，。ｄ）
步骤２：对各特征的值作归一化处理，设定各特；征的初始权重 ω ｊ＝０对集合Ｅ的采样次数为Ｔ。。步骤３：ｆｏｒｔ＝１ｔｏＴｄｏ。步骤４：随机从Ｅ中选取一个样本（ｘ，ｙ）步骤５：找到与样本（欧氏距离最近的同类ｘ，ｙ））（）。样本Ｈ（和异类样本ｘＭｘ。步骤６：ｆｏｒ＝１ｔｏｄｄｏｊ
｛
｝
因而非常适合用于孤岛与干表征信号的本质特征，１０］：扰特征的提取。定义信号奇异谱熵为［
ｌ
步骤９：步骤３循环结束。由上可见，同类样本与异类样本特征统计量差异越明显，则ＲＥＬＩＥＦ算法对该特征赋予权值越高。还可以看到，ＲＥＬＩＥＦ算法独立于具体的分类方法，这样特征选择可以作为分类前的一个独立环节，并可以适应于采用多分类器的场合。