孤岛检测的关键特征识别及元学习方法_张沛超
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 特征选择方法
1. 1 特征判据 ( } ( …, 设 E= { 为训练样本集 x i=1, 2, n) y i, i) ( 合, 为 一 个 样 本 实 例。 其 中, n 为样本 总 数 , x y i, i) ( ) d j …, 为 d 维的特 征 向 量 , x x 2, d) ∈R ( j=1, i= ( i ) { , } 。分类器的任务就 为 该 样 本 的 类 别 标 签 y i∈ 0 1 是试图归纳出特征 向 量 与 类 别 之 间 的 函 数 关 系 , 所 以特征的选择对分类问题是至关重要的 。 在已有研 究中提出了多种特 征 判 据 , 本文将其分为稳态量特 征和暂态量特征 。 ) 稳态量特征 1 孤岛 会 破 坏 配 电 网 有 功 功 率 平 衡 , 进而引起频 [] / 率变化 。 所 以 有 功 功 率 P 及 其 变 化 率 d 频 P d t8 、 [ 1] / 率 f 及其变化率 d d t 很早就被用作孤 岛 检 测 特 f 征 。 在孤岛/非孤岛运行方式下 , 无功功率的平衡方 这样电压 U 、 功率因数c 式也发生变化 , o sφ 等 也 可
( Hi =- ∑p l o 2 g p i i) j j
i=1
( ) 2 ( ) 3
p i = j
λ iห้องสมุดไป่ตู้j
l i j ∑λ i=1
式中 : λ i 为对信号 进 行 第i 层 分 解 并 经 相 空 间 重 构 j 后的系数矩阵的奇异值 ; Hi 为第i 层信号所具 有 的 信息熵 。 假设 对 信 号 进 行 4 层 分 解 , 则得到的一组暂态 量特征判据为 : ( ) A( x) ={ H1 , H2 , H3 , H4} 4 1. 2 关键特征识别 由上 可 见 , 已有文献所采用的特征判据无论在 数量还是种类上都差别很大 。 这些特征与分类结果 的相关性有多大 ? 是否训练样本中所采用的特征越 多则分类效果越 好 ? 理 论 分 析 与 实 践 表 明 , 如果训 练样本中包含不相 关 或 弱 相 关 的 特 征 , 会造成特征 冲突以及关键特征 被 低 估 等 问 题 , 对分类器造成困 [ 1 1] 从而影 响 分 类 的 可 信 度 。 以 决 策 树 为 例 , 弱 扰, 相关的特征会导致 决 策 树 产 生 不 恰 当 的 分 支 , 产生 过度拟合现象 , 此时 , 虽然针对既有训练样本依旧能 获得较高分类精度 , 但分类模型的泛化能力严重下 降 。 为此 , 需要有一 种 系 统 化 方 法 定 量 评 价 各 特 征 的重要度 , 选出关键特征 , 消除不相关或弱相关的特 征。 依赖于特征空间搜索和信息增益的特征选择方 [2] 1 1] 。本文采用 R 法具有非 常 大 的 计 算 量 [ E L I E F1 算法进行特征选择 。R E L I E F 算法是一种基于实例 的特征选择方法 , 其基本思想是 : 如果某个特征为关 键特征 , 那么在同 类 样 本 中 , 该 特 征 的 值 应 相 同; 而 , 。 在异类样 本 中 该 特 征 的 值 应 不 同 R E L I E F算法 的执行流程如下 。 ( } ( 步骤 1: 给 定 样 本 集 合 E= { x i=1, y i, i)
9] 。文献[ / , 构成有效 判 据 [ 选择了{ 5- 7] U, d d t f, f
— 7 2 —
· 研制与开发 · 张沛超 , 等 孤岛检测的关键特征识别及元学习方法
} 作为特 征 判 据 , 而文献[ 的特征集合中则 d U/ d t 6] () ( …, 包含了 1 1 个特征 。 若用 A( x) ={ aj } 2, j=1, 表示样本 的 特 征 集 合 , 则 综 合 已 有 研 究, 常用稳 d) 态量特征包括 :
0 引言
, 将大量分布式电源 ( e n e r a t o r d i s t r i b u t e d D G) g 以友好的方式接入系统是智能电网的重要特征 。 无 论从系统运行 、 人员设备安全还是电能质量角度 , 都 要求 D G 具备孤岛检测功能 。 现有孤岛检测方法主
] 1] 2 4 - 、 、 要包括被动检 测 法 [ 主 动 检 测 法[ 开关状态检 。 测法等 3 类 开 关 状 态 检 测 法 依 赖 于 实 时 通 信 技
( ) 电力传输与功率变换控制教育部重点实验室 ,上海交通大学电子信息与电气工程学院 ,上海市 2 0 0 2 4 0
摘要 :数据挖掘技术能有效 解 决 孤 岛 检 测 中 检 测 阈 值 的 整 定 问 题 , 已 成 为 重 要 的 孤 岛 检 测 方 法。 文中提出由关键特征识别 、 基学习器和元学习器等 3 个环节构成的孤岛检测数据挖掘系统 。 首先 , 分析了孤岛检测样本中的弱相关特征对分类的不利影响 , 提出利用 R E L I E F( r e c u r s i v e e l i m i n a t i o n ) 。 , , 算法首先识别孤岛检测 的 关 键 特 征 然 后 分 析 了 单 一 分 类 器 的 归 纳 偏 置 现 象 提 出 f e a t u r e s o f 利用多个分类器的互补性提高孤岛检测的精度 ; 最后 , 提出了基于元学习的新的孤岛检测方法 。 为 验证上述方法的有效性 , 仿真算例中充分考虑了功率不 平 衡 度 、 电 压 扰 动 等 因 素。仿 真 结 果 表 明, 上述 3 个环节对提高孤岛检测的精度和泛化能力具有重要作用 。 ;分布式电源 ;孤岛检测 ;数据挖掘 ;R 关键词 :微电网 ( 微网 ) E L I E F 算法 ;功率不平衡度 ;元学 习方法
2 元学习方法
2. 1 归纳偏置现象 在分类问题中 , 训练样本集合 E 给出了特征向 分类器的任 务 就 是 量x 和类别y 之间的预期关系 , 。 对 E 进行归 纳 学 习 , 试 图 建 立 函 数 关 系 y=f( x) 为此 , 分类器必须做出一些特定假设 , 这些假设的集 合 称 作 该 分 类 算 法 的 归 纳 偏 置。 例 如, C 4. 5和 [ 1 1] , 是常用的决策 树 算 法 其 采 用 的 归 纳 偏置 C AR T 是: 采用自顶而下的贪婪算法进行空间遍历 , 优先选 择当前信息增益最 大 的 属 性 进 行 分 支 , 并优先选择
() () () () 步骤 7: xj -M j ( x) xj -H j ω ω | |-| j= j+ ( x) |。 步骤 8: 步骤 6 循环结束 。
x) = f, U, I, Uc o s P, Q, A( φ, φ,
d I, d d d P, d Q f, φ, ( ) 1 d td t d t d t d t ) 暂态量特征 2 电网 扰 动 会 产 生 伪 孤 岛 事 件 , 容易导致孤岛检 ] 测发生误判 。 文献 [ 认为多分辨率奇异谱熵能够 1 0
;修回日期 : 。 收稿日期 : 2 0 1 3 0 8 0 4 2 0 1 4 0 2 2 6 - - - - 国家 高 技 术 研 究 发 展 计 划 ( 8 6 3 计 划 )资 助 项 目 ( ) ; ) 。 上海市科委项目 ( 2 0 1 2 AA 0 5 0 8 0 3 1 1 d z 1 2 1 0 4 0 2
第3 8 卷 第 1 8期 2 0 1 4年9月2 5日
V o l . 3 8 N o . 1 8 2 0 1 4 S e t . 2 5, p
: / D O I 1 0. 7 5 0 0 A E P S 2 0 1 3 0 8 0 4 0 0 3
孤岛检测的关键特征识别及元学习方法
张沛超 ,谭啸风 ,杨珮鑫
类精度和泛化能力 , 从应用的角度 , 就是如何提高算 法对未知实例的适应性 。 已有研究都将重点放在分 类算法上 。 本文以 分 类 算 法 为 中 心 , 将重点拓展到 。 , 个彼此串 联 的 环 节 上 首 先 分 析 了 因弱相关特 3 征导致的特征冲突 以 及 分 类 算 法 的 过 度 拟 合 现 象 , 提 出 利 用 R E L I E F ( r e c u r s i v e l i m i n a t i o n f e o ) 算法识别关键特征 ; 然后 , 分析了单一分类 f e a t u r e s 器的归纳偏置现象 , 说明利用多分类器提高分类精 度的必要性 ; 最 后, 提出了基于元学习的孤岛检测 策略 。
术, 存在可靠性 、 费 用 等 问 题, 所以目前对孤岛检测 的研究兴趣主要集中在被动或主动检测方面 。 较之 于继电保护 , 孤岛检 测 保 护 的 各 种 检 测 阈 值 往 往 缺 乏明确的整定公式 , 使得检测阈值的确定存在经验 性和盲目性 。 近年 来 , 研究者注意到可以利用机器 学习中的 分 类 算 法 解 决 上 述 问 题 并 取 得 了 良 好 效 果 。 例 如 ,文 献 [ 5 6] 运 用 分 类 与 回 归 树 - ( , 决策树 c l a s s i f i c a t i o n a n d r e r e s s i o n t r e e s C AR T) g 算法 实 现 了 孤 岛 检 测 以 及 检 测 阈 值 的 整 定 。 文 ] 献[ 验证了 C 7 4. 5决策树算法在孤岛检测中的有 效 性。 文 献 [ 8]则 将 小 波 算 法 与 支 持 向 量 机 ( , 相 结 合, 能够良好 s u o r t v e c t o r m a c h i n e S VM) p p 区分电网电压扰动和孤岛 。 含D D G 的 出 力 存 在 波 动 性, G 的配电网的运 。 行方式存在多样性 由于分类算法属于一种有监督 学习算法 , 所以其难 点 主 要 在 于 如 何 提 高 算 法 的 分
[3] 较短的树 。S 是用于小样本分类的优秀算法 , VM 1 其归纳偏置是 : 寻找 一 个 满 足 分 类 要 求 的 最 优 分 类
超平面 , 使得该超平面在保证分类精度的同时 , 能够 最大化超平面两侧的边界 。 已有孤 岛 检 测 研 究 都 采 用 单 一 分 类 器 , 如文 , ] , , 。 献[ 分别 采 用 归 纳偏 6 71 0 C AR TC 4. 5S VM - 置现象的存在 , 使得 单 一 分 类 器 虽 能 针 对 训 练 样 本 取得较为理想的分 类 精 度 , 但对于未知实例的泛化 能力可能严重下降 , 分类倾向与其采用的归纳偏置 关系密切 。 泛化能力显然应是基于机器学习的孤岛 检测方法的关键要求 。 为了克服单一分类器采用固 定归纳偏置的缺点 , 本文提出基于元学习的孤岛检 , 测方法 利用不同分类器的互补性来提高适应性 。 2. 2 基于元学习的多学习器策略 1 4] 元学习 [ 是 一 种 两 层 机 器 学 习 架 构。 将 以 原 ( } ( …, 始样本集合 E= { 为训练集 x i=1, 2, n) y i, i) — 7 3 —
() …, , ( …, 其特征集合 为 A( 2, n) x) ={ aj } 2, j=1, 。 d)
步骤 2: 对各特征的值作 归 一 化 处 理 , 设定各特 ; 征的初始权重 ω j =0 对集合 E 的采样次数为 T 。 。 步骤 3: f o r t =1t o Td o 。 步骤 4: 随机从 E 中选取一个样本 ( x, y) 步骤 5: 找到与样本 ( 欧氏距离最近的同类 x, y) ) ( ) 。 样本 H( 和异类样本 x Mx 。 步骤 6: f o r =1t o dd o j
{
}
因而非常适合用于孤岛与干 表征信号的本质特 征 , 1 0] : 扰特征的提取 。 定义信号奇异谱熵为 [
l
步骤 9: 步骤 3 循环结束 。 由上 可 见 , 同类样本与异类样本特征统计量差 异越 明 显 , 则R E L I E F 算法对该特征赋予权值越 高 。 还可以看 到 , R E L I E F 算法独立于具体的分类 方法 , 这样特征选择 可 以 作 为 分 类 前 的 一 个 独 立 环 节, 并可以适应于采用多分类器的场合 。