基于多步回溯Q学习的自动发电控制指令动态优化分配算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于多步回溯Q学习的自动发电控制指令动态优化分配算法余涛;王宇名;甄卫国;叶文加;刘前进
【期刊名称】《控制理论与应用》
【年(卷),期】2011(028)001
【摘要】单步Q学习在火电占优、机组时延较大的A动发电控制(AGC)功率指令动态优化分配中的应用表现出收敛速度慢等不足而影响最优策略的获取.具有多步预见能力的多步回溯Q学习(Q(λ))显式利用资格迹进行高效回溯操作,能够有效解决火电机组大时滞环节带来的延时回报问题,算法平均收敛时间较Q学习缩短50%以上.算法奖励函数引入调节费用一项,形成多目标动态最优控制.两区域模型及南方电网模型仿真研究分析显示,Q(λ)算法在随机、大负荷扰动的复杂系统环境中有效提高系统控制性能标准(CPS)控制品质和适应性,并且在保证CPS合格率的前提下,使AGC调节费用下降超过5%.%This paper presents the application of multi-step backtrack Q(λ) learning-based methodology on CPS order dynamic dispatch problem.The proposed Q(λ) learning can effectively solve the long time-delay assessment for the action strategy of one step Q-learning in the thermal dominated power system.AGC production cost is formulated as Markov decision process(MDP) reward function by means of linear weighted aggregative approach in the CPS order multiobjective dynamic optimal dispatch.Simulation of institute of electrical and electronics engineers(IEEE) two-area LFC model shows that the convergence time of the Q(,λ) algorithm is reduced by more than 50%comparing with Q-learning.The statistical experiments of Q(λ) in the China
Southern Power grid show that the proposed method can effectively enhance the robustness and dynamic performance of AGC systems in CPS assessment and save more than 5% of AGC production cost while the CPS compliances are ensured.
【总页数】7页(P58-64)
【作者】余涛;王宇名;甄卫国;叶文加;刘前进
【作者单位】华南理工大学,电力学院,广东,广州,510640;广东电网公司中山供电局,广东,中山,528400;华南理工大学,电力学院,广东,广州,510640;华南理工大学,电力学院,广东,广州,510640;华南理工大学,电力学院,广东,广州,510640
【正文语种】中文
【中图分类】TM71
【相关文献】
1.基于多步Q学习的模具制造项目群随机调度算法 [J], 张沙清;陈新度;陈庆新;陈新
2.基于CBR与合作Q学习的分布式CRN资源分配算法 [J], 徐琳;赵知劲
3.基于极限Q学习算法的微电网自动发电控制 [J], 吴新;史军;马伟哲;陈俊斌
4.基于深度Q学习的室内无线网络资源分配算法 [J], 吕亚平;贾向东;路艺;敬乐天
5.基于Metropolis准则的多步Q学习算法与性能仿真 [J], 陈圣磊;吴慧中;肖亮;朱耀琴
因版权原因,仅展示原文概要,查看原文内容请购买。

相关文档
最新文档