基于平均强化学习的订单生产方式企业订单接受策略

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
J o u na r l o f C o mp u t e r Ap p l i c a t i o n s
I S SN 1 0 01— 908 1
201 3 . . 0 4. , 3 3 ( 4 ) : 9 7 6— 9 7 9
C 0DE N J YI I DU
h t t p : / / w w w. j o c a . c n
文章编号 : 1 0 0 1— 9 0 8 1 ( 2 0 1 3 ) 4 —0 0 9 7 6— 4 0
d o i : 1 0 . 3 7 2 4 / S P . J . 1 0 8 7 . 2 0 1 3 . 0 0 9 7 6
Ab s t r a c t :F r o m t h e p e r s p e c t i v e o f r e v e n u e ma n a g e me n t ,a n e w a p p r o a c h f o r o r d e r a c c e p t a n c e u n d e r u n c e r t a i n t y i n Ma k e —
t o — O d e r ( M T O )m a n u f a c t u i r n g u s i n g a v e r a g e ・ r e w a r d r e i n f o r c e m e n t l e a r n i n g w a s p r o p o s e d .I n o r d e r t o m a x i m i z e t h e a v e r a g e
e x p e c t e d r e v e n u e ,t h e p r o p o s e d a p p r o a c h t o o k o r d e r t y p e s a n d d i f f e r e n t c o mb i n a t i o n s o f p i r c e a n d l e a d t i me a s c it r e ia r f o r t h e c l a s s i f i c a t i o n o f t h e s y s t e m s t a t e s b a s e d o n mu l t i — l e v e l p i r c i n g me c h a n i s m. T h e s i mu l a t i o n r e s u l t s s h o w t h a t t h e p r o p o s e d a l g o r i t h m h a s l e a r n i n g nd a s e l e c t i v e a b i l i t y t o a c c e p t t h e o r d e r .C o mp a r i s o n s ma d e w i t h o t h e r o r d e r a c c e p t a n c e p o l i c i e s s h o w t h e e f e c t i v e n e s s o f t h e p r o p o s e d lg a o i r t h m i n a v e r a g e r e v e n u e ,a c c e p t e d o r d e r t y p e s ,a n d a d a p t a b i l i t y .
基 于 平 均 强 化 学 习的 订 单 生产 方 式 企 业 订 单接 受 策 略
郝 鹃 , 余建 军 , 周文慧
( 1 . 华南理工大学 工商管理学院 , 广州 5 1 0 6 4 0 ; 2 . 广东外语外贸大学 思科信息学院 , 广州 5 1 0 0 0 6 ) ( 通信作 者电子邮箱 y u j j @s c u t . e d u . c n )

要: 从收益管理思想 出发 , 采用平均强化 学习算法研 究不确定环境 下订单生产 ( M T O) 方式企 业的订单接 受问
题。以最大化平均期望收益为优化 目标 , 采用 多级价格机 制, 把 订单类型 、 价格 和提 前期的不 同组合作 为 系统状 态划分
标准 , 结合平均强化 学习原理 , 提 出了具有学习能力的订单接 受算法( R L O A ) 。仿真结果表 明, R L O A算 法具有 学 习和选 择性接 受订单 的能力 , 与其他订单接 受规 则相 比, 在平均收益、 订单类型接 受状 况和适应性等方面都有较好表现。 关键词 : 订单接 受; 平均强化 学习; 订单生产方式企业 ; 收益 管理
中图分类 号 : 文献标 志码 : A
Or de r a c c e pt a n c e po l i c y i n Ma ke - t o- Or de r ma nu f a c t ur i n g
b a s e d o n a v e r a g e - r e wa r d r e i n f or c e me nt l e a r n i n g
H A O J u a n 一 ,Y U J i a n j u n ,Z H O U We n h u i
( 1 .S c h o o l o f B  ̄i n e s s A d m i n i s t r a t i o n ,S o u t h C h i n a U n i v e r s i t y o f T e c h n o l o g y ,G u a n g z h o u G u a n g d o n g 5 1 0 6 4 0 ,C h i n a ; 2 .C i s c o S c h o o l fI o n f o r m a t e i s ,G u a n g d o n g U n i v e r s i t y fF o o r e i g n S t u d i e s ,G u a n g z h o u G u a n g d o n g 5 1 0 0 0 6 ,C h i n a )
相关文档
最新文档