离散事件动态系统马尔科夫链
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概率分布-离散变量
随机变量取值可能是离散的,如{1,4.5,18,1969},也可能是 连续的,如区间[0 10]。先考虑离散变量
随机的:一个人一天接到的电话个数,每天 都不一样
概率
实验(experiment):考试,掷骰子,打球比赛,扔硬 币
一次实验对应一个输出X,考虑实验的输出是随机
变量,可取多个值。 (pass,fail),(1,2,3,4,5,6),(win,
lose),(heads,tails) 事件:掷骰子,点数为2,或者为偶数 事件的概率:事件发生的机会(chance)或可能性
例1 柔性制造系统
待加工工件缓冲器
自行小车
待加工工件缓冲器
Sn1 工作台
1
已加工工件缓冲器
Sn2
工作台 M
已加工工件缓冲器
智能仓库
例2 机器人自动装配线(robotic assembly line)
例3 百度文库排队网络
q11
q10
01
服务站 1
缓冲器
q12
q31
q30
02
服务站
2 01 缓冲器
q21
优化理论和应用研究:
Markov控制(决策)过程方法及优化问题已成为当 前DEDS领域的一个令人注目的热点,也是本课程的 主要介绍对象。
拓展:SMDP、POMDP、HMM、HDS
第二章 随机离散事件动态系统的基本仿真技术
随机变量
随机变量:粗略的说就是能取不同数值 的量
非随机的(确定性的数值,永不改变) :太 阳系中的太阳个数
(likelihood),m次实验中,事件A发生n次,则概率 为 P(A)=lim m→∞(n/m) ∈[0,1]
加数法则(addition law)
互斥事件(mutually exclusive) 复合事件(compound):由互斥事件构成,如多次掷
骰子中,出现偶数的事件由分别出现2,4或6的互斥事 件构成。若复合事件E由A1,…,An构成,则
课程内容
1. 离散事件动态系统基本概念、分类、研究方法 2. 随机离散事件动态系统的基本仿真技术 3. Markov决策过程(含Markov链,半Markov决策过程)
基本知识 4. 动态规划(dynamic programming)和仿真优化:主要
介绍Bellman最优方程,策略迭代和数值迭代。 5. 强化学习(reinforcement learning)技术:主要介绍
例如经典力学下的质点运动方程等可以描述为 系统
微分方程:x&(t) f (x(t), u(t), t)
Ax(t) Bu(t)
差分方程:x(k 1) f (x(k), u(k)) Ax(k) Bu(k)
DEDS基本概念:
由一些相互作用的离散事件构成,并且由它们触发而引起 状态转移(演化)的一类动态系统,它所含的事件的发生在 时间和空间上都是离散的。
Monte-Carlo方法、TD学习、Q学习和SARSA学习等。 6. 神经元/逼近动态规划(neuro-dynamic programming) 7. 多Agent学习探讨 8. 实例分析
第一章
离散事件动态系统基本概念、分类 和研究方法
基本概念
随着高新技术的迅猛发展,现实世界中涌现了大量 的复杂人造系统(如计算机网络、通信网络、柔性 制造系统、CIMS、交通管理系统、军事指挥系统 等)。这些系统的共同特征是:系统的演化过程不 能由通常的物理定律来描述,而是服从一些由人为 规定的复杂规则,并由一系列相互作用的离散事件 所决定。
P(E)=P(A ∩ B)=P( A) .P(B)
互斥的就无所谓相关不相关;非互斥的,则有可能独立, 则P(A ∩ B)=P( A) .P(B)。
既不互斥又不独立,则P(A ∩ B)=P( A) .P(B|A)= P( B) .P(A|B), 其中,P(B|A)和P(A|B)为条件概率。(若A、 B独立,则?)
q13
q23
q32
服务站
3 缓冲器
q22
q20
03
q33
通信系统中的接入控制
基本分类和研究方法
DEDS的三个层次模型:
逻辑层次模型(确定性) 主要有形式语言,有限自动机,Markov链,Petri网等 (不可时序化):模型不可赋时,只考虑表征系统行为 的符号的顺序关系
代数层次模型(确定性) 主要有极大极小代数,有限递归过程等(可时序化)
大家好
大家好
课程基本情况
课程性质:非学位课 学时数/学分:32/2 周学时:4 (后面有调整) 授课形式:(a) 主讲面授; (c) 文献报告和自由讨论 应用领域:网络系统分析、移动机器人、智能交通、生
产自动化和供应链管理、Agent系统、网络控制优化、 机器学习、排队网络、系统可靠性分析,以及其它有关 决策优化、控制和智能学习等。 前期课程内容:高等数学、概率论、线性代数 考核方式:考查(含课程总结、文献汇报)
统计层次模型(随机性) 主要有Markov过程,半Markov过程或广义半Markov过 程,各种类型的排队网络等(可时序化、采用仿真方法)
DEDS统计性能层次的研究情况
从九十年代开始,统计性能层次的研究已成为DEDS研究 领域的一个重要方面,主要包括以下两个研究方向:
建模
系统的性能分析:
主要是灵敏度分析
P(E)=P( A1)+…+ P(An) 复杂事件(complex):未必由互斥事件构成,如掷骰
子,出现质数(2,3,5)或偶数(2,4,6)的事件 P(A∪B)=P( A)+ P(B)-P(A∩B)
AB
乘积法则(multiplication law)
独立事件(independent):两个事件中,一个事件的出现 不依赖于另外一个。反之为相关事件(dependent)。扔 硬币,第一次为heads的事件A与第二次为tails的事件B相互 独立。定义事件E表示第一次为heads且第二次为tails的事 件,则
这样的一类人造系统常被描述为离散事件动态系统 (Discrete event dynamic system,DEDS)。
事件:使DEDS状态发生变动的一个行动或事情。
DEDS与一般动态系统的差别:
通常的连续变量动态系统(CVDS),其动态特性满足一定 的物理定律,可用微分方程或差分方程来描述。 线性