强化学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
The most complex general class of environments are inaccessible, nondeterministic, non-episodic, dynamic, and continuous.
强化学习问题
Agent-environment interaction
0 V
0
1 V
1
* V * *
policy evaluation
policy improvement “greedification”
a a ( s ) arg max Pss R V ( s) ss a s
动态规划方法
V (st ) E rt 1 V (st 1 ) st
N 1 N VN (i) E G(iN ) k r (ik , k (ik ), ik 1 ) i0 i k 0
Infinite Horizon Problem
N 1 k V (i) lim E r (ik , k (ik ), ik 1 ) i0 i n k 0
, R Search
high
, R Search
1,0 recharge
lowቤተ መጻሕፍቲ ባይዱ
1 , R Search
search
wait
1, R wait
β, α : T (s, action, s’ )
Similarity to Hidden Markov Models (HMMs)
动态规划 Dynamic Programming -
Problem
A discrete-time dynamic system
States {1, … , n} + termination state 0 Control U(i) Transition Probability pij(u)
Accumulative cost structure
Or, without the expectation operator:
a s
V (s) (s, a) Psas Ra V (s) ss
Bellman最优策略公式
V ( s) max E rt 1 V (st 1 ) st s, at a
Value Iteration
uU ( i )
T V (i) max pij (u)r (i, u, j ) V ( j ) , i 1,, n
n
Vk 1 (i) T Vk (i)
j 0
V * (i ) min V (i )
动态规划中的策略迭代/值迭代
a set of states : S a set of actions : A a reward function : R:SxA R A state transition function: T: S x A ∏ ( S)
T (s,a,s’): probability of transition from s to s’ using action a
a Pss Pr st 1 s st s, at a for all s, s S , a A(s ). a Rss E rt 1 st s, at a, st 1 s for all s, s S , a A(s).
reward probabilities:
引言
强化思想最先来源于心理学的研究。1911年Thorndike提出了效 果律(Law of Effect):一定情景下让动物感到舒服的行为, 就会与此情景增强联系(强化),当此情景再现时,动物的这 种行为也更易再现;相反,让动物感觉不舒服的行为,会减弱 与情景的联系,此情景再现时,此行为将很难再现。换个说法, 哪种行为会“记住”,会与刺激建立联系,取决于行为产生的 效果。 动物的试错学习,包含两个含义:选择(selectional)和联系 (associative),对应计算上的搜索和记忆。所以,1954年, Minsky在他的博士论文中实现了计算上的试错学习。同年, Farley和Clark也在计算上对它进行了研究。强化学习一词最早 出现于科技文献是1961年Minsky 的论文“Steps Toward Artificial Intelligence”,此后开始广泛使用。1969年, Minsky因在人工智能方面的贡献而获得计算机图灵奖。
MDP EXAMPLE:
Bellman Equation:
States and rewards
(Greedy policy selection)
Transition function
MDP Graphical Representation
1, R wait
wait 1 ,3 search
Vk 1 ( s ) ( s, a) P R Vk ( s)
a s a ss a ss a a Vk 1 ( s ) max Pss R ss Vk ( s) a s
Policy Iteration
Value Iteration
Inputs
RL System
Outputs (“actions”)
Reinforcement Learning – Learn from interaction
learn from its own experience, and the objective is to get as much reward as possible. The learner is not told which actions to take, but instead must discover which actions yield the most reward by trying them.
引言
1953到1957年,Bellman提出了求解最优控制问题的一个有效方法: 动态规划(dynamic programming) Bellman于 1957年还提出了最优控制问题的随机离散版本,就是著 名的马尔可夫决策过程(MDP, Markov decision processe), 1960年Howard提出马尔可夫决策过程的策略迭代方法,这些都成为 现代强化学习的理论基础。 1972年,Klopf把试错学习和时序差分结合在一起。1978年开始, Sutton、Barto、 Moore,包括Klopf等对这两者结合开始进行深入 研究。 1989年Watkins提出了Q-学习[Watkins 1989],也把强化学习的 三条主线扭在了一起。 1992年,Tesauro用强化学习成功了应用到西洋双陆棋 (backgammon)中,称为TD-Gammon 。
内容提要
引言 强化学习模型
动态规划 蒙特卡罗方法 时序差分学习 Q学习 强化学习中的函数估计
应用
引言
人类通常从与外界环境的交互中学习。所谓强化 (reinforcement)学习是指从环境状态到行为映射 的学习,以使系统行为从环境中获得的累积奖励值最 大。在强化学习中,我们设计算法来把外界环境转化 为最大化奖励量的方式的动作。我们并没有直接告诉 主体要做什么或者要采取哪个动作,而是主体通过看 哪个动作得到了最多的奖励来自己发现。主体的动作 的影响不只是立即得到的奖励,而且还影响接下来的 动作和最终的奖励。试错搜索(trial-and-error search)和延期强化(delayed reinforcement)这两个 特性是强化学习中两个最重要的特性。
描述一个环境(问题)
Accessible vs. inaccessible Deterministic vs. non-deterministic Episodic vs. non-episodic Static vs. dynamic Discrete vs. continuous
a A ( s ) a a max Pss R V ( s) ss a A ( s ) s
MARKOV DECISION PROCESS
k-armed bandit gives immediate reward DELAYED REWARD?
Characteristics of MDP:
Policy
Is my goal
Reward
Is I can get Is my method Is unknown
Value
Model of environment
在策略Π下的Bellman公式
The basic idea: R t rt 1 rt 2 2rt 3 3rt 4
引言
强化学习技术是从控制理论、统计学、心理学等相关 学科发展而来,最早可以追溯到巴甫洛夫的条件反射 实验。但直到上世纪八十年代末、九十年代初强化学 习技术才在人工智能、机器学习和自动控制等领域中 得到广泛研究和应用,并被认为是设计智能系统的核 心技术之一。特别是随着强化学习的数学基础研究取 得突破性进展后,对强化学习的研究和应用日益开展 起来,成为目前机器学习领域的研究热点之一。
k r (i, u, j),0 1
Policies
{0 , 1,}
p(ik 1 j | ik i) pij k (i)
动态规划 Dynamic Programming –
Finite Horizon Problem
Iterative Solution
强化学习要素
Policy: stochastic rule for selecting actions Return/Reward: the function of future rewards agent tries to maximize Value: what is good because it predicts reward Model: what follows what
States, Actions, Rewards
Environment
state reward action
RL Agent
To define a finite MDP state and action sets : S and A one-step “dynamics” defined by transition probabilities (Markov Property):
is the discount rate
rt 1 rt 2 rt 3 2rt 4 rt 1 R t 1
So:
V ( s) E R t s t s
E rt 1 V s t 1 s t s
与监督学习对比
Supervised Learning – Learn from examples provided by a knowledgable external supervisor.
Training Info = evaluations (“rewards” / “penalties”)
内容提要
引言 强化学习模型
动态规划 蒙特卡罗方法 时序差分学习 Q学习 强化学习中的函数估计
应用
强化学习模型
主体
状态 si 奖励 ri
ri+1 s0
动作 ai
a0
s1
a1
s2
a2
s3
si+1
环境
i: input r: reward s: state
a: action