基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)

前面我们讨论了许多黑盒的方法, 在那些方法中我们并不考虑环境, 而是直接从数据片段进行学习. 而现在, 我们将尝试获取一个模拟环境, 并通过模拟数据来学习.

课程回顾:

基于模型的动态规划

无模型的RL:

在线策略蒙特卡洛 $V(s_t) \leftarrow ^{\alpha} g_t$
在线策略时序差分 $V(s_t) \leftarrow ^{\alpha} r +\lambda V(s_{t+1})$
在线策略时序差分 SARSA (直接指导策略) $Q(s_t, a_t) \leftarrow ^{\alpha} r + \lambda Q(s_{t+1}, a_{t+1})$
离线策略时序差分 Q学习 (允许离线, 同时学习) $Q(s_t, a_t) \leftarrow ^{\alpha} r + \lambda \max_{a'} Q(s_{t+1}, a')$

策略提升定理:
价值评估指导策略提升

如何更精确地评估价值?

规划与学习

模型: 可以分为分布模型及样本模型(白箱状态, 可写出分布的模型及黑箱状态, 只能进行采样的模型.)

规划: 状态空间的规划 / 规划空间的规划(将规划本身作为空间考虑. 此处规划可以是一个动作结合和动作顺序的约束)

本节课主要围绕状态空间的规划.

通用框架:

Dyna. 引入了模拟经验的Q学习:

对比普通的方式, 能够更快收敛, 同时更好应对变化的环境.

Dyna-Q+

在原始的奖励值中加上了一个鼓励探索的正则项.

r' = r + K \sqrt{\eta}

采样方法

期望更新与采样更新:

实时DP(RTDP)
相比传统DP: 跳过了大量策略无关的状态. 只更新轨迹访问的状态值

期望意义下的单步TD.

决策时规划 vs 背景规划:
Background Planning 更新很多状态值, 供之后的选择使用.
Decision-time Planning 着眼于当下, 在不需要快速反应的游戏中很有用.