[RL] 第七讲: 深度强化学习

基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)

我们进一步介绍各种深度学习方法. 由于引入了神经网络和深度学习, 所以我们遇到了更多的问题, 也探究出了更多的解决方法.

课程回顾:

深度强化学习: 直接用端到端的形式来解决问题.

DQNs

同时, 由于我们引入了神经网络, 又面临了一些新的问题

于是我们需要做一些额外的处理

我们在buffer池中进行采样. 此时可以引入不同的采样几率, 完成优先经验回放, 同时用一个重要性采样的系数使得样本的更新服从原来的分布

类似于前面的做法, 我们可以在价值函数更新的过程中, 不直接依据原来的值进行更新, 而是进行某种"归一化"之后, 再对梯度进行更新, 从而做到"好的更好, 差的更差"的效果.

优点:

我们考虑连续动作的情况, 同样使用 Actor- Critic 模式.

于是可以求出策略的梯度为

D. Silver et al. Deterministic Policy Gradient Algorithms. ICML 2014.

实际应用中, 这种带有神经网络函数近似器的ac在面对复杂问题时不稳定

Lillicrap et al. Continuous control with deep reinforcement learning. NIPS 2015.

此时依然有过高估计问题 ( $\pi$ 可能利用Q函数的漏洞 exploitation)

Fujimoto et al. Addressing Function Approximation Error in Actor-Critic Methods. ICML 2018.

进行了平滑, 先取最小值后最大化, 延迟更新参数的方法

这一部分比较前沿, 各种成果理论都比较新, 讲起来比较简略模糊. 看看论文应该理解会更深一些.