前段时间的总结回顾.
[misc] 24-11 那些我看到的
[RL] 第八讲: 深度策略梯度
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
前面讲的DQNs和DPGs要么是基于价值的方法, 要么是基于确定性策略的方法. 这里我们讨论基于随机策略的方法.
[RL] 第七讲: 深度强化学习
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
我们进一步介绍各种深度学习方法. 由于引入了神经网络和深度学习, 所以我们遇到了更多的问题, 也探究出了更多的解决方法.