学习Automata PPT的记录. 相关笔记会另开博客记录. 也可能不会开.
![[misc] 24-12 那些我看到的](/covers/emoji.png)
[misc] 24-12 那些我看到的
![[misc] 24-11 那些我看到的](/covers/emoji.png)
[misc] 24-11 那些我看到的
![[RL] 第八讲: 深度策略梯度](/images/24-11/Screenshot%20from%202024-11-05%2016-27-46.png)
[RL] 第八讲: 深度策略梯度
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
前面讲的DQNs和DPGs要么是基于价值的方法, 要么是基于确定性策略的方法. 这里我们讨论基于随机策略的方法.
![[RL] 第七讲: 深度强化学习](/images/24-11/Screenshot%20from%202024-11-05%2016-27-46.png)
[RL] 第七讲: 深度强化学习
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
我们进一步介绍各种深度学习方法. 由于引入了神经网络和深度学习, 所以我们遇到了更多的问题, 也探究出了更多的解决方法.
![[RL] 第六讲: 价值和策略近似逼近方法](/images/24-11/Screenshot%20from%202024-11-05%2015-44-37.png)
[RL] 第六讲: 价值和策略近似逼近方法
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
前面我们基于格子世界, 讨论了离散状态和离散动作. 现在, 我们引入神经网络, 开始探索连续的使世界.