Round 969的VP. 由于前两题之前都已经听过了, 所以做的很快. 最终的成绩是4题左右.
![[misc] 24-10 那些我看到的](/covers/emoji.png)
[misc] 24-10 那些我看到的
![[RL] 第二讲: 马尔科夫决策过程](/images/24-10/24-10-16-01.png)
[RL] 第二讲: 马尔科夫决策过程
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
此为第二讲的内容, 主要讲述了马尔科夫决策过程MDP的概念, 并给出了策略度量, 策略值函数, 基于值函数进行策略提升的内容.
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
此为第二讲的内容, 主要讲述了马尔科夫决策过程MDP的概念, 并给出了策略度量, 策略值函数, 基于值函数进行策略提升的内容.