在 Linux 中,可以使用多种方法进行屏幕截图.

AnaConda的安装与使用简介

linux系统中, 关于环境变量的那些事

docker+Alist+rclone 将夸克网盘挂载至本地
![[RL] 第三讲: 值函数估计](/images/24-10/24-10-16-01.png)
[RL] 第三讲: 值函数估计
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
此为第三讲的内容. 在第二讲中, 我们解释了MDP的概念, 并在MDP处于白盒环境的前提下, 给出了通过期望算子不断进行迭代, 最终得到最优策略的算法. 而在这一讲中, 我们考虑根据一批样本来估计出一个值函数的方法, 包括MC方法和TD方法.
![[RL] 第五讲: 规划学习](/images/24-11/Screenshot%20from%202024-11-05%2015-11-28.png)
[RL] 第五讲: 规划学习
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
前面我们讨论了许多黑盒的方法, 在那些方法中我们并不考虑环境, 而是直接从数据片段进行学习. 而现在, 我们将尝试获取一个模拟环境, 并通过模拟数据来学习.
![[RL] 第一讲: 强化学习, 探索与利用](/images/24-10/24-10-05-00.png)
[RL] 第一讲: 强化学习, 探索与利用
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
此为第一讲的内容, 主要对RL做了导论的内容, 同时以多臂老虎机作为例子, 讲述了探索与利用相关的内容.
![[misc] RL第二讲的相关证明](/images/24-10/24-10-16-20.jpg)
[misc] RL第二讲的相关证明
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
此为第二讲内容的杂项. 由于两个动态规划算法: 策略迭代算法和价值迭代算法的严格证明内容比较多, 于是将其单独列为一篇Blog记叙于此.
包含此定理在内的其他相关数学证明可以在
rl-proofs.pdf (wnzhang.net)
中找到.
![[RL] 第四讲: 无模型控制方法](/images/24-10/24-10-21-02.png)
[RL] 第四讲: 无模型控制方法
基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)
- 在第三讲中, 我们讲述了采样方法下, 对值函数进行估计的办法; 估计完毕值函数之后, 会作策略提升;
- 这一讲中, 我们讲直接作价值提升的算法.
- 可以理解为贪婪的值函数更新方法, 直接在每一步都对策略进行更新.
- SARSA, Q-learing, 多步自助方法.
各种方法的三重维度:
- 取期望 vs 大数定理采样 (BFS vs DFS)
- 多步迭代拟合后提升 vs 一步后直接max作提升 (策略迭代 vs 价值迭代)
- 对T步数据进行学习(无偏) vs 对一步数据进行学习(有偏) (MC vs TD)
![[misc] 24-10 那些我看到的](/covers/emoji.png)