[RL] 第三讲: 值函数估计

基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)

此为第三讲的内容. 在第二讲中, 我们解释了MDP的概念, 并在MDP处于白盒环境的前提下, 给出了通过期望算子不断进行迭代, 最终得到最优策略的算法. 而在这一讲中, 我们考虑根据一批样本来估计出一个值函数的方法, 包括MC方法和TD方法.

TODO: 编写值函数估计相关的库函数, 包括DP, MC, TD三种实现的函数
预计在gym环境上对这些函数进行测试
相关gym环境强化学习基础篇（十）OpenAI Gym环境汇总 - 简书 (jianshu.com)

无模型的强化学习（Model-free RL）

在白盒环境中, 我们根据如下公式来对值函数进行计算

V(s) = E[G_t|S_t = s] = E[\sum_{i = t}^{T} \lambda ^{i - t} R_i|S_t = s] = E[R_{S_t}^{A_t} + \lambda V(S_{t+1}) | S_t = s]

其中, 将期望展开可以得到

V(s) = \sum_{a\in A}^{a} \pi_{s}^{a}[R_{s}^{a} + \lambda\sum_{s' \in S} P_{ss'}^{a}V(s')]

而在黑盒情况下, 我们无法直接对相关的期望进行求解, 只能通过"样本均值"对期望进行拟合.

于是,

结合前面的直接求解法以及DP求解法, 可总结归纳如下:

大致思想上与前面讲的一致, 即用样本均值 $\sum_{i}^{N} r_i / N$ 来近似 $R_i$ .
有一点不同的是, 此处不是对所有的 $R_i$ 做简单平均, 而是做了加权平均和来获取最终的期望目标 $E[G_t]$ . 具体的加权分布与参数 $\alpha$ 有关
关于 $\lambda$ $λ$ 与 $\alpha$ $α$ :
- $\lambda$ 越大, agent在每个episode中越关注未来奖励, 假定环境需要长远地考虑
- $\alpha$ 越大, agent在训练时越关注近期的episode, 而忽略历史的episode, 假定环境的变化性是比较强的

此处我们考虑重要性采样, 从而引出TD方法.

假设我们有从分布 $q$ 中采样得出的一系列样本x, 并想要通过这些样本来求出 $p$ 的期望, 那么可做如下变化

E_{x\sim p}[f(x)] = \int_{x} p(x) f(x) = \int_{x} q(x) \frac{p(x)}{q(x)} f(x) = E_{x\sim q}[\frac{p(x)}{q(x)}f(x)]

于是, 我们就可以将q中采样得到的x加上一个重要性权重 $\beta(x) = \frac{p(x)}{q(x)}$ , 然后求出它们的期望(通过样本均值), 就可以得到想要的 $p$ 的期望.

在RL中, 我们采用MC方法时采样得到的样本为 $x = [s_t, a_t, r_t, ..., s_T, a_T, r_T]$

根据策略 $\pi$ 与 $\mu$ 和环境交互导出的分布, 我们可以导出重要性权重:

\beta(x) = \frac{p(s_t)\pi(a_t| s_t)P(s_{t + 1}|s_t, a_t) ... } {p(s_t)\mu(a_t|s_t)P(s_{t + 1}|s_t, a_t) ... } = \frac{\pi(a_t|s_t)\pi(a_{t+1}|s_{t+1})...} {\mu(a_t|s_t)\mu(a_{a+1}|s_{t+1})...}

于是, 我们通过这种方法可以做到:

根据权重函数, 容易得到

由于上面的缺点, 我们引入了TD.

因此, TD方法可以在episode还未结束时就更新策略, 并实时地采用新策略不断进行采样, 实现在线的控制.

定义n步回报

g^{(n)}_t = r_t + \lambda r_{t+1} + ... + \lambda^{n-1} r_{t+n-1} + \lambda^{n} V(s_{t+n})

更新公式为

V(s) \leftarrow^{\alpha} g^{(n)}_t