第三章
3.3.1 蒙特卡罗策略评估
接下来,我们对蒙特卡洛方法进行总结。为了得到评估 V(s),我们采取了如下的步骤。 蒙特卡罗策略评估
注意此处在时间步t状态s被访问并更新都是在回合结束之后进行的,这也是为什么蒙特卡罗方法只能用在有终止的马尔可夫决策过程中,因为所有的回报G(t)必须在完整回合结束后才能进行计算,在计算出每一步的G(t)后再重新走一遍该回合的轨迹,此时轨迹上每一步的G(t)都是已知的,再按照书中的V(s)的评估方法的步骤来评估。
这里把经验均值转换成增量均值,此处样本的含义是指对某个特定状态s,每次访问到这个状态s得到的回报G,这里t是可以跨回合的,含义是仅针对状态s,在整个更新过程中访问到s的次数。看下面的增量式蒙特卡罗的更新过程就可以理解这里符号的真正含义了。这里学习率可以手工设置成特定的值来控制。
将其不停迭代,最后可以收敛。如图 3.12 所示,贝尔曼期望备份有两层加和,即内部加和和外部加和,计算两次期望,得到一个更新。 这里说内部和和外部和就是括号内和括号外,括号外是对可能执行的所有动作求期望,括号内则是对执行的每个动作可能得到的所有状态的值求期望。
第五章 PPO
此处通过重要性采样把同策略换成异策略是一个用估计来接近近似的方法,即我们认为
第六章 DQN
我们观察 π 的值,发现里面混杂了一些不是 π 的经验,这有没有关系? 这里回答中说到的过去采样使用的策略和现在的策略不是很像也没有关系,只采样了一笔经验的意思是,如果使用时序差分的方法来更新Q的话,此处Q的更新公式为 Q(s, a) ← Q(s, a) + α * [r + γ * max_a’ Q(s’, a’) - Q(s, a)] 后面方括号内的项为时序差分目标,注意这里r是环境给的奖励,是在采样过程中得到的,而max_a’ Q(s’, a’)这部分则是通过网络估计得出的,也就是说,在一次“经验”中,我们已经知道了(s, a, r, s’)这样一个四元组:
- 在状态
s - 执行了动作
a - 得到了奖励
r - 转移到了新状态
s'那么此处max_a’ Q(s’, a’)只依赖于当前的Q网络根据s’进行评估,也就是说记录和评估是异步发生的,在采样的时候采集的经验仅仅起到记录的作用,有效的是奖励r,而评估则是训练过程中用当前正在训练的网络进行评估的,因此什么时候评估都不影响,这就是时序差分中使用网络来估计行为价值的好处,即把评估和记录解耦开。
第七章 DQN进阶
噪声网络 2017年的一篇文章讲了带噪声的稀疏门控混合专家网络,这里2018两篇文章都是针对深度Q网络加噪,很多不同领域的深度学习方法的思路都具有相通和通用性,关键还是理解背后的原因以及这些做法的优劣。