David Silver策略梯度算法及实际应用（实现Pong游戏）

到目前为止，策略梯度是最常用的 RL 算法之一。研究表明，经过适当的调整，它们的性能要优于 DQN，同时内存和计算消耗又不会过高。与 Q learning 不同，策略梯度使用参数化策略，可以在无须价值函数的情况下选择动作。

在策略梯度中有一个性能指标 η(θ_p)，目标是最大化性能，同时根据梯度上升算法更新神经网络的权重。然而，TensorFlow 没有 maximum 优化器，因此，需要使用指标梯度负值 -▽η(θ_p) 的最小化来替代。

准备工作

Pong 是一个双人游戏，游戏的玩法是将球弹给对方，智能体可以上下移动球拍，也可以不操作。OpenAI 环境中的一个玩家是熟悉游戏规则的 AI 玩家，这里的目标是使用策略梯度来训练第二个智能体，使其成为每个玩过的游戏的专家。

代码中只运行了 500 次游戏，并在指定检查点保存智能体状态，这样在下一次运行时加载上一个检查点就可以了。为此，声明一个保存器（saver），然后调用 TensorFlow 的 saver.save 方法保存当前网络状态（检查点），最后从上次保存的检查点加载网络，下一节中定义的 PolicyNetwork 类用下面的方法完成这个工作：