Source
Introduction
在 optimization 最挑戰的問題之一是不可微分性。
我們在 convex optimization 不可微分點使用 sub-differential 就看到不同的算法處理不可微分點。
例如 sub-gradient method, 或是 proximal operator.
不過 convex optimization 只是少數幾個點。在 reinforcement learning 遇到的情況是 discrete sequence decision 所造成的結果。Discrete sequence decision 是 discrete 而不可微分?
解法就是引入概率。這和 gradient descent (GD) 變成 stochastic gradient descent (SGD) 基本一樣?
因爲概率分佈是連續可微分。Discrete sequence decision (policy) 可以視爲一個 sample.
PPO (Proximal Policy Optimization) for Reinforcement Learning
我們先 review policy.
Policy Gradient
用玩 game 做例子。