當前位置：網站首頁>强化學習——策略梯度理解點

强化學習——策略梯度理解點

2022-07-23 14:10:31【小陳phd】

策略梯度計算公式

目的是最大化reward函數，即調整 θ ，使得期望回報最大，可以用公式錶示如下
$\mathrm{J}(\theta)=\mathrm{E}_{\tau \sim p}(\mathcal{T})\left[\sum_{\mathrm{t}} \mathrm{r}\left(\mathrm{s}_{t}, \mathrm{a}_{\mathrm{t}}\right)\right]$
對於上面的式子， $\tau$ 錶示從從開始到結束的一條完整路徑。通常，對於最大化問題，我們可以使用梯度上昇算法來找到最大值，即
$\theta^{*}=\theta+\alpha \nabla \mathrm{J}(\theta)$
所以我們僅僅需要計算 (更新) $\nabla J(\theta)$ ，也就是計算回報函數 $J(\theta)$ 關於 $\theta$ 的梯度，也就是策略梯度，計算方法如下:
$\begin{aligned} \nabla_{\theta} \mathrm{J}(\theta) &=\int \nabla_{\theta \mathrm{p}_{\theta}}(\tau) \mathrm{r}(\tau) \mathrm{d}_{\tau} \\ &=\int \mathrm{p}_{\theta} \nabla_{\theta} \log \mathrm{p}_{\theta}(\tau) \mathrm{r}(\tau) \mathrm{d}_{\tau} \\ &=\mathrm{E}_{\tau \sim \mathrm{p} \theta(\tau)}\left[\nabla_{\theta} \log \mathrm{p}_{\theta}(\tau) \mathrm{r}(\tau)\right] \end{aligned}$
接著我們繼續講上式展開，對於 $\mathrm{p}_{\theta}(\tau)$ ，即 $\mathrm{p}_{\theta}(\tau \mid \theta)$ :
$\mathrm{p}_{\theta}(\tau \mid \theta)=\mathrm{p}\left(\mathrm{s}_{1}\right) \prod_{t=1}^{\mathrm{T}} \pi_{\theta}\left(\mathrm{a}_{t} \mid \mathrm{s}_{\mathrm{t}}\right) \mathrm{p}\left(\mathrm{s}_{t+1} \mid \mathrm{s}_{t}, \mathrm{a}_{\mathrm{t}}\right)$
取對數後為：
$\log p_{\theta}(\tau \mid \theta)=\log p\left(s_{1}\right)+\sum_{t=1}^{T} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) p\left(s_{t+1} \mid s_{t}, a_{t}\right)$
繼續求導:
$\nabla \log p_{\theta}(\tau \mid \theta)=\sum_{t=1}^{T} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)$
帶入第三個式子，可以將其化簡為:
$\begin{aligned} \nabla_{\theta} \mathrm{J}(\theta) &=\mathrm{E}_{\tau \sim p \theta(\tau)}\left[\nabla_{\theta} \log \mathrm{p}_{\theta}(\tau) \mathrm{r}(\tau)\right] \\ &=\mathrm{E}_{\tau \sim p \theta}\left[\left(\nabla_{\theta} \log \pi_{\theta}\left(\mathrm{a}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}\right)\right)\left(\sum_{\mathrm{t}=1}^{\mathrm{T}} \mathrm{r}\left(\mathrm{s}_{\mathrm{t}}, \mathrm{a}_{\mathrm{t}}\right)\right)\right] \\ &=\frac{1}{N} \sum_{\mathrm{i}=1}^{\mathrm{N}}\left[\left(\sum_{\mathrm{t}=1}^{\mathrm{T}} \nabla_{\theta} \log \pi_{\theta}\left(\mathrm{a}_{\mathrm{i}, \mathrm{t}} \mid \mathrm{s}_{\mathrm{i}, \mathrm{t}}\right)\right)\left(\sum_{\mathrm{t}=1}^{\mathrm{N}} \mathrm{r}\left(\mathrm{s}_{\mathrm{i}, \mathrm{t}}, \mathrm{a}_{\mathrm{i}, \mathrm{t}}\right)\right)\right] \end{aligned}$

重要性重采樣

使用另外一種數據分布，來逼近所求分布的一種方法，算是一種期望修正的方法，公式是:
$\begin{aligned} \int \mathrm{f}(\mathrm{x}) \mathrm{p}(\mathrm{x}) \mathrm{dx} &=\int \mathrm{f}(\mathrm{x}) \frac{\mathrm{p}(\mathrm{x})}{\mathrm{q}(\mathrm{x})} \mathrm{q}(\mathrm{x}) \mathrm{dx} \\ &=\mathrm{E}_{\mathrm{x} \sim \mathrm{q}}\left[\mathrm{f}(\mathrm{x}) \frac{\mathrm{p}(\mathrm{x})}{\mathrm{q}(\mathrm{x})}\right] \\ &=\mathrm{E}_{\mathrm{x} \sim \mathrm{p}}[\mathrm{f}(\mathrm{x})] \end{aligned}$
在已知 $q$ 的分布後，可以使用上述公式計算出從 p 分布的期望值。也就可以使用 $q$ 來對於 p 進行采樣了，即為重要性采樣。

版權聲明
本文為[小陳phd]所創，轉載請帶上原文鏈接，感謝
https://cht.chowdera.com/2022/204/202207230753429174.html

當前位置：網站首頁>强化學習——策略梯度理解點

强化學習——策略梯度理解點

策略梯度計算公式

重要性重采樣

邊欄推薦

猜你喜歡

隨機推薦