RNN part 5-GRU(Gated Recurrent Unit)

05-08

GRU(Gated Recurrent Unit)由Cho, et al在2014年提出。是LSTM模型的變種，進行了適當的簡化。

1. GRU

結構如圖所示，其中

這個模型較為簡單，數據流圖也不做過多解讀。

與LSTM相比，GRU存在著下述特點。

在GRU中， $r_t$ 和 $z_t$ 共同控制了如何從之前的隱藏狀態 $h_{t-1}$ 計算獲得新的隱藏狀態 $h_t$ ，而取消了LSTM中的output gate。
如果reset gate為1，而update gate為0的話，則GRU完全退化為一個傳統RNN。

在實踐中，一般認為LSTM和GRU之間並沒有明顯的優勝者。因為GRU具有較少的參數，所以訓練速度快，而且所需要的樣本也比較少。而LSTM具有較多的參數，比較適合具有大量樣本的情況，可能會獲得較優的模型。

在Andrew的課程中表示，如果只能選擇一個模型，那麼LSTM是大家的default RNN。