論強化學習和概率推斷的等價性：一種全新概率模型

06-26

來自專欄機器之心

選自arXiv，作者：Sergey Levine，機器之心編譯。

雖然強化學習問題的一般形式可以有效地推理不確定性，但強化學習和概率推斷的聯繫並不是很明顯。在本文中，UC Berkeley EECS 助理教授 Sergey Levine 提出了一種新的概率模型和理論框架，證明了強化學習的一般形式即最大熵強化學習與概率推斷的等價性。在原則上，將問題形式化為概率推斷，可以應用多種近似推斷工具，將模型以靈活、強大的方式進行擴展。

概率圖模型（PGM）為機器學習研究者提供了一種廣泛適用的工具（Koller 和 Friedman，2009）：該模型用概率理論表達整個學習問題，為原則目標的設計提供了一個一致、靈活的框架，建立了反映世界因果結構的模型，並允許針對廣泛的問題領域部署一組通用的推理方法。事實上，如果一個特定的學習問題可以形式化為概率圖模型，我們通常會將其作為解決問題的第一步，也是最重要的一步。關鍵的是，在 PGM 框架下，寫下模型並提出問題就足夠了，學習和推理的目標會自動湧現。

一般來講，被形式化為強化學習或最優控制的決策問題會被投射到一個框架中，該框架旨在用效用或獎勵來擴充概率模型，進而實現模型的泛化，其中獎勵函數被視為外部信號。根據這種觀點，確定最佳行動方案或最佳決策策略是一種與概率推理截然不同的問題，儘管潛在的動力系統仍然可以用概率圖模型來描述。在本文中，我們提出了關於決策、強化學習和最優控制的另一種觀點，其中決策問題只是特定類型圖模型中的一種推理問題。將決策形式化為概率圖模型中的推理，原則上可以使我們得以應用廣泛的近似推理工具，以靈活而有力的方式對模型進行擴展，並對模型的組合性和部分可觀測性進行推理。

具體來說，我們將討論強化學習或最優控制問題（有時稱為最大熵強化學習）的泛化如何等價於確定性動力學機制下的精確概率推理及隨機動力學機制下的變分推斷。所有這些方法都包括將控制或強化學習明確或隱含地表述為 PGM，然後部署來自 PGM 文獻的學習和推理方法以解決由此產生的推理和學習問題。

將強化學習和決策形式化為推理可以創造出許多其他有吸引力的工具：基於熵最大化的自然探索策略、逆向強化學習的有效工具以及部署解決強化學習問題的強大的近似推理演算法的能力。此外，概率推理和控制之間的聯繫為獎勵函數的含義及其對最優策略的影響提供了一種有吸引力的概率解釋。強化學習中獎勵或成本函數的設計往往與科學一樣藝術，獎勵的選擇往往模糊了演算法與目標之間的界限，為任務定製的啟發式演算法和任務目標組合成單個獎勵。在作為推理框架的控制中，獎勵誘導隨機變數的分布，最優策略的目標是明確匹配由獎勵和系統動力學定義的概率分布，這可能為今後的工作提供一種系統化獎勵設計的方法。

本文將提出一種概率模型，用於將控制或強化學習的最大熵泛化嵌入 PGM 框架中，描述如何在該模型（確切地說是在確定性動力學機制下，或隨機動力學機制下的結構化變分推理）中進行推理，並討論基於函數逼近的近似方法如何在該框架中擬合。雖然控制的特殊變分推理解釋與以往的研究有所不同，但本文的目的並不是要提出一種從根本上看待控制與推理之間聯繫的新方法。更確切地說，本文是以獨立和可訪問的教程形式統一處理該主題，並將該框架與最近在強化學習方面的研究相聯繫，包括最近提出的深度強化學習演算法。此外，本文還對近年來與控制作為概率推理的觀點相關的強化學習文獻進行了綜述，並對未來的研究方向提出了一些看法。

在控制問題中利用圖模型進行推斷

在這一部分，我們將證明基礎的圖模型可以讓我們在 PGM 框架中嵌入控制，並討論該框架如何導出多種標準強化學習和動態編程方法的變體。這部分展示的 PGM 對應標準強化學習問題的泛化，其中 RL 目標函數增加了一個熵項。獎勵函數的量在獎勵最大化和熵最大化之間進行權衡，使原始強化學習可以由無限大獎勵值極限導出。我們首先定義符號，然後定義圖模型，再展示多種推斷方法，並解釋它們和強化學習、動態編程的標準演算法的聯繫。最後，我們將討論該方法的一些局限，啟發第三部分的變分方法。

變分推斷和隨機性動力學

在隨機性動力學的情況下，最大熵框架的根本困難（參見 2.3、2.4）在於假設智能體被允許同時控制它的動作和系統動態，以生成最優軌跡，但它對系統動態的控制權基於對真實動態的偏差而被懲罰。因此，等式（10）中的 log p(s_t+1|s_t, a_t) 項可以分離到等式之外，生成附加項，其對應的是後驗動態 p(s_t+1|s_t, a_t,O1:T) 和真實動態 p(s_t+1|s_t, a_t) 之間的交叉熵。這解釋了 2.3 節中討論的該方法的追逐風險的本質：如果智能體被允許影響它的動態，即使很微弱，它也將合理地移除危險動作的發生可能性不大但卻極端糟糕的輸出。

當然，在實際的強化學習和控制問題中，這種對系統動態的操控是不可能的，並且得到的策略會導致災難性的糟糕輸出。我們可以通過修改推斷過程修正這個問題。在這一部分中，我們將通過固定系統動態，寫下對應的最大熵目標函數，來推導這種修正，並導出一個動態編程過程來對其進行優化。然後，我們將表明該過程可以應用到多種結構化變分推斷中。

用函數逼近實現近似推斷

在上一部分中，我們討論了動態編程反向演算法結合類似 Bellman backup 的更新過程，可以得到類似最大熵強化學習框架中的價值函數和 Q-函數，隨機最優化策略可以由 Q-函數和價值函數得到。在這一部分中，我們將討論高維或連續的強化學習問題的實用演算法如何從這個理論框架中使用函數逼近推導出來。然後，我們能得到很多類似標準強化學習中概念的對應技術：策略梯度、actor-critic 演算法和 Q-學習。

論文：Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review

論文地址：https://arxiv.org/abs/1805.00909

摘要：強化學習或最優控制的框架為智能決策提供了數學形式，使其變得強大和應用廣泛。雖然強化學習問題的一般形式可以有效地推理不確定性，但強化學習和概率模型推斷的聯繫並不是很明顯。然而，在演算法設計中考慮這樣的聯繫還是有價值的：在原則上將一個問題形式化為概率推斷，使我們能應用多種近似推斷工具，將模型以靈活、強大的方式進行擴展，並對組合性和部分可觀測性進行推理。在本文中，我們將討論強化學習或最優控制問題的一般形式（有時稱為最大熵強化學習）如何與確定性動力學的概率推斷等價，並與隨機性動力學的變分推斷等價。我們將展示該框架的細節推導，概述以前的相關研究和相關思想來提出新的強化學習和控制演算法，並展望了未來的研究方向。