標籤：

人工智慧筆記論文

[論文筆記] AttnGAN: Fine-Grained Text to Image Generation with GAN

04-30

論文概述

純屬個人理解，梳理自己思路用，僅供參考(可能會有標點錯誤或語句不通順 +_+)

本文提出了細粒度的圖像生成，通過藉助文本描述生成包含充分細節的圖像，利用attention-driven、multi-stage refinement、GAN三種方法來生成理想的圖片，建立了文本描述到圖片細節的attention。構建DAMSM使text-encoder與image-encoder生成的特徵能夠在公共空間中對齊，表示相似性，也就是所利用多模態相似性為目標函數來協同優化特徵提取，使其提取的特徵能夠有利於GAN性能提升。關於模態間的attention效果展示，如下圖所示：

本文核心包含兩個部分，一個是attentional GAN，另一個是DAMSM。框架整體結構如下圖所示，GAN通過attention分別針對不同region來生成，對GAN使用了3個階段來實現細粒度圖像生成。

Attentional Generative Network

使用條件GAN作為圖像生成模型，並設計了三個階段的GAN來逐漸細粒度的精鍊生成圖像。F0階段對全局生成目標四分之一解析度的圖片，F1階段利用attention生成目標二分之一解析度的圖片，F2階段利用attention生成目標相同解析度的圖片，其中F0，F1，F2分別對應一個神經網路。整體公式如下所示：

F1和F2受文本特徵的attention引導，公式如下所示：

為了實現multi-level的精鍊意圖，設計整體流程的損失函數，如下圖所示：

其中adversarial loss，定義如下：

判別網路的損失函數，定義如下：

Deep Attentional Multimodal Similarity Model

DAMSM引導兩個神經網路，將各自特徵在公共特徵空間中，進行語義對齊，建立細粒度相似性度量。這兩個網路提前訓練好，在配合上面時是固定不變，不參與訓練。

- Text Encoder

採用雙向LSTM網路，提取每個word的特徵表示，以及全局整句的特徵表示。

- Image Encoder

採用Inception-v3網路，來提取每個region（使用mixed_6e來表示，768×289，即289個）以及全局（使用last average pool layer）的特徵表示，然後在通過線性操作壓縮特徵到文本相同的維度。

- Attention-driven image-text matching score

設計基於attention來度量image-sentence匹配的目標函數，針對每個region和word使用點乘的方式表示相似性，如下公式

使用下式，歸一化每個word匹配對應region的概率：

使用attention模型計算image所有region在word引導下的特徵表示，如下公式：

其中γ1來調節attention的依賴程度。

定義第i個word和整個image的相似性使用餘弦距離表示，那麼attention的得分函數，定義如下：

- DAMSM Loss

採用監督的方式訓練attention model，在image-sentence數據對中，定義D表示描述信息，Q表示圖像信息，後驗概率表示公式：

在數據對中，只有Di匹配Qi，其餘的都不匹配，採用softmax loss作為損失函數，如下公式

反過來有，

在考慮全局特徵對應的全局損失函數，因此DAMSM的loss定義如下：

推薦閱讀：

※《論語》，孔子的喪葬工作筆記
※筆記工具推薦
※DL4-Deep Learning for Language Modeling
※毛中特·第一章-馬克思主義中國化
※孩子畫，畫的好，將來學醫不用愁！

TAG:論文 | 筆記 | 人工智慧 |