當機器學會畫畫
05-07
- 介紹
近來,使用神經網路作為生成工具的圖像生成建模已經取得了重大進展。 利用神經網路來進行圖像生成建模,目前已經大量的應用,只是,迄今為止的大部分工作都是針對類似照片這樣的像素層面來建模處理和應用。然而,人類並不認為這個世界是一個像素網格的世界,而是通過進一步的把我們所看到的進行了高度抽象和概括來理解和認識這個世界。 我們從小時候就開始去學習這種抽象概括能力,我們把所看到的東西用鉛筆畫在一張紙上,這一過程中最重要的就是抽象概括能力,比如你看到一頭豬,你抽象出它有4條腿、2隻耳朵、一隻嘴巴....總之,你最後會在腦海中抽象出一隻豬的各種特徵的概念,然後通過筆把這個抽象的豬的概念畫出來。這種用簡單的幾筆就能出描繪物體的能力,可以繪製自己喜歡的動漫角色、家人、朋友和熟悉的地方。 這種簡單的繪畫方式可能不像照片所捕獲的那樣寫實,但它們告訴我們一些關於人們如何表達和重現她們看到過的世界。
機器,是否能夠具有這種對事物進行調整抽象概括能力呢?下面是一個這方面的嘗試的技術研究。
思考人類的這種對事物特徵進行高度抽象概括並重現(表達)的方式,我們認識到可以用一個簡短的筆畫序列來表達一個連續的矢量圖像。 因此,開發出一種傳統像素圖像建模方法的替代方案:矢量圖像的生成模型。在我們的論文中,「A Neural Representation of Sketch Drawings」, 我們提出了一種能夠生成一些常見物體的素描畫的RNN神經網路,其目的是訓練機器以人類的方式繪製和概括抽象概念。 我們在手繪草圖的數據集上訓練我們的模型,通過控制筆的動作來表達筆畫序列:移動方向,何時抬起筆,何時停止繪圖。 在這樣做的過程中,我們創建了一個可能有許多應用領域的的模型,從輔助藝術家的創作過程到幫助教學生繪製。
- 一種矢量圖的生成模型
我們的sketch-rnn模型,是基於seq2seq 自動編碼器框架。 它包含變分推斷( variational inference),並利用Hyper Networks用作RNN網路的神經元。 seq2seq自動編碼器的目標是訓練一個網路,能夠將輸入序列編碼為浮點數的向量,稱為隱藏向量(latent vector),然後,對這些隱藏向量解碼,進行重構,獲得輸出序列,該解碼器的目標是儘可能地保真輸入序列。
在下圖中,我們將幾個實際的貓的草圖(素描)提供給編碼器,以使用解碼器生成重建的草圖(素描畫):



我們還想知道我們的模型是否可以學習畫出多種動物特徵的組合體,如果是,他們會是什麼樣子? 在下圖中,我們通過在貓頭和豬之間插入隱藏向量載體來產生草圖。 我們看到這個過程如何從貓頭,一隻尾巴的貓到一隻胖胖的身體的貓,慢慢地變成一隻完整的豬。 像一個學習畫動物的孩子一樣,我們的模型通過將頭,腳和尾巴附著在身上來學習建造動物。 我們看到,該模型還能夠繪製與豬頭不同的貓頭。


- 利用本方法進行應用創新
除了這項工作的研究部分,我們對機器進行素描的潛在創意應用也感到非常興奮。 例如,最簡單的一個用例:模式設計人員可以應用sketch-rnn為紡織品或壁紙列印生成大量相似但獨特的設計圖案。如前所述,如果給出卡車的輸入草圖,則可以製作一個訓練成像豬一樣的卡車。 我們可以將此結果擴展到應用程序,這些應用程序可能有助於創意設計師提出可以與目標受眾更多共鳴的抽象設計。
探索不同對象之間的隱藏向量空間可能使創意設計師能夠在不同的繪圖之間找到有趣的交點和關係:



最後,
歡迎訪問 AI行業資訊聚合小網站readai.me歡迎關注 ReadAI專欄推薦閱讀:
※神經元 寒武紀水母 脊椎動物神經系統 哺乳動物大腦皮層 神經衝動電傳導 突觸化學傳導 神經遞質 神經迴路
※【可解釋 AI 重大突破】DeepMind 構建心智理論神經網路讓機器互相理解
※從下往上看--新皮層資料的讀後感 第十一部分 hopfield-記憶的兩面
※從下往上看--新皮層資料的讀後感 第三部分 MP神經元-70年前的逆向推演
