In this work, we propose a language model that leverages subword information through a character-level convolutional neural network (CNN), whose output is used as an input to a recurrent neural network language model (RNNLM).
只用了一次 convolutional + pooling (max-over-time),並且作者表示用多次 conv+pooling 的組合(stacked,就像 CNN for Sentence Modeling 那裡一樣,並沒有提升效果)。Whereas a conventional NLM takes word embeddings as inputs, our model instead takes the output from a single-layer character-level CNN with max-over-time pooling. 除了在 stacked 與否的問題上,和 Sentence Modeling 的 CNN 不同的第二個地方在於,這裡不再是 wide convolutional,而是 narrow convolutional。
Similar to the adaptive memory cells in LSTM networks, HW-Net allows for training of deep networks by adaptively carrying some dimensions of the input directly to the output.
Applying HW-Net to the CharCNN has the following interpretation: since each output is essentially detecting a character n-gram (where n equals the width of the filter), HW-Net allows some character n-grams to be combined to build new features (dimensions where transform ≈ 1), while allowing other character n-grams to remain 『as-is』 (dimensions where carry ≈ 1).
最後作者在實驗結論部分表示這個 highway 對於 character-aware compositonal 的 model 非常重要,對於 word-level 不重要。加不加這個東西,可以從學出來的 word representation 周圍都是啥詞看出效果(見 Table 5). 這個結果還是不要太明顯……震驚。
Before the highway layers the representations seem to solely rely on surface forms—for example the nearest neighbors of you are your, young, four, youth, which are close to you in terms of edit distance. The highway layers however, seem to enable encoding of semantic features that are not discernable from orthography alone. After highway layers the nearest neighbor of you is we, which is orthographically distinct from you. Another example is while and though— these words are far apart edit distance-wise yet the composition model is able to place them near each other.
HW Net 對於 word-level 沒用的原因是:dimensions of word embeddings do not (a priori) encode features that benefit from nonlinear, hierarchical composition availed by highway layers. 最後這篇的 Related Work 也很值得看。
Character-level Convolutional Networks for Text Classification
這篇論文前身是《Text Understanding from Scratch》,當時在微博上一時因為實驗效果太過拔群,引起轟動和過分關注。最後被發現是實驗數據測試集訓練集有嚴重重疊,暫時撤稿。重新修改後被 NIPS』15 接收。這篇論文的風格給人感覺非常不 NLP,從術語到模型思路,到寫作風格,都感覺是純做 Deep Learning 的人,來做了 NLP 的任務而已。
文章中的模型是完全基於 ConvNet 改造。按照作者的原話是,This article is the first to apply ConvNets only on characters。是很規矩的, temporal convolutional,temporal max-pooling (max-over-time),然後有 dropout 在最後三個全連接層。值得注意的是他們用到的 nonlinear funtion 是 rectifier/thresholding:h(x) = max{0,x},使得很像 ReLUs。
細節上,這個模型十分「簡單」,並沒有做變長的 convolutional 處理。也就是說,一旦一個輸入的 text chunk,超過了他們預定的一個 length,那麼後面的 character 就都不要了。輸入的時候就是把一個定長的 character embedding sequence input 進去。另外的細節是,儘管不是用 RNN 這樣的 recurrent 模型 encoding decoding,但他們依然用 reverse 的 input,The character quantization order is backward so that the latest reading on characters is always placed near the begin of the output, making it easy for fully connected layers to associate weights with the latest reading。
在實驗設置上考慮了大小寫區分開,然後發現很多時候區分反而不如不區分。We report experiments on this choice and observed that it usually (but not always) gives worse results when such distinction is made. One possible explanation might be that semantics do not change with different letter cases, therefore there is a benefit of regularization. 他們使用了 Data Augmentation,用同義詞去製造更多的「正例」。這部分細節在 Section 2.4。
Without the attention mechanism, the model overfits the training data significantly, in spite of our large training set of three million utterances - it memorizes the training transcripts without paying attention to the acoustics. Without the pyramid structure in the encoder side, our model converges too slowly - even after a month of training, the error rates were significantly higher than the errors we report here.
這樣的模型可以保留一個 encoding for each sentence,這個 encoding 會很有用,就被稱為 skip-thoughts vector,用來作為特徵提取器,進行後續 task。注意是 Figure 1 中所謂的 unattached arrows,對應在 decoder 階段,是有一個 words conditioned on previous word + previous hidden state 的 probability 束縛。同時,因為 decoder 也是 RNN,所以可用於 generation(在論文結尾處也給出了一些例子)。
本文的另一個貢獻是 vocabulary mapping。因為 RNN 的複雜性,但作者又不希望不能同時 learn word embedding,所以只好取捨一下——我們 learn 一部分 word embedding(words in training vocabulary);對於沒出現的部分,我們做一個 mapping from word embedding pre-trained from word2vec。這裡的思想就是 Mikolov"13 年那篇 word similarity for MT 的,用一個沒有正則的 L2 學好 mapping。
在實驗中,他們用此方法將 20K 的 vocabulary 擴充到了 930K。
In our experiments we consider 8 tasks: semantic-relatedness, paraphrase detection, image-sentence ranking and 5 standard classification benchmarks. In these experiments, we extract skip-thought vectors and train linear models to evaluate the representations directly, without any additional fine-tuning. As it turns out, skip-thoughts yield generic representations that perform robustly across all tasks considered.
首先是他們有三種 feature vectors,uni-skip/bi-skip/combine-skip。分別對應 encoder 是 unbidirectional,bidirectional,和 combine 的。分別都是 4800 dimensions。對於不同的 task,可能用不同的 feature indicator,比如把兩個 skip-thoughts-vectors u 和 v,點乘或者相減,作為兩個 feature,再用 linear classifier(logistic)。
Ask me anything: Dynamic memory networks for natural language processing
We achieve near-perfect accuracy on all categories, including positional reasoning and pathfinding that have proved difficult for all previous approaches due to the special two-dimensional relationships identified from this study.
2.《Machine Comprehension with Discourse Relations》. Karthik Narasimhan and Regina Barzilay. ACL 2015. MIT CSAIL 出品。開源。是一篇很 neat 的論文,而且不是 NN。這篇文章的賣點是:discourse information + less human annotation所以他們的 model,可以使用 discourse relation(relations between sentences, learned, not annotated) 去增強 machine comprehension 的 performance。具體的,他們先使用 parsing 等方法,去選出和 question 最 relevant 的一個句子(Model 1)或者多個句子(Model 2 和 Model 3),並在這個過程中建立 relation,最後預測。思想都是 discriminative model 的最簡單的思想,找 hidden variable,概率連乘。如果對本文有興趣,推薦看 Section 3.1,討論了一下他們認為這個 task 上可能相關的四【類】feature。
3.《Reasoning in Vector Space: An Exploratory Study of Question Answering》. In submission to ICLR 2016. 文章來自 Microsoft Jianfeng Gao, Xiaodong He 團隊。是一份比較詳細的針對 Facebook 20 tasks(FB20)的分析和工作。所謂分析是指,過去針對 FB20 的 Reasoning Work 基本都是 end-to-end 的,所以對於 error case 的分析不夠明確,不知道到底是作為 basis 的 semantics 就沒建模好;還是 reasoning 的過程出了問題。為了進一步提高在這個 tasks 上的 performances,作者就將 end-to-end 拆分開來,利用 tensor product representation(TPR)的方法,融合一些 common-sense inference(比如東和西是 opposite 的兩個方向),將 FB20 的正確率提高到了幾乎完美的程度。
Visualizing and understanding recurrent networks
作者是寫出《The Unreasonable Effectiveness Of RNN》 博文的 Stanford 學生,Andrej Karpathy。同時 Andrej Karpathy 也是 Fei-Fei Li 教授的高徒。
這篇工作從幾個月前遞交到 arXiv,前幾日又更新了一版,投到了 ICLR 2016,內容上是博文的擴展。主要是通過 controlled experiment 的實驗方式,結合可視化的方法,去「量化」展示 char-LSTM 到底為什麼 powerful,是否真的如 often cited/claimed 的那樣,可以 model long term dependency。這篇工作最後的結論也和之前 Yoav Goldberg 澄清 char-LSTM 令人驚奇之處的文章一致——指出 char-LSTM 厲害之處,不在於它能 generate 出看起來還不錯的 char sequence,而是在於其對於 bracket, quote 等顯著 long distance information 的 retrieval 能力。
它們通過 visulization cell 的激活,gate activation statistics, error type/case analysis 的方式,展現了許多 LSTM 確實是「對應」和「負責」某些 character position 的,同時 LSTM 確實比 n-gram character language model 大幅降低了 bracket, quote 等 long distance information 的 error case。
End-to-end memory networks
這篇文章,及 Neural Turing Machine,其實是很多類似思想的前身工作,下次會把相關一起對比一下。這類工作的 motivation 是,如何把 large body 的 external memory 用在 Neural Networks 里。
從 NTM 的兩個 motivation 出發,就可以看出NTM 的兩個 goal:(1)NTM 是為了增強 RNN 的學習能力,那麼它也應該像 RNN 一樣能 solve problems;(2)NTM 是模擬圖靈機,是否有可能學習出內部演算法?基於這兩個 goal,這篇工作中設計了很多種 tasks,比如 copy,比如 priority sort,同時橫向對比了三種架構,NTM with LSTM, NTM with feedforward, standard LSTM。
Deep Generative Image Models Using A Laplacian Pyramid Of Adversarial Networks
這個工作雖然知名度不那麼大,但是也已經被廣泛引用和改進。同樣是來自 NYU 和 Facebook AI team 的合作(這次 DL Symposium 中入選的很多篇都出自他們)。工作的思想上很像之前推薦過很多次的 Google DeepMind 的DRAW,就是說,我們在 generate 圖片時,不要強迫 model 一步到位,而是讓它一步步來。
這篇工作中的 model 叫做 Laplacian Generative Adversarial Networks(LAPGAN),由 conditional GAN 和 Laplacian pyramid 結構組成。前者,conditional GAN 是 GAN 的一種改造,而 GAN 是由一個用於生成 sample 的 generative model(G) 和 一個用於比較 G 生成的 sample 和真實 training data 的 discriminative model(D)構成的框架。那麼 conditional GAN 就是在此基礎上,再增加上 additional information,比如 sample class/label。後者,Laplacian pyramid 則是一種層次化的圖像特徵表達,主要體現的圖像不同 scale 之間的差異。具體公式可以見 Equation (3)-(4)。那麼這篇工作就是將這兩點結合起來,使得 GAN 也變成一種層次化的 framework,變成了 multi-scale 的。
Breaking the generation into successive refinements is the key idea in this work. Note that we give up any 「global」 notion of fidelity; we never make any attempt to train a network to discriminate between the output of a cascade and a real image and instead focus on making each step plausible. Furthermore, the independent training of each pyramid level has the advantage that it is far more difficult for the model to memorize training examples – a hazard when high capacity deep networks are used.
Natural Neural Networks
這篇論文的 motivation 也很 fundamental,是說 SGD 這樣基於 point gradient 的優化方法,在日趨複雜的 NN 架構上越來越無力。另一方面,distribution gradient 的方法則還有很多值得探索的空間。畢竟 distribution 在優化的過程中,是一直可被捕捉的(見今天的另一篇論文《Early stopping is nonparametric variational inference》)。Distribution gradient 的求解就需要 KL divergence measurement 和 Fisher matrix。然而,Fisher matrix 的求解計算量非常大(matrix size 大,且包括逆運算等等),使得過去想用 Fisher matrix 的工作都不太 scalable。
個人認為這篇工作很直觀的貢獻是,過去的一些 NN tricks,比如 batch normalization (before non-linearity),zero-mean activations 等等,在這個框架下,都可以有一些理論上的解釋。也算是 theoretical Deep Learning的一種進展吧。
Early stopping is nonparametric variational inference
這篇文章很推薦,是一篇優化相關的工作。出發點是,我們除了去優化 training loss,我們也可以優化 marginal likelihood。這樣有很多優勢,首先,我們就不需要哪些基於 validation set 的 trick 了(比如 early stopping),我們可以直接用 marginal likelihood estimator 去 evaluate performance。
那麼如何實現這件事呢,這篇工作給優化過程找了一些 Bayesian 的解釋:優化過程中,每一步都會「生成」一個 distribution。這樣,整個優化過程中,就會產生一個 distribution sequence。這個 sequence 從 Bayesian 的角度,可以看成是被某個 true posterior distribution 不斷 sample 出來的,sample 的樣本數 N,也就是優化的迭代次數,就可以被看成是 variational parameter。有了這樣一個解釋,作者進一步就把 early stopping 這個 trick 解釋成了對 varitional lower bound 的優化;ensembling random initializations 就可以看成是 ensembling various independent variational samples.
上面所說的,就是這篇論文的第一個貢獻(也是論文的標題)。除此以外,本文利用這樣的解釋,進一步去構造了 marginal likelihood estimator,並用這個 estimator 去做了 training stop 選擇,model selection capacity 選擇和 model hypermeter 選擇。
之所以推薦這篇文章,並不是說它給出的這種優化方法就比以前 SGD 等等優化 training loss 的好;而是基於兩個原因:(1)首先,它裡面提到了非常多對於優化的思考。比如 training loss 和 marginal likelihood 兩個「指標」,到底應該更「相信」哪個?varational lower bound 這個東西越高,是否真的代表 model 的 accuracy 越准?它和 validation error/test error 指標相反的時候該怎麼理解?這些是很有趣的。(2)對於優化過程中 distribution sequence 的解釋我個人覺得很有用,現在 variational sequence learning 的工作也越來越多,但是被優化方法局限。這個工作也是一個啟發。
Dropout as a Bayesian approximation: Representing model uncertainty in deep learning
另外可以想到,這樣的 Bayesian 解釋,有助於提高 model interpretation 的能力,也算是一個非常大的 motivation。最後,如果覺得論文讀起來比較枯燥,可以去作者主頁找他相關的 slides,看起來非常生動。主頁上還有他自己寫的一篇 blog,詳細地展示了他的 motivation。這次 DL Symposium 中的另外兩篇,《Stochastic backpropagation and approximate inference in deep generative models》和《Scalable Bayesian optimization using deep neural networks》也和這個工作非常相似,就不單獨介紹了。
Sparse Linear Programming via Primal and Dual Augmented Coordinate Descent UT Austin 這個工作利用LP解的稀疏性開發了一個近似求解LP的快速演算法
統計
A Linear-Time Particle Gibbs Sampler for Infinite Hidden Markov Models University of Cambridge 利用hidden states後驗分布的稀疏性設計了一個加速的particle Gibbs sampler
Estimating Mixture Models via Mixtures of Polynomials Stanford 一個非常精妙的想法:把mixture model的參數看成empirical measure,通過先估計它的moment來反過來求解參數,某種程度上避免了傳統EM方法中identifiability的問題。
Moment matching for LDA and discrete ICA INRIA/ENS 算是第二篇利用moment matching來求解LDA的演算法,比前一篇的效果好,這類moment based的方法可以避免傳統方法要麼太過依賴初始化(variational inference),要麼收斂太慢的問題(MCMC)。
Extending Gossip Algorithms to Distributed Estimation of U-statistics ParisTech 我也很喜歡這個工作,傳統的gossip algorithm只能用來求解mean statistics,作者把它推廣到U-statistics,值得一看。
Fast and Accurate Inference of Plackett–Luce Models EPFL PL model的應用在推薦系統中非常廣泛,這篇文章的方法可以適用於更加flexible的ranking tuple data。
學習
Learning with Group Invariant Features: A Kernel Perspective 通過定製action來自動學習action invariant的kernel,不過作者沒有給出對具體問題應該如何設計template function的回答(目前用的是Gaussian sampling)。
Principal Differences Analysis: Interpretable Characterization of Differences between Distributions MIT 一個新的框架,可以用來選擇特徵(feature selection),效果比傳統方法好很多,非常值得一看。缺點的優化問題是非凸的。我跟作者聊完後,發現這個工作可以啟發很多非常有意思的擴展。
End-to-end Learning of Latent Dirichlet Allocation by Mirror-Descent Back Propagation Microsoft Research, Redmond 這個工作把mean field inference看成一個chain,從而通過BP來優化LDA參數,感覺有點神奇。但是具體的模型有點太過複雜了。值得一提的是,這個模型不是傳統的generative LDA,而是discriminative的,目的是用來分類。
Learning with a Wasserstein Loss MIT 一個非常簡單的想法,效果也非常好。這類工作可遇不可求,作者給出了generalization bound(雖然好像也沒什麼卵用)。
2. 通過視覺圖靈測試的機器,MIT的認知科學教授Joshua Tenenbaum在Brain, Mind and Machine Symposium中展示了他的課題組今年發表在science上的文章Human-level concept learning through probabilistic program induction, 實驗的大致過程是提供一組圖形符號,然後讓人和電腦分別繪製一些類似的符號,最後讓另外一批實驗人員分辨哪一組是由電腦產生的圖片,結果是超過3/4的實驗人員無法分辨,在某種程度上意味著電腦通過了圖靈測試。
3. Deep reinforcement learning,在 Brains, Minds and Machines Symposium ,Google deep mind聯合創始人Demis Hassabis介紹了他們今年早些時候在Nature上發的一篇文章,關於如何訓練AI玩Atari遊戲(像你在紅白機上玩過的那些遊戲),僅提供遊戲畫面和得分作為輸入,電腦需要『自學』玩遊戲,同一套基於deep learning的模型結構適用不同的2600款遊戲,其中49款達到了專業人類選手水平。這裡牽涉很多有趣的問題包括計算機視覺、機器學習、人工智慧、優化控制等等,今年NIPS至少有三個不同環節的reinforcement learning,都非常的火,從Richard Sutton大神的公開講座,到Symposium,再到workshop,每個環節都爆棚。
Here we introduce an arti?cial system based on a Deep Neural Network that creates artistic images of high perceptual quality. The system uses neural representations to separate and recombine content and style of arbitrary images, providing a neural algorithm for the creation of artistic images.