AI從業者需要應用的10種深度學習方法（下）

10-10

來自專欄我是程序員14 人贊了文章

摘要：想要了解人工智慧，不知道這十種深度學習方法怎麼能行？

6-批量歸一化

當然，包括深度網路在內的神經網路需要仔細調整權重初始化和學習參數。批量歸一化有助於讓中國過程更簡單一點。

權重問題：

· 無論那種權重的初始化，隨機還是憑經驗選擇，它們都和學習權重差別很大。考慮一個小批量數據集，在最初的時期，在特徵激活時都會有許多異常值。

· 深度神經網路本身脆弱的，即初始層的微小擾動都會導致後面層很大的變化。

在反向傳播期間，這些現象會導致梯度偏移，這意味著在學習權重以產生所需輸出之前，梯度必須補償異常值。這也將導致需要額外的時間來收斂。

批量歸一化將這些梯度從離散規則化為正常值，並在小批量的範圍內朝向共同目標（通過歸一化它們）流動。

學習率問題：通常，學習率保持較小，使得只有一小部分的梯度用來校正權重，原因是異常激活的梯度不應該影響已經學習好的權重。通過批量歸一化，這些異常值被激活的可能性就會減少，因此可以使用更高的學習率來加速學習過程。

7-長短期記憶：

LSTM網路具有以下三個方面，使其與遞歸神經網路中的常規神經元區分開來：

1、它可以控制何時讓輸入進入神經元。

2、它可以控制何時記住上一個時間步驟中計算的內容。

3、它可以控制何時將輸出傳遞給下一個時間戳。

LSTM的優點在於它根據當前輸入本身決定所有這些，如下圖所示：

當前時間戳處的輸入信號x（t）決定所有上述3個點。輸入門決定點1.遺忘門在點2上做出決定，輸出門在點3上做出決定。輸入門能單獨能夠做出這三個決定。這受到了我們的大腦是如何工作的啟發，並且可以處理突然的上下文切換。

8-Skip-gram：

詞嵌入模型的目標是為了每個辭彙學習一個高維密集表徵，其中嵌入向量之間的相似性顯示了相應單詞之間的語義或句法相似性。Skip-gram是學習詞嵌入演算法的模型。

skip-gram模型（以及許多其他詞嵌入模型）背後的主要思想如下：如果兩個辭彙有相似的上下文，則它們是相似的。

換句話說，假設你有一句話，比如「貓是哺乳動物」。如果你使用術語「狗」而不是「貓」，句子仍然是一個有意義的句子。因此在該示例中，「狗」和「貓」可以共享相同的背景（即「是哺乳動物」）。

基於上述假設，你可以考慮一個上下文窗口（一個包含k個連續術語的窗口）。然後你應該跳過其中一個單詞，並嘗試學習除了跳過的一個術語之外的所有術語並預測跳過的術語的神經網路。因此如果兩個單詞在大型語料庫中重複地共享相似的上下文，那些這些術語的嵌入向量將具有相似的向量。

9-連續的詞袋模型（Continuous Bag of Words）：

在自然語言處理問題中，我們希望學習將文檔中的每個單詞表示為數字向量，使得出現在相似上下文中的單詞具有彼此接近的向量。在連續詞袋模型中，目標是能夠使用圍繞特定單詞的上下文並預測特定單詞。

我們通過在一個大型語料庫中抽取大量句子來做到這一點，每次看到一個單詞時，我們都會使用其上下文單詞。然後我們將上下文單詞輸入到一個神經網路中，並預測該上下文中心的單詞。

當我們有數千個這樣的上下文單詞和中心單詞時，我們就有一個神經網路數據集的實例。我們訓練神經網路，在經過編碼的隱藏層的輸出表示特定單詞的嵌入。碰巧的是，當我們在大量句子上訓練時，類似上下文中的單詞會得到類似的向量。

10-遷移學習：

考慮下圖像是如何通過卷積神經網路的。假設你有一個圖像，你應用卷積，你得到像素組合作為輸出。如果碰到了邊緣，則再次應用卷積，所以現在輸出是邊或線的組合。然後再次應用卷積，此時的輸出將是線的組合，依此類推。你可以將其視為每個層尋找特定模式。神經網路的最後一層往往變得非常專業。如果你正在使用ImageNet，那麼你的網路最後一層將尋找兒童或狗或飛機或其他什麼。再後退幾層你可能會看到網路正在尋找眼睛或耳朵或嘴或輪子。

深度CNN中的每個層逐漸建立了更高和更高級別的特徵表徵。最後幾層往往專註於你輸入模型的任何數據。另一方面，早期的圖層更通用，是在更大類的圖片中找到很多簡單的模式。

遷移學習是指你在一個數據集上訓練CNN，切斷最後一層，在其他不同的數據集上重新訓練模型的最後一層。直觀地說，你正在重新訓練模型以識別不同的更高級別的功能。因此，模型訓練的時間會大大減少，因此當你沒有足夠的數據或者訓練所需的太多資源時，遷移學習是一種有用的工具。

本文僅顯示這些方法的一般概述。我建議閱讀以下文章以獲得更詳細的解釋：

· Andrew Beam的「深度學習101」；

· 安德烈庫林科夫的「神經網路與深度學習簡史」；

· Adit Deshpande的「理解卷積神經網路的初學者指南」；

· 克里斯奧拉的「理解LSTM網路」；

· Algobean的「人工神經網路」；

· Andrej Karpathy的「回歸神經網路的不合理有效性」；

深度學習是非常注重技術實踐的。本文中的每個新想法都沒有太多具體的解釋。對於大多數新想法都附帶了實驗結果來證明它們能夠運作。深度學習就像玩樂高，掌握樂高與任何其他藝術一樣具有挑戰性，但相比之下入門樂高是容易的。

以上為譯文，由阿里云云棲社區組織翻譯。

譯文鏈接

文章原標題《the-10-deep-learning-methods-ai-practitioners-need-to-apply》，

作者： James Le 譯者：虎說八道，審校：。

文章為簡譯，更為詳細的內容，請查看原文。

更多技術乾貨敬請關注云棲社區知乎機構號：阿里云云棲社區 - 知乎

本文為雲棲社區原創內容，未經允許不得轉載。