PyTorch 訓練 RNN 時，序列長度不固定怎麼辦？

04-04

當每個訓練數據為 sequence 的時候，我們第一反應是採用 RNN 以及其各種變體。這時新手們（我也是剛弄明白）往往會遇到這樣的問題：訓練數據 sequence 長度是變化的，難以採用 mini-batch 訓練，這時應該怎麼辦，難道只能一個 sequence 一個 sequence 地訓練嗎？針對這一問題，本文記錄 PyTorch 給出的解決方案。

需要用到的函數如下：

torch.nn.utils.rnn.pad_sequence() torch.nn.utils.rnn.pack_padded_sequence() torch.nn.utils.rnn.pad_packed_sequence()

pad_sequence

我們構造如下的訓練數據，其中每條訓練數據長度都不同。

import torch from torch import nn import torch.nn.utils.rnn as rnn_utils


train_x = [torch.tensor([1, 1, 1, 1, 1, 1, 1]),

           torch.tensor([2, 2, 2, 2, 2, 2]),

           torch.tensor([3, 3, 3, 3, 3]),

           torch.tensor([4, 4, 4, 4]),

           torch.tensor([5, 5, 5]),

           torch.tensor([6, 6]),

           torch.tensor([7])]

x = rnn_utils.pad_sequence(train_x, batch_first=True)

x 將變成：

tensor([[1, 1, 1, 1, 1, 1, 1], [2, 2, 2, 2, 2, 2, 0], [3, 3, 3, 3, 3, 0, 0], [4, 4, 4, 4, 0, 0, 0], [5, 5, 5, 0, 0, 0, 0], [6, 6, 0, 0, 0, 0, 0], [7, 0, 0, 0, 0, 0, 0]])

我們發現，這個函數會把長度小於最大長度的 sequences 用 0 填充，並且把 list 中所有的元素拼成一個 tensor。這樣做的主要目的是為了讓 DataLoader 可以返回 batch，因為 batch 是一個高維的 tensor，其中每個元素的數據必須長度相同。

為了證明這一點，我們完整地寫一個數據類，用 dataloader 按 batch 的形式讀取數據，代碼如下：

import torch from torch import nn import torch.nn.utils.rnn as rnn_utils from torch.utils.data import DataLoader import torch.utils.data as data


train_x = [torch.tensor([1, 1, 1, 1, 1, 1, 1]),

           torch.tensor([2, 2, 2, 2, 2, 2]),

           torch.tensor([3, 3, 3, 3, 3]),

           torch.tensor([4, 4, 4, 4]),

           torch.tensor([5, 5, 5]),

           torch.tensor([6, 6]),

           torch.tensor([7])]
x = rnn_utils.pad_sequence(train_x, batch_first=True)
class MyData(data.Dataset):

    def __init__(self, data_seq):

        self.data_seq = data_seq
    def __len__(self):

        return len(self.data_seq)
    def __getitem__(self, idx):

        return self.data_seq[idx]

if __name__==__main__: data = MyData(train_x) data_loader = DataLoader(data, batch_size=2, shuffle=True) batch_x = iter(data_loader).next() print(END)

我們將會收到如下報錯：

RuntimeError: invalid argument 0: Sizes of tensors must match except in dimension 0. Got 3 and 7 in dimension 1 at /pytorch/aten/src/TH/generic/THTensorMoreMath.cpp:1333

報錯的原因是，不同的數據長度不同，無法組成一個 batch tensor。

DataLoader中有個參數 collate_fn，專門用來把 Dataset 類的返回值拼接成 tensor，我們不設置的時候，會調用 default 的函數，這次我們的訓練數據長度不一，default 函數就 hold 不住了，因此我們要自定義一個 collate_fn，並在 DataLoader 中設置這個參數，再運行就不會報錯了（注意代碼中對 data 先按照長度降序排列了一下，後面會講到原因）。

def collate_fn(data): data.sort(key=lambda x: len(x), reverse=True) data = rnn_utils.pad_sequence(data, batch_first=True, padding_value=0) return data

if __name__==__main__: data = MyData(train_x) data_loader = DataLoader(data, batch_size=3, shuffle=True, collate_fn=collate_fn) batch_x = iter(data_loader).next() print(END)

運行結果如下：

batch_x Out[2]: tensor([[1, 1, 1, 1, 1, 1, 1], [3, 3, 3, 3, 3, 0, 0], [6, 6, 0, 0, 0, 0, 0]])

正是我們想要的。

pack_padded_sequence

我們通過 pad_sequence 得到了 padded_sequence，那麼直接扔進 RNN 訓練不就完了嗎？為啥還要用 pack_padded_sequence？這個 pack 又是什麼意思呢？

我們回憶一下 RNN 是如何訓練的，首先考慮單個訓練數據，也就是batch_size=1 的情況：每次網路吃進一個 time step 的數據+該數據對應的 hidden state，然後輸出，再繼續吃進去第二個 time step 的數據 + hidden state，再輸出，以此類推；如果換成 mini-batch 的訓練模式則是：網路每次吃進去一組同樣 time step 的數據，也就是mini-batch 中所有 sequence 中相同下標的數據，加上它們對應的 hidden state，獲得一個 mini-batch 的輸出，然後再移到下一個 time step，再讀入 mini-batch 中所有該 time step 的數據，再輸出……

因此，以上面 pad_sequence的輸出為例，數據將會按照如圖所示的方式讀取：

TAG:PyTorch | RNN | 深度學習（DeepLearning） |

PyTorch 訓練 RNN 時，序列長度不固定怎麼辦？

pad_sequence

pack_padded_sequence

總結