[[2023-03-26-Transformer_LLM]] , [[2023-02-18-Attn_All_U_Need_Visual]]
RNN is Back
A: 論文中提到了多個與提出的 minLSTM 和 minGRU 相關的研究工作,主要集中在設計高效的 RNN上。以下是一些主要的相關研究:
-
Mamba (Gu & Dao, 2024): 提出了一種 SSM(State-Space Model),它通過輸入依賴的轉換來處理序列數據,並顯示出與Transformer相似的性能。
-
S4 (Gu et al., 2021): 一種SSM,它通過使用對角線轉換矩陣來有效地處理長序列。
-
Aaren (Feng et al., 2024): 展示了softmax注意力(和Transformers)可以被視爲一種 RNN,並提出了一種可以並行計算的softmax注意力模型。
-
H3 (Fu et al., 2023) 和 Hyena (Poli et al., 2023): 這些是基於注意力的方法,它們提出了可以並行訓練的RNN。
-
Transformers (Vaswani et al., 2017): 雖然 Transformers 在處理長序列時面臨計算複雜性的問題,但它們在許多序列建模任務中都取得了顯著的成果。
-
RWKV (Peng et al., 2023): 提出了一種循環版本的 Transformer,可以有效地處理序列數據。
-
xlstm (Beck et al., 2024): 提出了對LSTM的多種改進,包括指數門控、協方差更新規則和歸一化狀態。
-
State-Space Models (SSMs): 一系列研究工作探討了SSM 在序列建模中的應用,包括語言、音頻和其他領域的應用。
-
Recurrent Versions of Attention: 一些研究提出了基於注意力的 RNN,這些模型可以並行計算。
-
Parallelizable RNNs: 一些研究提出了可以高效並行訓練的 RNNs,例如通過使用複雜對角線遞歸和指數參數化。
-
D4RL Benchmark (Fu et al., 2020): 用於強化學習的基準測試,包括多個環境和數據集,用於評估序列模型的性能。
-
Shakespeare Dataset: 用於語言建模任務的數據集。
這些研究展示了RNN在不同領域的應用,並提出了各種方法來提高這些模型的效率和性能。論文中提出的minLSTM和minGRU與這些工作相關,因爲它們旨在提供一種更簡單、更高效的循環序列建模方法。 Step 1: From LSTM to GRU
Step: From GRU to miniGRU
論文通過重新設計傳統的RNN(RNNs)——長短期記憶網絡(LSTMs)和門控循環單元(GRUs)——來解決效率和可擴展性問題。具體來說,論文提出了以下解決方案:
-
移除隱藏狀態依賴:作者展示了通過移除LSTM和GRU的輸入、遺忘和更新門對先前隱藏狀態的依賴,這些模型不再需要通過時間反向傳播(BPTT),因此可以高效地並行訓練。
-
簡化模型結構:在消除了隱藏狀態依賴之後,作者進一步簡化了LSTM和GRU的結構,去除了輸出範圍的限制(即去除了tanh激活函數),並確保輸出在時間尺度上是獨立的。
-
引入最小版本(minLSTM和minGRU):基於上述簡化,作者提出了LSTM和GRU的最小版本,這些版本在參數數量上大大減少,同時在訓練時能夠完全並行化。
-
利用並行掃描算法:通過重新設計,minLSTM和minGRU可以利用並行掃描算法進行訓練,顯著提高了訓練速度。例如,在長度爲512的序列上,相比於傳統的RNN,minLSTM和minGRU的訓練速度分別快了175倍和235倍。
-
實驗驗證:作者通過一系列實驗驗證了minLSTM和minGRU不僅在計算上更加高效,而且在多種任務(包括長序列選擇性複製任務、強化學習和語言建模)上與最新的序列模型相比具有競爭力。
-
資源和內存優化:論文還討論了這些模型在訓練時的內存使用情況,並與Mamba等其他模型進行了比較。
通過這些方法,論文成功地解決了傳統RNNs在長序列處理中的可擴展性和訓練效率問題,並證明了即使是經過十多年的發展,RNNs的基本設計理念仍然具有強大的生命力和潛力。
LSTM to miniLSTM

GRU to miniGRU

Source
-
Linear Attention 打改變 Transformer 大模型結構壟斷 : https://www.bilibili.com/video/BV1V7s9etEmQ/?spm_id_from=333.999.0.0&vd_source=a99fc6374f18662fe559d32fdc3a80cd
-
Transformer are RNNs: https://arxiv.org/pdf/2006.16236
-
TransNormerLLM: https://arxiv.org/pdf/2307.14995
-
Universal Transformer: https://arxiv.org/pdf/1807.03819
-
Transformer Quality in Linear Time: https://arxiv.org/pdf/2202.10447