Linear Attention

[[2023-03-26-Transformer_LLM]] , [[2023-02-18-Attn_All_U_Need_Visual]]

RNN is Back

A: 論文中提到了多個與提出的 minLSTM 和 minGRU 相關的研究工作，主要集中在設計高效的 RNN上。以下是一些主要的相關研究：

Mamba (Gu & Dao, 2024): 提出了一種 SSM（State-Space Model），它通過輸入依賴的轉換來處理序列數據，並顯示出與Transformer相似的性能。
S4 (Gu et al., 2021): 一種SSM，它通過使用對角線轉換矩陣來有效地處理長序列。
Aaren (Feng et al., 2024): 展示了softmax注意力（和Transformers）可以被視爲一種 RNN，並提出了一種可以並行計算的softmax注意力模型。
H3 (Fu et al., 2023) 和 Hyena (Poli et al., 2023): 這些是基於注意力的方法，它們提出了可以並行訓練的RNN。
Transformers (Vaswani et al., 2017): 雖然 Transformers 在處理長序列時面臨計算複雜性的問題，但它們在許多序列建模任務中都取得了顯著的成果。
RWKV (Peng et al., 2023): 提出了一種循環版本的 Transformer，可以有效地處理序列數據。
xlstm (Beck et al., 2024): 提出了對LSTM的多種改進，包括指數門控、協方差更新規則和歸一化狀態。
State-Space Models (SSMs): 一系列研究工作探討了SSM 在序列建模中的應用，包括語言、音頻和其他領域的應用。
Recurrent Versions of Attention: 一些研究提出了基於注意力的 RNN，這些模型可以並行計算。
Parallelizable RNNs: 一些研究提出了可以高效並行訓練的 RNNs，例如通過使用複雜對角線遞歸和指數參數化。
D4RL Benchmark (Fu et al., 2020): 用於強化學習的基準測試，包括多個環境和數據集，用於評估序列模型的性能。
Shakespeare Dataset: 用於語言建模任務的數據集。

這些研究展示了RNN在不同領域的應用，並提出了各種方法來提高這些模型的效率和性能。論文中提出的minLSTM和minGRU與這些工作相關，因爲它們旨在提供一種更簡單、更高效的循環序列建模方法。 Step 1: From LSTM to GRU

Step: From GRU to miniGRU

論文通過重新設計傳統的RNN（RNNs）——長短期記憶網絡（LSTMs）和門控循環單元（GRUs）——來解決效率和可擴展性問題。具體來說，論文提出了以下解決方案：

移除隱藏狀態依賴：作者展示了通過移除LSTM和GRU的輸入、遺忘和更新門對先前隱藏狀態的依賴，這些模型不再需要通過時間反向傳播（BPTT），因此可以高效地並行訓練。
簡化模型結構：在消除了隱藏狀態依賴之後，作者進一步簡化了LSTM和GRU的結構，去除了輸出範圍的限制（即去除了tanh激活函數），並確保輸出在時間尺度上是獨立的。
引入最小版本（minLSTM和minGRU）：基於上述簡化，作者提出了LSTM和GRU的最小版本，這些版本在參數數量上大大減少，同時在訓練時能夠完全並行化。
利用並行掃描算法：通過重新設計，minLSTM和minGRU可以利用並行掃描算法進行訓練，顯著提高了訓練速度。例如，在長度爲512的序列上，相比於傳統的RNN，minLSTM和minGRU的訓練速度分別快了175倍和235倍。
實驗驗證：作者通過一系列實驗驗證了minLSTM和minGRU不僅在計算上更加高效，而且在多種任務（包括長序列選擇性複製任務、強化學習和語言建模）上與最新的序列模型相比具有競爭力。
資源和內存優化：論文還討論了這些模型在訓練時的內存使用情況，並與Mamba等其他模型進行了比較。

通過這些方法，論文成功地解決了傳統RNNs在長序列處理中的可擴展性和訓練效率問題，並證明了即使是經過十多年的發展，RNNs的基本設計理念仍然具有強大的生命力和潛力。

LSTM to miniLSTM

GRU to miniGRU

Source

Linear Attention 打改變 Transformer 大模型結構壟斷 : https://www.bilibili.com/video/BV1V7s9etEmQ/?spm_id_from=333.999.0.0&vd_source=a99fc6374f18662fe559d32fdc3a80cd
Transformer are RNNs: https://arxiv.org/pdf/2006.16236
TransNormerLLM: https://arxiv.org/pdf/2307.14995
Universal Transformer: https://arxiv.org/pdf/1807.03819
Transformer Quality in Linear Time: https://arxiv.org/pdf/2202.10447