End-to-end 端到端模型

Source

一条道走到黑？特斯拉FSD的「端到端」到底能不能成？ (youtube.com)

什麽是端到端模型？

早期我在研究計算機視覺，基本是分成幾個階段: 1. 特徵提取 (feature extraction) by feature engineer 使用 SIFT, HIST 等數學方法; 2. 根據提取的特徵再用 rule engineer 設計的分類器判斷是什麽物體，是狗還是貓。

這種方法有兩個問題：

分成兩個階段，之間有清楚的界面。各自優化，但兩者優化的目標完全不同。
除了共同的界面，兩部分完全 decouple. 好處是可以分別由不同 teams 各自分工發展。壞處是可能丟失 information.

不過有一個好處，就是 debug 比較容易，因爲除了 input and output 資訊, 還有界面的資訊可以協助 debug.

當初深度學習就是用端到端擊敗以上的方法：

只有一個階段，甚至一個 model, 段到段 training and inference. 一個 loss function 包含 feature extraction and classification. 目標一致。
兩者 stongly coupled. 經過 forward pass, feature extraction 直接影響 classification. 通過 back pass, classification 直接調整 feature extraction.

端到端模型的挑戰

數據需求：通常需要大量標記數據才能有效學習。
計算資源：通常需要大量計算資源進行訓練。
可解釋性：與每個步驟明確定義的模塊化系統相比，可能更難解釋。
調試：由於系統是一個複雜的單一模型，而不是一系列更簡單、可理解的組件，調試和診斷問題可能更困難。

1 and 2 是工程問題，只要花錢通常可以解決。 3 and 4 是深度學習的普偏問題，仍然需要技術的突破。

端到端的訓練可以完全 from scatch, 那就會有 1-4 的所有問題。

混合式端到端模型

其實這就像 chip P&R 問題。一個小的 block 當然是用 flatten P&R。但是對幾十的 billion 的 chip, 全部用 flatten P&R 雖然 utilization rate 和面積有好處，顯然不實際，必須用 hierarchical P&R.

對於一個非常大的系統，例如自動駕駛 (e.g. FSD V12) 或是多模態 (e.g. GPT-4o) 。單一模型的端到端會有以上 1-4 的問題。

比較好的方法是混合式端到端，也就是保留一些大的模塊和界面，但用用一個 loss function 進行調試。

所有 models, 最好都是可微分，串聯 (自動駕駛和多模態) 或并聯 (MoE)，但使用同一個 loss function 進行 forward and backward passes.
每個 model 可以先分開 training, 使用各自的數據集。最後整合一起，再一起用一個 loss function and dataset 進行微調 (fine-tune).

ChatGPT Explanation of End-to-End Model

端到端模型在機器學習中指的是一個系統從原始輸入數據 (raw data) 到最終輸出都由 (1) 單一模型 或 (2) 一串緊密整合的模型處理。

英文版本比較清楚：An end-to-end model in machine learning refers to a system where the entire processing pipeline, from raw input data to the final output, is handled by a single model or a tightly integrated sequence of models.

在端到端模型中，中間步驟並未被明確定義或分開，而是通過對包含輸入和輸出的數據集進行訓練，讓模型學會將輸入直接映射到輸出。

重點是：

端到端一般是單一模型，但也可以是一串緊密整合的模型，有同一個優化目標。
如果是一串模型用同一個 loss function, 彼此經過 forward pass and back pass 互相影響。一般甚至是 differentiable functions. 也可以視爲一個大模型。

端到端模型的主要特徵

統一學習：模型以統一的方式學習從輸入到輸出的所有必要轉換，通常涉及深度學習技術。
最小預處理：原始輸入數據直接輸入模型，無需大量預處理。模型自身在訓練過程中學會必要的特徵提取和表示。
自動特徵工程：模型在訓練過程中學會從輸入數據中提取相關特徵，無需手動進行特徵工程。
直接優化：訓練過程直接針對特定任務的損失函數（如分類任務中的交叉熵或回歸任務中的均方誤差）優化模型參數。

端到端模型的示例

語音識別：傳統語音識別系統使用一系列步驟，包括特徵提取、聲學建模、語言建模和解碼。端到端語音識別系統，如DeepSpeech，直接將音頻波形映射到文本轉錄。
- 傳統方法：音頻 (input) -> 特徵提取 -> 聲學模型 -> 語言模型 -> 文本 (output)
- 端到端方法：音頻 (input) -> 單一模型 -> 文本 (output)
機器翻譯：傳統機器翻譯系統使用單獨的步驟進行分詞、解析、翻譯和重排。端到端神經機器翻譯模型，如Google的神經機器翻譯（GNMT），將文本從一種語言翻譯到另一種語言。
- 傳統方法：源文本 (input) -> 解析 -> 翻譯 -> 重排 -> 目標文本 (output)
- 端到端方法：源文本 (input) -> 單一模型 -> 目標文本 (output)
圖像字幕生成：傳統圖像字幕生成系統涉及單獨的步驟進行物體檢測、屬性分類和句子生成。端到端模型，如Show and Tell，直接從圖像生成字幕。
- 傳統方法：圖像 (input) -> 物體檢測 -> 屬性分類 -> 句子生成 -> 字幕 (output)
- 端到端方法：圖像 (input) -> 單一模型 -> 字幕 (output)
自動駕駛：傳統自動駕駛系統使用單獨的模塊進行感知、定位的預測、規劃和控制。端到端模型嘗試直接從傳感器輸入到控制動作學習駕駛行為。例如 FSD V12.
- 傳統方法：傳感器 (input) -> 感知 -> 定位和預測 -> 規劃 -> 控制 (output)
- 端到端方法：傳感器 (input) -> 感知模型 (HydraNet+OccupacyNet) -> 規劃模型 (another tranformer) -> 控制 (output)

端到端模型在機器學習中指的是一個系統，該系統從原始輸入數據到最終輸出都由單一模型或緊密整合的模型序列處理。在端到端模型中，中間步驟並未被明確定義或分開，而是通過對包含輸入和對應目標輸出的數據集進行訓練，讓模型學會將輸入直接映射到輸出。

端到端模型的主要特徵

統一學習：模型以統一的方式學習從輸入到輸出的所有必要轉換，通常涉及深度學習技術。
最小預處理：原始輸入數據直接輸入模型，無需大量預處理。模型自身在訓練過程中學會必要的特徵提取和表示。
自動特徵工程：模型在訓練過程中學會從輸入數據中提取相關特徵，無需手動進行特徵工程。
直接優化：訓練過程直接針對特定任務的損失函數（如分類任務中的交叉熵或回歸任務中的均方誤差）優化模型參數。

端到端模型的示例

語音識別：傳統語音識別系統使用一系列步驟，包括特徵提取、聲學建模、語言建模和解碼。端到端語音識別系統，如DeepSpeech，直接將音頻波形映射到文本轉錄。
- 傳統方法：音頻 -> 特徵提取 -> 聲學模型 -> 語言模型 -> 文本
- 端到端方法：音頻 -> 模型 -> 文本
機器翻譯：傳統機器翻譯系統使用單獨的步驟進行分詞、解析、翻譯和重排。端到端神經機器翻譯模型，如Google的神經機器翻譯（GNMT），將文本從一種語言翻譯到另一種語言。
- 傳統方法：源文本 -> 解析 -> 翻譯 -> 重排 -> 目標文本
- 端到端方法：源文本 -> 模型 -> 目標文本
圖像字幕生成：傳統圖像字幕生成系統涉及單獨的步驟進行物體檢測、屬性分類和句子生成。端到端模型，如Show and Tell，直接從圖像生成字幕。
- 傳統方法：圖像 -> 物體檢測 -> 屬性分類 -> 句子生成 -> 字幕
- 端到端方法：圖像 -> 模型 -> 字幕
自動駕駛：傳統自動駕駛系統使用單獨的模塊進行感知、定位、規劃和控制。端到端模型嘗試直接從傳感器輸入到控制動作學習駕駛行為。
- 傳統方法：傳感器 -> 感知 -> 定位 -> 規劃 -> 控制
- 端到端方法：傳感器 -> 模型 -> 控制

端到端模型的優點

簡化 pipeline：通過將多個階段合併為單一模型，減少處理 pipeline 的複雜性。
減少誤差傳播：最小化使用多個單獨階段時可能出現的級聯誤差。
潛在更高的性能：由於整體優化，可以潛在地學習更優的特徵表示並達到更好的性能。
更易適應：通常更容易重新訓練或適應新任務或領域，因為整個系統是聯合學習的。

端到端模型的挑戰

數據需求：通常需要大量標記數據才能有效學習。
計算資源：通常需要大量計算資源進行訓練。
可解釋性：與每個步驟明確定義的模塊化系統相比，可能更難解釋。
調試：由於系統是一個複雜的單一模型，而不是一系列更簡單、可理解的組件，調試和診斷問題可能更困難。

1 and 2 是工程問題，只要花錢通常可以解決。 3 and 4 是深度學習的普偏問題，仍然需要技術的突破。