為什麼 AI 回答越來越快？LLM 推論加速的六大技術

導讀：你有沒有注意到，AI 聊天機器人的回應速度正在變快？從逐字龜速到幾乎即時，背後不是換了更貴的晶片，而是工程師用了六招聰明的「偷吃步」。這篇文章用六個生活比喻，帶你一次看懂。

開篇鉤子

你打開 ChatGPT，輸入一個問題，看著螢幕上的文字像打字機一樣一個字一個字蹦出來。有時候快、有時候慢，有時候等到你懷疑它是不是當機了。這不是你的網路問題，而是大型語言模型（LLM）天生的運作方式：它每次只能「想」出一個字，想完一個才能想下一個。

一個 700 億參數的模型，每產出一個字，就得把 700 億個參數從 GPU 記憶體裡搬一遍。產出 200 個字，就搬 200 遍。GPU 的運算核心其實很快，大部分時間都在等資料從記憶體搬過來。

這就是 LLM 推論的瓶頸。而接下來要介紹的六項技術，正是工程師們為了打破這個瓶頸所發展出來的解法。

1. 為什麼 AI 那麼慢？先搞懂它怎麼「想」

LLM 產生文字的方式叫做 autoregressive decoding：一次只生一個 token（可以想成一個字或一個詞），生完之後把它接到前面的句子後面，再根據整段句子預測下一個 token。

問題出在「根據整段句子」這件事。每預測一個新字，模型都要重新審視前面所有的字。如果已經生了 100 個字，要預測第 101 個字時，模型得對前面 100 個字全部重新計算一次注意力（attention）。這就像一場會議裡，每來一個新人發言，所有人都要從頭把會議紀錄重唸一遍。

這完全不合理。所以，第一個加速技術登場了。

六大加速技術疊加架構：從 KV Cache 到 Speculative Decoding

2. 六大加速技術逐一拆解

技術一：KV Cache -- 會議筆記，不用每次重聽

KV Cache 機制對比：無快取 5,049 次運算 vs 有快取僅 101 次

比喻：你是會議記錄員。每次有人發言，你不用要求所有人把之前說過的話再講一遍，你只要翻開筆記本就好。

原理：在注意力機制裡，每個 token 會被轉換成三個向量：Query（問題）、Key（索引標籤）、Value（內容）。新 token 用自己的 Query 去比對所有舊 token 的 Key，找出哪些舊 token 比較相關，然後取用它們的 Value。

沒有 KV Cache 的情況下，模型每生一個新字，就要重新計算前面所有 token 的 Key 和 Value。KV Cache 的做法是：算過的 Key 和 Value 存起來，下一步直接取用，只需要替新 token 算一組就好。

具體數字：生成一段 100 個 token 的文字，沒有 KV Cache 需要約 5,049 次 Key-Value 計算；有了 KV Cache 只需要 101 次，運算量縮減將近 50 倍。

代價：快取會吃記憶體。序列越長，快取越大。而這個問題，正好由下一個技術來解決。

技術二：Paged Attention -- 旅館按需給房間

比喻：一間旅館來了一位客人，不知道會住幾晚。傳統做法是直接預留 30 間連續房間以防萬一；Paged Attention 的做法是先給 1 間，需要再給，不必連號，旅館用一張對照表記錄哪些房間屬於哪位客人。

原理：傳統的 KV Cache 會為每個請求預留一大塊連續記憶體，假設最長可能產出 2,048 個 token。但實際回應可能只有 50 個 token，剩下 1,998 個位置全部浪費。

Paged Attention 借鏡作業系統的分頁記憶體管理：把 KV Cache 切成固定大小的小區塊（例如每塊 4 個 token），按需分配，區塊不必連續，靠 block table 記錄位置。

效果：內部浪費幾乎消除（只有最後一個區塊可能沒填滿），外部碎片也不再是問題。同一張 GPU 上能同時服務的使用者數量大幅增加。多個請求如果問了相同的問題，甚至可以共享同一批輸入 token 的 KV Cache 區塊，再多省一筆記憶體。

技術三：Flash Attention -- 在小桌子上讀書

Flash Attention 記憶體搬運對比：標準 6,400 萬 vs Flash 1,700 萬

比喻：標準做法像是把整座圖書館的書全搬到一張巨大桌子上攤開來讀。Flash Attention 的做法是只帶一小章到你面前的小桌子，讀完做筆記、還回去，再帶下一章。你永遠不需要那張巨大桌子。

原理：GPU 有兩種記憶體。HBM 很大但慢（好比遠處的圖書館），SRAM 很小但快上 10 到 20 倍（好比面前的小桌子）。標準注意力會在 HBM 中產生一個 N x N 的巨大矩陣（4,000 個 token 就是 1,600 萬個元素），這個矩陣被來回搬運 4 次，總搬運量約 6,400 萬個元素。

Flash Attention 用兩個技巧避開這個巨大矩陣：

Tiling：把 Q、K、V 切成小區塊（例如 256 個 token 一塊），每次只載入一小塊到 SRAM 做運算。
Online Softmax：用一個持續更新的最大值與累加和，讓 softmax 可以分批計算而不需要看到整列。

具體數字：同樣 4,000 個 token，Flash Attention 的搬運量約 1,700 萬個元素，是標準做法的四分之一。序列越長差距越大。Flash Attention 2 砍掉多餘的非矩陣乘法運算，速度再快約 2 倍。Flash Attention 3 則針對 NVIDIA H100/H200 的硬體特性做非同步搬運，讓 GPU 幾乎零等待。

最重要的是：Flash Attention 的輸出結果與標準注意力完全相同，沒有任何近似或品質損失。

技術四：Grouped Query Attention（GQA）-- 偵探小組共享線索筆記

比喻：8 個偵探調查同一個案件。傳統的 Multi-Head Attention（MHA）讓每個偵探各自蒐證、各寫各的筆記本，品質最好但筆記本開銷很大。GQA 把 8 個偵探分成 2 組，每組 4 人共用一本線索筆記。筆記本數量從 8 本減到 2 本，但仍保留兩套不同觀點。

原理：MHA 中每個注意力頭（head）各有自己的 Query、Key、Value。GQA 讓多個 head 共享同一組 Key 和 Value，只保留各自獨立的 Query。

具體數字：LLaMA 2 70B 有 64 個 Query head，分成 8 組共享 KV，KV Cache 縮小為原來的 1/8。Mistral 7B 同樣採用 GQA，32 個 Query head 配 8 組 KV。既有的 MHA 模型甚至不用從頭訓練，只要把同組 head 的 Key/Value 權重平均、再微調約 5% 的原始訓練量就能轉換成 GQA，品質幾乎不變。

技術五：Continuous Batching -- 共乘計程車，有人下車立刻接新客

比喻：一台 4 人座計程車。靜態批次（Static Batching）是 4 位乘客同時上車，就算有人 5 分鐘後到站下車了，那個座位也空著，等最後一位乘客到站才收工、才接新一批。Continuous Batching 是有人下車，路邊等候的乘客立刻遞補，座位永遠滿載。

原理：LLM 伺服器把多個使用者的請求打包成一個 batch 丟給 GPU 一起算。Static Batching 要等整批跑完才接新批；Continuous Batching 以「每一步 decode」為單位檢查：誰做完了就送走，誰在排隊就補進來。

具體數字：假設 100 個請求（50 個短回應 20 token、50 個長回應 200 token），Static Batching 需要 250 秒，吞吐量 44 tokens/sec。Continuous Batching 只需 137.5 秒，吞吐量 80 tokens/sec，快了 1.8 倍。搭配 Paged Attention 使用時，vLLM 實測吞吐量可達到未最佳化做法的 20 倍以上。

技術六：Speculative Decoding -- 實習生先寫初稿，主管一次審批

Speculative Decoding 流程：草稿模型快速產出、目標模型一次驗證

比喻：一位資深工程師寫程式很嚴謹但很慢。旁邊安排一位實習生，先快速寫出 4、5 行草稿，資深工程師一口氣審完：對的留下、第一行錯的改掉、後面的丟掉。大部分時候實習生前幾行都寫對了，資深工程師省下逐行撰寫的時間。

原理：準備一個小型的「草稿模型」（draft model，約 10 億參數）和一個大型的「目標模型」（target model，約 700 億參數）。草稿模型快速連續產出 4 個 token，目標模型在一次 forward pass 中同時驗證這 4 個 token。驗證通過的直接保留，遇到第一個不通過的就用目標模型的選擇取代，後面的丟棄。

透過 rejection sampling，最終輸出的機率分布與純用目標模型完全相同，品質零損失。

具體數字：

目標模型每個 token 耗時 50 ms，草稿模型 5 ms/token
一輪 Speculative Decoding 成本：4 x 5 ms + 50 ms = 70 ms
最佳情況（4 個全過）：70 ms 產出 5 個 token，加速 3.57 倍
平均情況（3 個通過）：70 ms 產出 4 個 token，加速 2.86 倍
產出 200 token 的回應：從 10 秒縮短到 3.5 秒

3. 最新趨勢：MTP 與技術的搭配組合

2026 年 5 月，Google 為 Gemma 4 發布了 Multi-Token Prediction（MTP）drafter。與傳統 Speculative Decoding 不同的是，MTP drafter 不是獨立的第二個模型，而是在訓練階段就嵌入主模型的一個輕量模組，學習同時預測多個未來 token。推論時，這個模組直接充當內建草稿員，不需要額外載入第二個模型。

DeepSeek-V3 也採用了類似的 MTP 架構，回報約 1.8 倍的生成加速。Google 宣稱 Gemma 4 MTP drafter 可帶來最高 3 倍加速，且以 Apache 2.0 開源授權釋出。

這六項技術並非各自獨立運作。實務上，一個現代推論引擎（如 vLLM）會同時啟用 KV Cache + Paged Attention + Flash Attention + GQA + Continuous Batching，再視情況搭配 Speculative Decoding。每一層技術解決不同的瓶頸：KV Cache 省重複運算、Paged Attention 省記憶體碎片、Flash Attention 省資料搬運、GQA 省快取空間、Continuous Batching 省 GPU 閒置時間、Speculative Decoding 省逐字等待。層層疊加，效果才能倍數放大。

現實連結

你下次打開 ChatGPT、Claude 或 Gemini 時，看到回應速度比半年前快了不少，背後就是這些技術在運作。它們沒有換更大的 GPU，沒有改變模型的數學運算，也沒有犧牲回答品質。它們做的事情，就是讓同一顆晶片上的每一寸記憶體頻寬和每一個運算核心，都不再浪費在重複的搬運與等待上。

不過，這些加速並非毫無代價。KV Cache 和 Paged Attention 都會吃掉 GPU 記憶體，當上下文長度超過 128K token 時，快取本身可能佔滿整張顯卡的 VRAM。Flash Attention 的 tiling 策略在某些硬體架構上的加速幅度也不一致，AMD GPU 的支援至今仍落後 NVIDIA 半代以上。Speculative Decoding 的加速效果高度依賴草稿模型的命中率，當任務需要高創意性輸出（如詩歌、brainstorming）時，草稿命中率會下降，加速比也跟著縮水。

對研究者來說，這些技術意味著你可以在同一張消費級顯卡上跑更長的上下文視窗、服務更多併發請求、或是用更大的模型做實驗。對一般使用者來說，它就是「AI 變快了」這五個字背後的全部工程。

結語

LLM 推論加速不是一個技術，而是六個齒輪咬合在一起的系統工程。從快取到分頁、從記憶體分層到注意力分組、從排程最佳化到投機解碼，每一項都在回答同一個問題：怎麼讓 GPU 別閒著？

而 MTP drafter 的出現，預告了下一個方向：不再需要另外養一個草稿模型，直接讓主模型在訓練時就學會「一次想好幾步」。未來的 LLM 不只會更聰明，也會更快。

常見問題

Q：這六種技術會改變模型的輸出品質嗎？

不會。KV Cache、Flash Attention、GQA、Paged Attention、Continuous Batching 都不改變注意力的數學運算，輸出結果完全相同。Speculative Decoding 則透過 rejection sampling 數學保證，最終產出的機率分布與單獨使用大模型一模一樣。

Q：一般使用者能直接受惠嗎？

可以。這些技術已內建於 vLLM、TensorRT-LLM 等主流推論引擎，ChatGPT、Claude、Gemini 等服務的後端都有採用。使用者不需要做任何設定，回應速度的提升是自動發生的。

Q：Speculative Decoding 需要額外的 GPU 記憶體嗎？

需要。草稿模型會佔用一部分 GPU 記憶體。但因為草稿模型通常只有 10 億參數左右，相對於 700 億參數的主模型，額外開銷很小，換來的 2 到 3 倍加速非常划算。

References

Amit Shekhar, "KV Cache in LLMs," Outcome School, 2026-03-27.
Amit Shekhar, "Paged Attention in LLMs," Outcome School, 2026-03-29.
Amit Shekhar, "Decoding Flash Attention in LLMs," Outcome School, 2026-04-11.
Amit Shekhar, "Grouped Query Attention," Outcome School, 2026-04-22.
Amit Shekhar, "Continuous Batching in LLMs," Outcome School, 2026-05-11.
Amit Shekhar, "Speculative Decoding," Outcome School, 2026-05-06.
@googleaidevs, "Speed up your Gemma 4 workflows by up to 3x with Multi-Token Prediction (MTP) drafters," X post, 2026-05-06.

常見問題

這六種技術會改變模型的輸出品質嗎？

一般使用者能直接受惠嗎？

Speculative Decoding 需要額外的 GPU 記憶體嗎？

覺得這篇有幫助？

追蹤以收到新的 AI × 生醫研究筆記：

RSS X / Twitter

或請我喝杯咖啡，讓新內容持續產出。

☕ 請我喝杯咖啡