Rapid-MLX
ai-tools
最適合誰
Apple Silicon 使用者(M1/M2/M3/M4),需要最快的本地 LLM 推論速度。正在建構 agent 系統、需要可靠本地後端和 tool call 支援的開發者。已經用 OpenAI SDK 寫好程式碼、想改一行就切到本地推論的人。在沒有網路的環境下(飛機、偏遠地區)仍需要完整 LLM 能力的場景。
我實際怎麼用
用模型別名啟動伺服器,rapid-mlx serve llama3 直接載入對應模型,不用記 Hugging Face 的完整路徑。把現有 OpenAI SDK 程式碼的 base_url 指向 http://localhost:8080/v1,一切照常運作:chat completions、串流、tool calls。內建 17 個 tool call 解析器,處理不同模型家族的格式差異,並自動修復格式錯誤的輸出,在本地測試 agent 流程時省去不少除錯時間。
開發過程中重複跑同一段 prompt 時,DeltaNet 狀態快照會自動啟用。這是業界第一個在混合架構(Transformer + 線性注意力層)上運作的 prompt cache 實作。實際使用上,同一 context 的後續請求回應明顯更快。0.08 秒的快取首 token 紀錄不是每次都能達到,但快取帶來的加速是穩定的。
MHI 評估系統可以在選定模型前先做基準測試。新模型出來時,想知道它在自己的使用場景下是不是真的更好(而不只是排行榜上好看),這個功能很實用。
真正強的地方
- Apple Silicon 上的原始速度。比 Ollama 快 2-4 倍,在同樣的硬體上。這不是需要跑 benchmark 才看得出的微幅提升,互動使用時差距很明顯。MLX 直接存取統一記憶體,省掉其他框架需要的 CPU-GPU 資料搬移開銷
- OpenAI 相容 API 真的能用。不是半成品的部分實作。Chat completions、串流、function calling、structured output 都支援。用 OpenAI Python SDK 的現有程式碼只需要改 base_url。不用換 client library,不用做 response 格式轉換
- DeltaNet 狀態快照。混合架構的第一個 prompt cache。純 Transformer 模型的 KV cache 已經存在一段時間了,但混合了 Transformer 和線性注意力層的模型(DeltaNet、Mamba-2 混合架構)一直沒辦法享受 prompt cache 的好處,直到這個實作出現。長 context 重複推論不需要完整重算
- 17 個 tool call 解析器加自動錯誤恢復。不同模型用不同格式輸出 tool call,有的用 JSON,有的用類 XML 標籤,有的產生格式錯誤的 JSON 需要修復。Rapid-MLX 自動偵測格式並修復常見錯誤。在建構需要跨模型家族運作的 agent 時,這消除了一整個類別的 bug
- 58 個模型別名涵蓋 21 個家族。打
llama3就好,不用打mlx-community/Meta-Llama-3.1-8B-Instruct-4bit。涵蓋 Llama、Mistral、Phi、Gemma、Qwen、DeepSeek、Command-R 等。別名隨新版本更新 - 測試覆蓋。一個 v0.6.x 的專案有 3,200+ 測試案例。光是 tool call 解析器就有幾百個邊界案例測試。當你把它當基礎設施依賴時,這很重要
失敗模式與不該用的情境
- 只支援 Apple Silicon。沒有 NVIDIA CUDA,沒有 AMD ROCm,沒有 x86 CPU 後備方案。如果團隊裡有人用 Mac、有人用 Linux + NVIDIA GPU,沒辦法統一部署在 Rapid-MLX 上。這是根本的架構選擇,不是日後可能補上的缺漏功能
- 版本 0.x,仍在成熟中。API 相對穩定但可能出現 breaking change。文件有時候跟不上程式碼更新。正式環境部署應該鎖定版本
- 生態不如 Ollama 豐富。Ollama 跟 Open WebUI、LangChain、LlamaIndex、LiteLLM、Continue 等幾十個工具有深度整合。Rapid-MLX 的 OpenAI 相容 API 讓很多工具可以直接串接,但專屬整合較少。社群資源、教學文章、疑難排解討論也比較少
- 維護者集中風險。核心開發集中在少數人手上。當你把它當基礎設施來依賴時,bus factor 很重要。測試覆蓋率和乾淨的程式碼庫在某種程度上緩解了這個問題,但長期押注時是個真實的考量
- 只支援 MLX 模型格式。需要 Hugging Face 上的 MLX 格式權重。MLX 模型生態成長很快,但數量仍不及 GGUF(llama.cpp 和 Ollama 使用的格式)。一些小眾或剛發布的模型可能沒有馬上提供 MLX 轉換版本
價格、上手門檻與風險
完全開源,零成本。門檻中等,需要 Apple Silicon Mac、CLI 操作習慣、基本的 LLM 服務概念理解(模型量化、context 長度、token 吞吐量)。安裝走 pip,過程直接。OpenAI 相容 API 代表不需要學新的 client library。實驗性使用風險低,正式基礎設施使用風險中等,考量 0.x 版本和維護者集中。
結論
Apple Silicon 上最快的本地 LLM 推論選項,而且差距不小。OpenAI 相容 API 讓現有專案的遷移成本極低。DeltaNet 狀態快照是混合模型架構上真正的技術創新。Tool call 解析器的覆蓋度在本地推論引擎中少見地完整。Apple Silicon 的限制是真實且永久的,如果你不是用 M 系列晶片,這個工具對你不存在。但如果你是,在速度敏感的工作負載上,它是比 Ollama 更好的選擇。Ollama 在生態廣度和跨平台支援上仍然勝出。llama.cpp 在硬體覆蓋上仍然勝出。Rapid-MLX 在 Apple Silicon 原始效能和開發者 API 人因工程上勝出。