← Spell Book

oMLX

ai-tools

Spell Rating
🔮🔮🔮🔮○
Pricing
free
Difficulty
intermediate

最適合誰

需要在 Apple Silicon Mac 上跑本地 LLM,而且會用到長 context 工作流的人。如果你用 Claude Code 搭配本地模型、需要多輪研究對話、或者想在同一台機器上同時跑文字生成和 embedding/reranking,oMLX 就是為這些場景設計的。平台需求:macOS 15.0+ Sequoia,Apple Silicon(M1/M2/M3/M4)。


我實際怎麼用

我用 Homebrew 把 oMLX 裝成背景服務(brew services start omlx),崩潰會自動重啟。日常透過原生 macOS 選單列 App 管理模型,常用的設定為固定(pin),其他讓 LRU 自動驅逐。

最關鍵的工作流優勢是 SSD KV 快取。啟用 --paged-ssd-cache-dir ~/.omlx/cache 之後,長對話可以跨伺服器重啟保留。晚上離開一個 Claude Code session,隔天早上回來,context 還在,不需要重新預填充、不需要等。

需要做 embedding 時,我在同一個 oMLX 實例裡載入 BGE-M3,不用另外起服務。引擎池自動處理 LLM 和 embedding 模型的共存,記憶體上限保護防止 OOM。

在 64GB Mac 上跑大型 MoE 模型時,我用 oQ4 量化。品質足夠日常工作。oQ 的敏感度驅動位元分配把位元放在真正需要的地方,而不是全部用同樣的位元數。


真正強的地方

SSD KV 快取持久化。 這是 oMLX 和其他所有本地 LLM 伺服器的根本差異。雙層快取(RAM 熱層 + SSD 冷層)把 KV cache 以 safetensors 格式儲存到磁碟。伺服器重啟後從磁碟恢復,不需要重新計算。對長 context 工作來說,這直接消除了本地 LLM 最大的摩擦點。

oQ 自研量化引擎。 不是又一個固定位元數量化工具。oQ 透過校準推論測量每一層的量化敏感度,把位元預算分配到資料真正需要的地方。數據說話:Qwen3.5-35B-A3B 上,oQ 2-bit MMLU 達 64%,而標準 mlx-lm 2-bit 只有 14%。4-bit 下 oQ 達 83.3%,mlx-lm 為 79.7%。MoE 模型的批次 GPTQ 最佳化還有 15 倍加速。

多引擎池。 一個伺服器同時跑 LLM、VLM、Embedding、Reranker、TTS、STT 六種引擎。引擎池用 LRU 驅逐、模型固定、單模型 TTL、進程記憶體上限來管理資源。不同類型的模型不需要各開一個服務。

雙協定相容。 同時支援 OpenAI(/v1/chat/completions)和 Anthropic(/v1/messages)端點,包含串流、8 種以上模型系列的工具呼叫、Anthropic adaptive thinking。大多數 AI 客戶端可以直接對接,不需要轉接層。

Claude Code 專屬最佳化。 Context 縮放調整回報的 token 計數,讓 auto-compaction 在正確時機觸發。SSE keep-alive 防止長時間預填充時的連線超時。這些是專門為 AI 輔助編碼工作流設計的功能。


失敗模式與不該用的情境

僅限 macOS + Apple Silicon。 沒有 Linux、沒有 Windows、沒有 Intel Mac。如果團隊有任何成員不是用 Apple Silicon Mac,這個工具對他們完全不適用。

單一維護者。 核心開發者 jundot 佔了約 95% 的 898 個 commits。專案三個月成長到 14,252 stars,但 bus factor 是 1。如果這位開發者停止維護,專案可能停滯。

Alpha 階段。 專案 metadata 標注 Development Status :: 3 - Alpha。版本之間可能有破壞性 API 變更。不要拿來做面向客戶的生產服務。

依賴鎖定 git commit。 核心依賴(mlx-lm、mlx-vlm、dflash-mlx)鎖定特定 git commit 而非正式 release tag。升級可能需要手動處理,也可能落後於 Apple 官方 MLX 的演進。

Grammar 解碼需要 PyTorch。 啟用 [grammar] 功能會拉入約 2GB 的 PyTorch。除非你確定需要約束式解碼,否則略過。


價格/上手門檻與風險

面向 評估
價格 免費,Apache 2.0 授權
上手門檻 中等。Homebrew 安裝很簡單,但設定快取層級、記憶體限制、量化參數需要對本地 LLM 基礎設施有基本理解
風險 中等。Alpha 階段、單一維護者、依賴鎖定 git commit。健康的社群成長(三個月 14K stars)和每週 commit 頻率部分緩解了風險
平台 macOS 15.0+ Sequoia,Apple Silicon M1/M2/M3/M4,Python 3.10+

結論

Adopt(採用)。oMLX 解決了 Apple Silicon 上其他所有本地 LLM 伺服器都忽略的 context 持久化問題。SSD KV 快取、oQ 量化引擎、多引擎池、雙協定相容,讓它成為目前 Mac 使用者能拿到的最強本地推論伺服器。單一維護者和 Alpha 階段的風險確實存在,但考慮到活躍的開發節奏和缺乏同等級替代方案,這些風險可以接受。如果你在 Apple Silicon 上跑本地模型,不只是隨便聊聊天,oMLX 應該是你的預設伺服器。


來源