← Spell Book

browser-use

ai-tools

法術評分
🔮🔮🔮○○
價格
open-source
難度
advanced

最適合誰

開發者需要 AI agent 自動化瀏覽器操作,但傳統 Playwright 腳本在頁面改版後太脆弱。適合表單自動填寫、跨頁面資料抓取、網路研究等任務。如果你的目標網站有嚴格反爬或 CAPTCHA,開源版會碰壁,需要評估 Cloud 版或其他方案。

我實際怎麼用

安裝後給 Agent 一段自然語言任務描述,它會啟動 Chromium 瀏覽器,自動執行「感知、推理、行動」迴圈。感知階段提取 DOM 並建立可互動元素的數字索引,LLM 以「點擊第 5 號元素」的方式發指令,比 CSS 選擇器更穩健。支援視覺模態(截圖)做輔助判斷,也支援 Pydantic 結構化輸出確保抓取資料符合定義的 schema。自訂工具用 @tools.action 裝飾器,擴充簡單。

真正強的地方

  • DOM 數字索引是核心差異。LLM 不需理解 HTML 結構,直接看索引操作。比純截圖方式(Anthropic Computer-Use)精確
  • 迴圈偵測(20 步窗口)和自動重新規劃(3 步無進展觸發)讓複雜任務更有韌性
  • 支援幾乎所有主流 LLM,包含本機 Ollama。ChatBrowserUse 專屬模型針對瀏覽器任務優化
  • MCP Server 和 Claude Code Skill 官方整合,可從 AI 編程工具直接觸發瀏覽器自動化

失敗模式與不該用的情境

  • v0.x 版本,API 相容性無保證。每步都要 LLM 呼叫,複雜任務 Token 成本會累積
  • 開源版無 CAPTCHA 解決能力。主流電商和社群平台幾乎都有反爬機制
  • 無 Prompt Injection 內建防護,惡意網頁內容可能操控代理行為
  • 可執行不可逆操作(真實購物、發送郵件),務必設定 max_steps 和 human-in-the-loop

價格、上手門檻與風險

免費,MIT 授權。uv add browser-use 安裝。進階門檻,需要理解 Playwright、LLM API、以及代理式自動化的安全邊界。LLM Token 費用依任務複雜度而定。主要風險是不可逆操作和反爬偵測。Cloud 版提供 CAPTCHA 解決和代理 IP 輪替,但定價未公開。

結論

AI 瀏覽器自動化領域目前規模最大的開源專案,架構設計成熟,生態整合完整。適合研究型和輔助型瀏覽器任務。等 v1.x 穩定版和更多實測數據再考慮用於生產環境。

來源