Name: browser-use Review
Item: browser-use
Rating: 3
Author: CY

最適合誰

開發者需要 AI agent 自動化瀏覽器操作，但傳統 Playwright 腳本在頁面改版後太脆弱。適合表單自動填寫、跨頁面資料抓取、網路研究等任務。如果你的目標網站有嚴格反爬或 CAPTCHA，開源版會碰壁，需要評估 Cloud 版或其他方案。

我實際怎麼用

安裝後給 Agent 一段自然語言任務描述，它會啟動 Chromium 瀏覽器，自動執行「感知、推理、行動」迴圈。感知階段提取 DOM 並建立可互動元素的數字索引，LLM 以「點擊第 5 號元素」的方式發指令，比 CSS 選擇器更穩健。支援視覺模態（截圖）做輔助判斷，也支援 Pydantic 結構化輸出確保抓取資料符合定義的 schema。自訂工具用 @tools.action 裝飾器，擴充簡單。

真正強的地方

DOM 數字索引是核心差異。LLM 不需理解 HTML 結構，直接看索引操作。比純截圖方式（Anthropic Computer-Use）精確
迴圈偵測（20 步窗口）和自動重新規劃（3 步無進展觸發）讓複雜任務更有韌性
支援幾乎所有主流 LLM，包含本機 Ollama。ChatBrowserUse 專屬模型針對瀏覽器任務優化
MCP Server 和 Claude Code Skill 官方整合，可從 AI 編程工具直接觸發瀏覽器自動化

失敗模式與不該用的情境

v0.x 版本，API 相容性無保證。每步都要 LLM 呼叫，複雜任務 Token 成本會累積
開源版無 CAPTCHA 解決能力。主流電商和社群平台幾乎都有反爬機制
無 Prompt Injection 內建防護，惡意網頁內容可能操控代理行為
可執行不可逆操作（真實購物、發送郵件），務必設定 max_steps 和 human-in-the-loop

價格、上手門檻與風險

免費，MIT 授權。uv add browser-use 安裝。進階門檻，需要理解 Playwright、LLM API、以及代理式自動化的安全邊界。LLM Token 費用依任務複雜度而定。主要風險是不可逆操作和反爬偵測。Cloud 版提供 CAPTCHA 解決和代理 IP 輪替，但定價未公開。

結論

AI 瀏覽器自動化領域目前規模最大的開源專案，架構設計成熟，生態整合完整。適合研究型和輔助型瀏覽器任務。等 v1.x 穩定版和更多實測數據再考慮用於生產環境。

來源

GitHub: https://github.com/browser-use/browser-use
文件: https://docs.browser-use.com