此系列文為:AI Agent 教學;一次看完整的教學系列文,歡迎加入 AI 共學島訂閱服務。
怎麼讓 AI 更有效幫你控制、代操工具?
到底該怎麼讓 AI 能直接在 WordPress / Ghost 上發文、編輯標籤、優化 SEO,或者直接幫你爬 Notion Database 的資料?API 跟 MCP 差在哪裡?哪個好用?
你可能有遇過:「AI 不是很厲害嗎?怎麼連發一篇文章都搞不定?」
問題出在:你沒給它正確的工具權限,讓它走了一條最笨的路。
很多人(包括 AI 本身)在選擇「怎麼操控軟體」這事上,常常會選錯路線。
這一篇,快速讓你補齊 AI Agent 的基本知識,讓你知道如何讓 AI 擁有正確的工具能力。
五種操控軟體的方式,一張圖看懂

前陣子好友 Yuanlin Lin(Zeabur 創辦人)在 Threads 上寫了一則很棒的科普文1,把 API、GUI、CLI、MCP、Browser Use 這些技術名詞解釋得很清楚。
我打算用我的理解方式重新整理,再加上我自己玩了三年 AI、幾個月的 AI Agent 的經驗,希望給小白、非工程師的一個快速整理。
先給你一張對照表:
| 方法 | 白話說明 | 速度 | 穩定度 | 誰在用 |
| API | 程式直接呼叫程式 | 極快 | 極高 | 工程師、AI Agent |
| CLI | 在終端機打指令 | 快 | 高 | 工程師、進階用戶、AI Agent |
| MCP | 幫 AI 包好的「工具包」 | 快 | 高 | AI 工具(Claude Code 等) |
| GUI | 你平常用的 App 畫面 | 慢 | 高 | 普通人類 |
| Browser Use | AI 模擬人類點按鈕 | 最慢 | 最低 | AI Agent(最後手段) |
API:程式和程式之間的暗號
API(Application Programming Interface,應用程式介面)就是「讓程式可以呼叫另一個程式的接口」。
想像你要寄一封 email:打開 Gmail、點「撰寫」、填收件人、打內容、按傳送。這是人類的方式,也就是 GUI(Graphical User Interface,圖形使用者介面),我們看著畫面點來點去,是最直覺的操作。
但你每按一個按鈕,Gmail 背後其實都在呼叫 Google 的 API。那個漂亮的介面,只是把「呼叫 API」這件事包裝成你看得懂的按鈕。
如果你能讓 AI Agent 直接透過 API 控制,你其實就不用自己繞一圈去按按鈕?
這就是 AI 時代最核心的觀念轉換,讓軟體的操作回到本質、最簡單直接的作法。
CLI:API 的人性化版本
CLI(Command Line Interface,命令列介面)就是在終端機裡打指令。
它介於 API 和 GUI 之間 — 沒有漂亮畫面,但用人類看得懂的語言文字,例如:
gmail send --to boss@company.com --subject "月報" --body "附件如附"
一行指令搞定。不用打開 Gmail、不用等畫面載入、不用點撰寫再填四個欄位。
CLI 在 AI 時代特別重要的三個理由:
- 比 GUI 穩定:App 會改版、按鈕會搬家,但指令格式幾乎不會變
- 比 Browser Use 快:不用打開瀏覽器、等頁面載入
- 比 API 更適合 AI 使用:指令是簡單英文單字,AI 不容易寫錯
MCP:幫 AI 預先包好的工具包
MCP(Model Context Protocol,模型上下文協議)是 2024 年底 Anthropic 提出的開放標準。
※ 未來我也會寫一篇《MCP 入門與推薦》文章,推薦一些我有安裝的 MCP。
讓我先簡單說:MCP 就是有人幫你把 API 和 CLI 包裝成 AI 可以直接拿來用的工具。
沒有 MCP 的時候,AI 要先去查文件、搞懂 API 格式、寫程式呼叫;有了 MCP,AI 直接從工具清單裡挑一個來用,幾秒搞定。
但 MCP 也有它的限制,不是什麼都用 MCP:
- 要等別人開發 MCP Server 你才能用
- 不是所有 AI 工具都完整支援
- 裝太多 MCP 會佔用 AI 的記憶空間(Context Window,上下文窗口)
舉個實際案例來說:Notion 官方推出的 MCP2 就比 Notion API(Application Programming Interface)功能少蠻多的;WordPress 也是。
所以這兩個工具,我都還是用 API,功能全面,反正你也是叫 AI Agent 幫你讀官方的 API 文檔,也不是你自己讀,重點是功能權限能不能全開。
所以我一律都建議,直接讓 AI 幫你查:「你要的工具,在 MCP 跟 API 上,功能跟使用上的差異?」
它會直接評估後告訴你,哪個是更好的選擇,該怎麼做。
Browser Use:最後才用的大絕招
Browser Use(瀏覽器自動化操控)就是讓 AI 打開瀏覽器,像真人一樣操作網頁,點按鈕、填表單、截圖。
技術上常用的工具包括 Playwright 和 Puppeteer 這類瀏覽器自動化框架。
聽起來很厲害對吧?但老實說,這是所有方式裡面最慢、最不穩定的。
為什麼?因為網頁會改版。今天那個按鈕在左邊,明天改版可能搬到右邊,AI 就找不到了。
打個比方來說,你讓 AI 控制瀏覽器來發一篇電子報、填寫表單,大概要花上 5~10 分鐘,但透過 API 可能是幾秒鐘的任務。

我的實戰經驗:選錯路線的代價
跑了半年 AI 助理之後,我踩過的坑可以整理成一條很清楚的優先順序:
能用 API / CLI → 就不要用 MCP
能用 MCP → 就不要用 Browser Use
Browser Use → 是真的沒有其他路的最後手段
案例一:爬文 or 抓個人 Notion 內容
- 錯誤路線:用 Playwright(瀏覽器自動化工具)打開 Notion 網頁 → 載入慢、格式亂、常常失敗
- 正確路線:用 Notion API→ 3 秒拿到完美結構化資料;別人的網頁用 Firecrawl3
案例二:抓別人的 Facebook 貼文
- 沒有 API 可用(Facebook 不開放抓別人的貼文)
- 正確路線:這時候才用 Playwright(瀏覽器自動化)打開頁面去抓
看到了嗎?Browser Use(瀏覽器自動化)不是不好,而是它應該是你「沒有其他路」的時候才走的路。
那 Agent-Browser 呢?用 AI 操控桌面 App
最近還有一個新工具叫 agent-browser,它可以讓 AI 直接操控 Electron 架構的桌面 App:Slack、Discord、VS Code、甚至 Obsidian4。
※ 背後原理是: 幾乎所有 Electron 架構的應用程式都會暴露 Chrome DevTools Protocol(CDP,Chrome 開發者工具協議)埠口(常見如 --remote-debugging-port=9222)。 只要開啟這個偵錯埠口,我們熟悉的瀏覽器自動化工具(例如 Playwright)就能像控制 Headless Chrome 一樣去操控桌面軟體了。
聽起來很酷,但我的判斷是:對大部分人來說,目前不需要。
原因和 Browser Use 一樣 — 如果這些軟體已經有 API 或 CLI,直接用就好了。我用 Discord Bot API 發訊息,比讓 AI 打開 Discord App 去點按鈕快一百倍。
agent-browser 真正有價值的場景:某個軟體完全沒有 API,也沒有 CLI,你又非得自動化不可。這種情況在企業內部的老系統比較常見,一般人很少遇到。
延伸閱讀:想知道讓 AI 看懂網頁的具體工具比較,可以看這篇 讓 AI 助理看懂網頁:三大抓取工具完整比較。
一個簡單的決策流程
下次你想讓 AI 幫你自動化某件事,可以照這個順序想:
1. 這個服務有 API(應用程式介面)嗎?
→ 有:直接用 API(最快最穩)
2. 有人做好 MCP(模型上下文協議)了嗎?
→ 有:裝 MCP,讓 AI 直接用(方便)
3. 有 CLI(命令列工具)嗎?
→ 有:讓 AI 下指令(快又穩)
4. 以上都沒有?
→ Browser Use / agent-browser(最後手段)
大部分主流服務(Notion、Google、WordPress、GitHub、Slack)都有 API,所以你幾乎不需要走到第 4 步。
想從零開始學 AI 自動化?推薦閱讀:100 小時掌握自動化工作術;或看看 21 天我用 Claude Code 打造了一整套 AI 分身助理的實戰紀錄。
給非工程師的重點整理
如果你不是工程師,記住這幾件事就夠了:
- AI 操控軟體的最佳方式是 API(應用程式介面)和 CLI(命令列介面),不用模擬人類去點按鈕
- MCP(Model Context Protocol,模型上下文協議)是幫你把 API 包裝好的工具包,讓 AI 可以直接用,不用自己寫程式
- Browser Use(瀏覽器自動化)是最後手段,不是預設方案,速度慢、容易壞、而且貴(消耗大量 token)
- 選對路線的差距是秒和分鐘的差距,長期累積下來影響巨大
讓 AI 用它擅長的方式工作(API、CLI),而不是逼它模仿人類的方式工作(點按鈕)。這是 AI 時代最重要的自動化觀念。
還有一點,現在我選擇工具時,如果沒有開放 API 的工具,基本都是不考慮的。
延伸閱讀
- MCP 設定入門(系列文章,敬請期待):前篇,教你實際設定 MCP 工具
- 讓 AI 助理看懂網頁:三大抓取工具完整比較:Firecrawl、Playwright、WebFetch 的實戰比較
文章註腳
- Yuanlin Lin — 一篇文章看懂 API、GUI、Browser Use、CLI、MCP、Skills:本文的靈感來源,從工程師角度的完整科普 ↩︎
- Notion MCP 官方文檔 ↩︎
- 關於怎麼讓 AI 助理快速看懂網頁、爬內容抓下來?請看「Firecrawl, Playwright, WebFetch 比較教學文」 ↩︎
- Obsidian 2026 年推出 CLI,一律推薦讓 AI Agent 讀這個官方文檔使用。 ↩︎
