此系列文為 AI Agent 教學系列,想一次看完整教學,歡迎加入 AI 共學島訂閱服務。
AI Agent 到底是什麼?
簡單來說,AI Agent = 你習慣的問答 AI(ChatGPT、Gemini)擁有了調用工具的能力。
工程一點來說,就是 harness(調度框架;本篇後面會說)的品質。
先下結論:你的 AI Agent 有多強,取決於你授權的 Tool、Skill 有多少 + harness 的架構
無論是像我用 Claude Code / Codex 自製,還是 OpenClaw 或 Hermes 來管理都是。
這時有人會問說:「我的一般 ChatGPT / Gemini 也能生圖、分析 Excel、上網查最新資料阿?」
沒錯,現在主流的 AI 公司,也會在問答型 AI,配上個「上網搜尋」和「文件閱讀」這些基礎工具
只是他們配的,都是基礎通用款。
因為 FB、Threads、X 這些平台的貼文,是靠 JavaScript 渲染的即時內容,加上社群平台還會去擋掉機器人的請求,所以一般搜尋工具抓不到內容。不過我的 AI Agent 可以,這是因為我幫它裝上「專門的搜尋工具」,甚至直接串 Facebook API,可以批量爬我要的內容,搜尋到最新社群討論。

再比如說,我把我的 AI 助理接上 einvoice 這個套件,AI Agent 就可以幫我查詢或開我們公司的發票;或者把它接上 Teachify 的 API,就能直接查我們課程的學員訂單、上課和銷售狀況,不必在自己手動去後台慢慢點擊。


題外話補充個,「現在沒有、沒打算開放 API 的平台服務」1,盡量少用、值得淘汰了。你值得讓你擁有自己資料的擁有、使用權之外,也是讓你的 AI Agent 能直接帶你操作執行,你就不用自己忙半天。
研究最紅的開源 Hermes Agent,有趣的發現
前陣子我跟我的 AI 一起研究了一個開源專案,叫 Hermes Agent。它開源不到半年,就在 GitHub 衝破 20 萬顆星星星,是這一年竄升最快的開源 AI Agent 之一。
為什麼要研究?簡單來說,就是定期去看看別人做得好的地方,以及哪些東西是自己也會需要的,接著就會跟我的 AI 來回討論,補足我們自己的盲點。
研究過程中,意外發現它的結構,跟我自己花了半年、慢慢調教出來的 AI 助理「雷小蒙」,幾乎是一模一樣。在這之前,我沒讀過它的原始碼,它當然也不可能抄我的。但我們不約而同,都把一個 AI Agent 拆成了同樣的幾層。
看來 AI Agent 不是什麼神祕的黑科技,它似乎有一套固定的骨架。
這篇就把我的 AI Agent 研究這套骨架的對比攤開給你看,讓我用兩個真實的 agent 對照:一個是現在最紅的 Hermes Agent,一個是我自己做的雷小蒙。
AI Agent 的 7 層設計框架
一個能「越用越懂你」的 AI 助理,除了技能和工具之外,還得有架構,大概可以是這 7 層:
| 層 | 白話比喻 | 這一層放什麼 |
| 1. 核心規則 | 員工入職手冊 | 你是誰、它該怎麼做事的總規範 |
| 2. 技能 | 部門工作手冊 | 一項項專業 SOP,需要時才抽出來 |
| 3. 精煉記憶 | 牆上便利貼 | 最該隨時記得的幾十條重點 |
| 4. 使用者畫像 | 它對「你」的認識 | 你的習慣、偏好、說話風格 |
| 5. 對話歷史 | 工作日誌 | 過去每一次互動,事後翻得到 |
| 6. 生命週期自動化 | 反射動作 | 開始、結束時自動觸發的事 |
| 7. 多平台門面 | 對外窗口 | 你能在哪些地方找到它 |
少了前三層,它只是個健忘的聊天機器人。七層到齊,它才是一個「可靠的助理」。
一張圖看懂:Hermes 和雷小蒙的 7 層 harness 骨架
下面這張圖,左邊是 Hermes Agent,右邊是我的雷小蒙。接著我們每層展開說明:

一個產品團隊做出來的 Hermes,跟我一個人下班後慢慢長出來的雷小蒙,七層骨架完全對得上。這不是巧合,是因為「一個有用的 AI 助理該長怎樣」,本來就有它的自然形狀。
接下來一層一層拆給你看。
第 1 層:核心規則 —— 它的「員工手冊」
新人報到第一天,公司會給一本員工手冊:你的職稱、做事原則、什麼能碰什麼不能碰。AI Agent 的第一層就是這本手冊。
Hermes 放在 config.yaml,我的雷小蒙放在一個叫 CLAUDE.md 的檔案。裡面寫的是最高層級的規矩:用繁體中文回答、動手前先講計劃、破壞性的指令要先問過我。
這一層是所有人的起點。你想養自己的 AI 助理,第一件事就是寫這份手冊。它寫得好不好,直接決定 AI 聽不聽得懂你。
第 2 層:技能 —— 它的「SOP 知識庫」
一個專業的人,會持續沉澱自己的工作流程,寫成 SOP,未來遇到相關的任務時,會知道過去是怎麼做的,包含哪些流程規格、哪些參考資料或腳本,能達到高品質的穩定產出 —— AI 的「技能」 SKILL.md 就是這個概念,Hermes 也是同樣的做法。
我的雷小蒙現在有近 60 個技能:寫作、AI 配圖規範、發 WordPress、剪 YouTube、訂飯店寫信、整理人脈卡、做簡報……幾乎我每天的工作,都有一張對應的 SOP:

這些技能走的是一套開放標準,你得讓做出來的 SKILL 還能跨工具搬家、不被任何一家公司綁死2。
第 3 層:精煉記憶 —— 貼在牆上的「便利貼」
辦公桌前那面牆,你會貼上最常要看的東西:常用分機、這週的死線、老闆交代過的雷區。AI 的「精煉記憶」就是這面牆。
Hermes 叫它 MEMORY.md,我的也叫 MEMORY.md。它跟第 5 層的「對話歷史」不一樣:歷史是全部翻得到的舊帳,便利貼牆只貼最關鍵的幾十條,AI 每次開工第一眼就看到。
我的雷小蒙便利貼牆上寫著像這樣的東西:「這陣子主力在寫 AI Agent 教學系列」、「每週五是我的複盤日」、「給我網址要附完整連結,我才點得開」。這些是它每天跟我工作時,會記得我最近在忙什麼、我有哪些小習慣,不會忘記的便利貼。
第 4 層:使用者畫像 —— 它對「你」的認識
好的助理會記得:你愛喝美式不加糖、開會不喜歡被打斷、報告要先講結論。這不是規則,是「它對你這個人的理解」。
Hermes 用一個 USER.md 專門裝這件事。我的雷小蒙是一疊 user_*.md 檔案,記著我的金流習慣、投資取向、慣用的瀏覽器。
這一層是「越用越懂你」的祕密。它跟第 1 層的員工手冊分開放,因為手冊是「做事的規矩」,畫像是「你是個怎樣的人」,兩件事。

第 5 層:對話歷史 —— 翻得到的「工作日誌」
因為便利貼牆,不應該貼下所有東西,否則你的上下文窗口會爆掉。
這就要靠工作日誌,紀錄每個專案、任務的為什麼做、做了什麼。
Hermes 把每一次對話存進一個資料庫,可以全文搜尋。我的雷小蒙做法更簡單,但更好讀:每天寫一篇 daily log,存成一個個 Markdown 檔(這套本地記憶,我在這支桌面版教學影片裡有簡單演示過)。
這一層讓 AI 有「長期」記憶。沒有它,AI 每次關掉視窗就失憶,你得一再重新交代。
第 6 層:生命週期自動化 —— 不用想的「反射動作」
有了 AI 助力,有些以前得靠人腦、意志力和記性的任務,要讓 AI 變成反射動作來釋放我們的大腦壓力。
這一層的專有名詞叫 Hooks(鉤子)。
意思是:在某個時間點、事件後,自動觸發某件事。
我的雷小蒙設了三個:每次對話開始,自動把最近幾天的進度灌給它;對話結束,自動寫進當天日誌。
Hermes 把這些「反射」內建在系統裡。我是用一個個小腳本自己拼出來的。做法不同,要解決的事一模一樣:讓重要的事自動發生,不需要靠人去記得。
更進一步,我還把這些 hook 跟一套每週流程組成「組合拳」:讓雷小蒙每週自我回顧,把這週做對、做錯的經驗沉澱成新的規則和技能,一週比一週聰明。(這套讓 AI Agent 每週進化的機制,是多個 hook 加上 workflow 的組合,要一整篇才講得完,我會在之後的 AI 大課裡完整分享)
第 7 層:多平台門面 —— 到處找得到它的「對外窗口」
最後一層,是「你能在哪裡使用它」。一個只活在終端機裡的 AI,跟一個你在手機、在 Discord、在訊息群組都能呼叫的 AI,體感天差地遠。
Hermes 內建一整排管道:Telegram、Discord、Slack、WhatsApp……等。我的雷小蒙因為可以雙棲在 Codex 上使用,所以我外出直接用 ChatGPT 手機版就能直接連到家裡的 Mac mini 的 Codex 非常方便,又快也穩定;另外一個運用管道是,丟到團隊的 Discord 伺服器跟工作夥伴一起使用:


這套「骨架」,業界叫 harness:模型是馬,harness 才是那套馬具
我寫上面這些的時候,「骨架」是我自己順口的講法。
後來我才發現,這個東西業界早有正式名字。
它叫 harness,原意是馬的馬具:套在馬身上、讓牠那股蠻力用對方向的那套裝備。套到 AI 身上意思一樣,模型是那匹馬,harness 是讓牠的力氣真正拉動車子的那套裝備。圍繞它的工程實踐,就叫 harness engineering。
OpenAI 寫過一篇 Harness engineering:在 agent 優先的世界用好 Codex,Anthropic 也發過 Harness design for long-running application development。兩大家不約而同在講同一件事。
Anthropic 在那篇裡做了一個很有說服力的對照實驗:同一個模型、同一個任務(做一個 2D 遊戲編輯器)。沒有 harness,它花了 9 美元、跑 20 分鐘,做出一個跑不動的東西;給它一整套 harness,它花 200 美元、跑 6 小時,做出一個你真的能玩的遊戲。模型一模一樣,差別只在 harness。
一句話記住:harness 不會讓模型更聰明,它讓模型的產出變可靠。
當然,不同人的需求不同,每個人的骨架需求也會不一樣。
我這篇是從「個人助理」的角度,把骨架切成 7 層。如果換成專門在講「會寫程式的 agent」的人,切法會更技術、顆粒度也不一樣,這裡就不細數他們切成幾塊。但其中有兩件我這篇沒展開、卻對寫程式特別關鍵的事,值得單獨點名:Verification(不准 agent 沒跑過驗證就喊「我做完了」)和 Scope(一次只做一件事,不要貪)。如果你的 AI 要幫你寫程式,記得把這兩塊補上。3
所以 AI Agent 的威力和品質,關鍵在於怎麼構建一套能幫助需求的 harness ,才是真正拉開 AI 助理好壞的地方。
想養一個自己的 AI 助理?別被七層嚇到,先從一份 CLAUDE.md 開始
不過,你不需要一開始就做完整,它是一層一層長出來的,不是一次蓋好的。
我的雷小蒙也不是馬上就被設計出來的,是一路長出來的:一開始只有一份 CLAUDE.md,後來重複交代的事多了才長出技能、老忘東忘西了才補上記憶。等我回頭看,才發現它跟後來的超新星的 Hermes Agent 同構。
當你大概理解這套骨架,你可能會冒出一個很自然的問題:既然 Hermes 這種「開箱即用」的 agent 也內建了同樣這 7 層,那我到底該直接用它,還是自己用 Claude Code+Codex 慢慢養一個?
我的看法是——「好上手」跟「適合長期的你」,是兩件事。下一篇我用兩個買房子的比喻,把這兩條路的差別講清楚:想養一個自己的 AI 助理,該選 Hermes Agent 還是 Claude Code+Codex?
這篇帶你看懂的是「骨架長什麼樣」。至於每一層具體怎麼搭:CLAUDE.md 怎麼寫、技能怎麼拆、記憶怎麼分層、Hooks 怎麼設,這些我一路試出來的順序、範本和 know-how,我會整理在 AI Agent 電子報 裡免費寄給你。想直接學習我這套,也可以從 《24 小時開始活用 Claude Code》迷你課 入門。
常見問題&內容補充註解
一般的 ChatGPT 是一顆「純大腦」,頂多配上幾個通用工具(上網、讀檔)。AI Agent 則是在大腦外面,多了一整套屬於你的 harness——你的規則、技能、記憶、自動化和對外窗口。差別不在模型多聰明,而在它有沒有這套骨架:同一顆模型,裝了骨架就能穩定幫你做事,沒裝就只能陪你聊天。
當然可以。我也沒有寫任何程式碼,就把我的 AI 助理團隊打造好。建議你可以看看我網站上的免費教學文或者我的 YouTube 的免費公開影片先瞭解,如果有需要快速上手,可以從 《24 小時開始活用 Claude Code》迷你課 入門。
- 我們自己的課程產品與學員學習平台用的是 Teachify。它過去沒有開放 API,所以每次要查學員訂單、確認上課或銷售狀況,都得手動登入後台一筆筆點,非常麻煩。好消息是他們今年陸續推出了 API 與 Webhook 服務,現在我們可以直接呼叫 API,把所有數據一次撈出來。 ↩︎
- 技能有一套開放標準 agentskills.io,最早由 Anthropic 設計、後來開源成公用格式,Anthropic 的 Claude Code、OpenAI 的 Codex、Google 的 Antigravity 三大家都支援。所以你今天做的技能,原封不動丟到別家幾乎不用改就能用。你不是在替某一家公司打工,而是在累積一份帶得走、不被綁死的資產。實際怎麼把整套設定從 Claude Code 搬到 Codex,我寫在這篇:AI Agent 搬家教學:Claude Code 轉 Codex。 ↩︎
- 想把這套骨架做到「長時間自動寫程式也不出錯」,推薦這門免費課程(有繁體中文):Learn Harness Engineering,用 12 講完整拆解 Verification、Scope 這些 agent 工程實踐。 ↩︎