2026 年龍蝦第三篇：AI Agent、Harness Engineering 與工作系統的成形

Jimmy lane
5月6日
讀畢需時 18 分鐘

序言：馬鞍比馬更重要

這幾個月，我在幾個國內外 OpenClaw 社群裡，看見一種很微妙的變化。

最早那一批把「龍蝦」當新玩具在養的使用者，討論的重點，早已不再停留在「這東西能不能用」「為什麼它會幻覺」這種入門問題。大家開始談的，是更細、也更現實的實作問題：怎麼部署才不容易斷線？怎麼接不同模型？怎麼控制 token 成本？

怎麼讓記憶不要因為容器重啟就全部消失？怎麼避免工具呼叫失誤？怎麼設定權限，才不會讓一個代理人在你沒注意的時候碰到不該碰的檔案？

這種討論氣氛，跟早期大家剛接觸 ChatGPT 時很不一樣。

那時候大家比的是誰問得漂亮，誰寫出的 prompt 比較神，誰讓模型產生了更驚人的回答。現在這一波不一樣。現在大家開始面對的是一套系統真正被放進工作現場後，才會浮現的細節：維護、權限、成本、穩定性、記憶污染、工作流程斷點。

這是一個很明顯的訊號。

AI Agent 已經從社群玩具，快速走向工作系統的雛形。

OpenClaw 之所以值得寫，不只是因為它在社群裡爆紅，也不是因為「龍蝦」這個名字好玩，而是因為它讓很多人第一次具體感受到：AI 不再只是一個聊天框。

它可以接通訊入口，可以連工具，可以讀檔案，可以執行流程，可以透過 skills 擴充能力，也可以在本地環境和雲端模型之間，形成一種新的工作結構。

更重要的是，這場浪潮並不是 OpenClaw 一個專案的獨舞。OpenAI、Anthropic、Google、Microsoft、DeepSeek，以及各種開源 Agent 框架，都在用不同方式往前推。有人往企業工作流推進，有人強化 coding agent，有人把 AI 放進瀏覽器與桌面，有人主打長期記憶與自我進化。各大巨頭與開源社群同時把 AI Agent 往前推，這種盛況，在過去幾年的生成式 AI 發展裡也算罕見。

也就是在這個時間點，「Harness Engineering」這個詞開始變得重要。

這個詞直譯有點硬，可以暫時叫它「駕馭工程」或「駕馭框架」。如果 AI 模型是一匹馬，Harness 就是馬鞍、韁繩、路線、工作守則與煞車系統。馬再強，如果沒有馬鞍與韁繩，跑起來很漂亮，但不一定能把人安全帶到目的地；模型再聰明，如果沒有好的 Harness，也可能亂猜、亂做，甚至把根本沒有完成的事情當成已經完成。

最近有一個課堂示範讓我印象很深。老師讓一個只有 20 億參數的小模型去修一個程式檔案裡的 bug，目標是讓測試通過。模型一開始沒有去讀檔案，而是自己幻想出一份程式碼，然後宣告完成。後來，只加了一小段工作規則：先列出資料夾、先看檔案、修改後跑測試、測試通過才算完成。結果同一個模型，表現完全不同。

這個例子把 AI Agent 時代的問題講得很清楚。

很多時候，模型不是不聰明，而是沒有人給它一個好的工作環境。它不知道檔案在哪裡，不知道工具在哪裡，不知道什麼才算完成，不知道失敗後要怎麼回頭，也不知道哪些動作必須先問過人類。

到了 2026 年，AI 的競爭已經不只是模型排行榜上的高低。真正重要的是，誰能把模型放進一個可控、可驗證、可維護、可長期使用的工作系統裡。

OpenClaw、Hermes Agent、Claude Code、Mercury Agent，甚至 Google Chrome Skills、OpenSkills，本質上都在回答同一個問題：

AI 要怎麼從一個會聊天的模型，變成一個能被部署、被維護、被管理、被長期使用的代理系統？

這就是 2026 年 4 月上半月真正值得記錄的轉折。

🔴一、OpenClaw 不只是一個工具，而是一個入口

OpenClaw 之所以值得花一整期來談，不是因為它在社群裡爆紅，也不是因為「龍蝦」這個綽號很有趣，而是因為它改變了許多人對 AI 的想像。

過去我們習慣把 AI 想成一個聊天框。

打開網頁、輸入問題、等待回答，然後把答案複製到自己的工作裡。

但 OpenClaw 類型的代理系統，正在把這個使用方式往外推開。

它不只是回答問題，而是開始變成一個可以透過通訊入口承接任務、透過 tools 與 skills 執行流程、透過 gateway 連接不同平台的代理底座。當 AI 可以接上 Telegram、LINE、Slack、Discord、桌面、本地檔案、終端機與外部工具，它就不再只是「更強的聊天工具」，而是逐漸接近一個可以被部署的工作入口。

這也是 OpenClaw 讓人感到新鮮的地方。

它不是把 AI 關在單一網頁裡，而是試圖讓 AI 出現在你原本工作的地方。你可以從通訊軟體裡叫它，也可以讓它連接工具，甚至讓它在本地環境中處理某些任務。

官方文件也顯示，它在 Windows 環境下支援 native Windows 與 WSL2，其中 WSL2 被建議作為較完整穩定的體驗路徑；CLI、Gateway 與工具鏈可以在 Linux 環境中運行。這代表它不是單純網頁服務，而是朝著本地代理環境與跨平台工具系統前進。

這種設計會讓人開始重新思考一件事：AI 的入口到底在哪裡？

以前入口可能是搜尋框。

後來入口變成聊天視窗。現在，入口可能變成任何一個你能交代任務的地方。

一個訊息視窗、一個桌面快捷鍵、一個本地資料夾、一個技能市集、一條終端機指令，都可能成為 AI 代理人開始工作的起點。

這也是為什麼 OpenClaw 不能只用「聊天工具」來理解。它比較像是在建立一層新的操作介面，讓 AI 從回答者變成調度者。它可以把模型、工具、記憶、通訊平台與工作流程串在一起，讓使用者不必每一次都重新開啟不同軟體、複製不同資料、重新說明同一件事。

但入口一旦變深，問題也會跟著變深。

當 AI 只能回答文字時，它出錯頂多是一段錯誤答案。可是當它開始接工具、讀檔案、執行流程、呼叫外部服務時，它就不只是「會不會講得對」，而是「能不能做得穩、管得住、收得回來」。

所以，OpenClaw 真正打開的，不只是 AI Agent 的想像力，也包括一整套更現實的問題：權限怎麼設、記憶怎麼管、工具怎麼接、成本怎麼控、錯誤怎麼回頭。

這也正好接回本期最重要的關鍵字：Harness Engineering。

當 AI 開始從聊天框走進工作現場，真正決定它能不能留下來的，不只是模型本身，而是包在模型外面的那套駕馭框架。下一代 AI 的競爭，正在從「誰比較會回答」，慢慢轉向「誰比較能被安全地安排進流程裡」。

🔴二、Harness Engineering：從模型能力到駕馭能力

以前大家很愛講 Prompt Engineering，就是研究怎麼問 AI。怎麼寫提示詞、怎麼加「step by step」、怎麼叫它扮演某個角色、怎麼讓它輸出表格或條列。那個階段滿有趣的，像在跟一個很聰明但有時候會裝傻的傢伙講話。

後來發現光會問不夠。很多時候 AI 答錯，不是它不會推理，是你沒給它資料。於是又有了 Context Engineering，想辦法把背景文件、知識庫、檢索結果餵進去，讓它不要憑空亂猜。

但到了 AI Agent 這個階段，事情又不一樣了。

因為現在 AI 不再只是跟你聊一句就走。它可能要讀檔案、查資料、自己叫工具、寫程式、跑測試、看錯誤訊息、改完再跑，一路做到任務完成才算數。

這時候你在意的就不是一句漂亮的提示詞了，而是整段流程怎麼跑。

誰來規劃步驟？誰來執行？誰來檢查？做錯的時候要不要重來？哪些檔案它不能碰？這次學到的東西能不能記下來、下次直接用？

這些雜七雜八的問題，加在一起，就是 Harness Engineering。

模型是腦袋。Harness 是手腳、工具箱、地圖、煞車、跟那一本工作守則。

如果 AI 只是回答一段文字，那模型強不強就很重要。但如果 AI 要跑進你的桌面、檔案系統、瀏覽器、通訊軟體、終端機、甚至公司資料庫，那模型以外的東西——權限、成本、安全、審核、追蹤——就變得一樣重要，甚至更重要。

因為只要它開始動手做事，你就得面對這些麻煩。

OpenClaw 這一波之所以不是單純的工具熱潮，就是因為它提醒了一件事：下一代的 AI，關鍵不只是它有多會講話，而是你到底能不能駕馭它。

🔴三、Hermes vs. OpenClaw：你要的是長腦袋，還是隨時都在？

這個月社群裡最常被問的問題，不是「龍蝦好不好用」，而是「OpenClaw 和 Hermes Agent 哪個比較值得投入」。

答案其實不在誰比較紅，而在你真正需要什麼。

OpenClaw 的想像比較接近「入口」。它要解決的是 AI 要在哪裡出現：Telegram、LINE、Slack、Discord、iMessage、桌面、手機，還是自己的本地機器與伺服器？它讓 AI 不再只是網頁分頁，而像是一個可以接到不同通訊入口的助理。人在不同地方傳訊息，它都可能回應；不同工具接上去，它就能開始做事。

Hermes Agent 走的是另一條路。

Nous Research 的 Hermes Agent 官方專案把它描述為 self-improving AI agent，強調 learning loop、skills、conversation search，以及跨 session 的使用者模型。它的重點不只是 AI 在哪裡出現，而是 AI 能不能從經驗裡學會下一次怎麼做得更好。

Hermes v0.9.0 的發布也顯示它正在往「無所不在」推進。官方稱這一版為 “the everywhere release”，新增 Android / Termux、iMessage、WeChat、local web dashboard、背景程序監控與安全強化。

簡單說，OpenClaw 更像入口派，Hermes 更像記憶派。

OpenClaw 問的是：AI 要如何出現在每一個地方？

Hermes 問的是：AI 要如何記住過去、累積經驗、沉澱技能？

一個沒有入口的 AI，再聰明也只是被關在網頁裡。

一個沒有記憶的 AI，再方便也每天都像新人。

所以這場比較，不能簡化成「龍蝦 vs 愛馬仕」誰贏誰輸。更準確地說，它們代表 AI Agent 的兩種基本需求：在場與成長。

OpenClaw 讓 AI 隨時都在。

Hermes 讓 AI 越用越像有經驗。

未來真正好用的 Agent，恐怕會同時需要這兩件事。

🔴四、Mercury Agent：把「人格」拆成可管理的文字檔

Mercury Agent 則提供了另一種角度。

它官方頁面把自己描述為 soul-driven AI agent，具備 permission-hardened tools、SQLite + FTS5 memory、token budgets，以及 CLI / Telegram 存取能力。它用 soul.md、persona.md、taste.md、heartbeat.md 這類文字檔，定義 AI 的核心價值、說話風格、審美偏好與行為節奏。

「Soul」這個字很容易被講得太浪漫，但我覺得真正值得注意的不是靈魂本身，而是它把過去藏在 system prompt 裡的東西拿出來，變成使用者可以閱讀、修改、版本控管的文本資產。

這件事很重要。

如果 AI 要長期陪人工作，它不能永遠是一團黑箱。使用者至少要知道，這個助理被設定成什麼樣子、它記得什麼、它能做什麼、哪些動作需要先確認。

Mercury 的設計語言裡，有很多很務實的字：permission-hardened tools、token budget、daemon mode、Second Brain、approval flow。這些字聽起來沒有模型發布會那麼性感，但它們才是 Agent 能不能長住下來的關鍵。

因為 AI 如果只是偶爾回答問題，大家會在意它聰不聰明。

但 AI 如果要常駐，你就會開始在意它安不安全、會不會亂花錢、會不會亂動檔案、會不會忘記該記住的事，會不會記住不該記住的東西。

Mercury 的路線，不是追求最大權限，而是追求一種讓人敢交出鑰匙的安全感。

這也是未來個人 AI 助理能不能走進一般人生活裡的關鍵。

🔴五、OpenSkills 與 Chrome Skills：從 Prompt 到可重複執行的工作流

這個月還有一條比較低調、但其實很關鍵的線：Skills。

OpenSkills 嘗試把 Anthropic 的 Skills System 延伸到 Claude Code、Cursor、Windsurf、Aider、Codex 等不同 AI coding agent。它自己的專案說明把 OpenSkills 定位為「universal installer for SKILL.md」，讓能讀取 AGENTS.md 的 AI coding agent 可以使用同一套技能格式。

這代表開發者世界裡，AI 的工作方法開始被封裝成可安裝、可同步、可跨平台使用的技能包。

Google Chrome Skills 則走向一般使用者。Google 在 Chrome 中推出 Skills，讓使用者可以把常用的 AI prompt 儲存成可重複執行的操作，並在 Gemini in Chrome 裡呼叫；這項功能可以用來處理跨頁比較、文章整理、食譜改寫、商品分析等重複任務。

這兩者看起來不同，其實指向同一件事：

AI 正在從「回答問題」變成「保存人的工作方法」。

以前，工作經驗被寫成 SOP。

現在，SOP 開始變成 AI Skill。

再下一步，這些 Skill 可能會被分享、販售、版本控管，甚至形成新的工作流市場。

這裡面最關鍵的，不是 prompt 寫得多漂亮，而是 workflow 能不能被穩定重複。

一個 prompt 是一次性的。

一個 Skill 是可保存的。

一套 Skill 生態，則可能變成未來 AI 工作系統的基本單位。

這也是為什麼我覺得，OpenSkills 和 Chrome Skills 雖然不如 OpenClaw、Hermes 那麼有話題性，但它們代表的方向非常重要。

因為真正成熟的 AI 不是每次都要重新教，而是能把成功做法留下來。

🔴六、Google 讓搜尋退到工作環境底層

大廠的動作，比任何開源社群都更直白。

Google 不是把自己包裝成「龍蝦」，但它做的事情其實很接近：把 AI 放進搜尋、桌面、筆記、瀏覽器與工作流程之間。

4 月 8 日，Google 宣布 Gemini notebooks，讓使用者可以在 Gemini 裡整理 chats、files 與複雜專案，並與 NotebookLM 同步。這代表 Gemini 不只是單次聊天工具，而開始變成可累積資料與研究脈絡的知識工作區。

4 月 14 日，Google 推出 Windows 版 Google app for desktop。官方說明使用者可以用 Alt + Space 呼叫搜尋框，搜尋 web、本機檔案、安裝的 app 與 Google Drive，也可以分享特定視窗或整個螢幕，在不中斷工作流程的情況下持續提問。

Chrome 也開始把 Gemini 放進瀏覽器日常使用情境。Google 在台灣推出的 Chrome AI 功能，包含即時摘要、跨分頁整合資訊、撰寫郵件與規劃行程等功能；Gemini in Chrome 也可以在瀏覽器中協助摘要、比較多個分頁內容，並與 Google 應用程式互動。

這些功能看起來分散，其實指向同一條線：

Google 正在讓搜尋退到工作環境的底層。

過去搜尋，是離開正在做的事情，打開瀏覽器，輸入關鍵字，點開十幾個連結，再慢慢整理。

現在新的方向是：按下快捷鍵，讓 AI 直接理解螢幕上正在發生的事；把聊天和文件整理到 notebook；把常用 prompt 存成 Chrome Skills；把 Google Drive、本機檔案、搜尋結果與螢幕內容逐步接起來。

所以，Google 不是讓搜尋消失。

更精準地說：

Google 正在讓搜尋變得不必被看見。

搜尋不再只是前台動作，而會變成桌面 AI、瀏覽器 AI、知識庫與個人工作流程背後的基礎能力。

這和 OpenClaw、Hermes、Mercury 走的是不同路線，但回答的是同一個問題：AI 要怎麼從一個偶爾打開的工具，變成每天工作時自然存在的那一層？

🔴七、微軟、Foundry 與 Windows：企業端的代理入口戰

Microsoft 生態正在把 Azure AI Foundry、Copilot、Windows 與 OpenClaw 類代理工具的整合路線往前推。

Microsoft Tech Community 已有教學文章示範如何把 Microsoft Foundry 與 OpenClaw 整合，設定 Azure OpenAI Responses provider，再透過 OpenClaw 的安裝與初始化流程接上 Azure 模型。這不是「Windows 已原生內建 OpenClaw」的意思，而是代表微軟雲端與代理框架之間，已經有很明確的整合方向。

這背後的戰略很清楚。

微軟不一定需要把 OpenClaw 這個名字放進 Windows 核心，它真正要做的是把 AI 代理人放進

Windows、Office、Copilot、Azure、Foundry 這個龐大的工作生態裡。

也就是說，企業端的代理入口戰，不只會發生在開源社群，也會發生在作業系統、辦公軟體、雲端平台與企業資料權限之間。

未來的工作電腦不會只是多一個 AI 聊天視窗。

真正的變化會是：作業系統、文件、試算表、會議、郵件、資料庫、瀏覽器，都開始被 AI agent 串起來。

這是另一種「龍蝦化」。

不是把 OpenClaw 硬塞進每一台電腦，而是讓每一台電腦都開始出現某種代理層。

🔴八、ClawHub 的安全問題：風險不只一層，而是一整條鏈

OpenClaw 跟其他 Agent 平台之所以強，就是因為它們能接工具、接技能、接到你本機的環境。但也正是因為這樣，它們的風險從來不是單點問題，是一整串。

OpenClaw 官方自己就把 threat model 建立在 MITRE ATLAS 框架上，文件裡直接把 Agent 平台跟 ClawHub 技能市集放在同一個模型裡分析。香港電腦保安事故協調中心也提過，這種開放式擴充生態雖然很快就能長出功能，但第三方元件帶來的供應鏈風險也跟著放大。

所以後來 OpenClaw 跑去跟 VirusTotal 合作，對上傳的 skills 做掃描。The Verge 也報導過，ClawHub 上確實出現過惡意 skills，有的偽裝成加密貨幣工具，實際上偷錢包、偷 SSH 憑證、偷瀏覽器密碼。

這些事說明了什麼？說明了 Agent 的風險根本不是「模型被騙」那麼單純。

真正的問題在整條鏈上：你裝的 skill 從哪裡來的？它寫在 SKILL.md 裡面的指令有沒有鬼？安裝過程會不會叫你跑一個來路不明的命令？它拿到的權限是不是大到離譜？你的 gateway 設定會不會把資料漏出去？記憶庫會不會被髒東西污染？外面網頁的內容會不會被它當成指令執行？

如果你真的想用 OpenClaw 這類工具，我會建議你先把幾件事想清楚。

測試環境要隔開，別直接往主力工作機上丟。外面來的內容，先當成資料看，別讓它直接變指令。裝 skill 的時候看清楚來源，熱門不代表安全。

最小權限不是口號，要真的去限制它能碰哪些資料夾、哪些工具、哪些網路、哪些金鑰。還有，記憶跟知識庫也要防污染，不是什麼東西都該存下來一輩子。

聽起來很麻煩，對。但這就是 Agent 時代的現實。

以前你裝一個瀏覽器外掛，最慘就是資料被偷。現在你裝一個 Agent skill，它可能讓 AI 代替你去下命令、讀檔、寫檔、傳訊息、甚至串 API。所以 OpenClaw 的安全問題不是附帶的，是它到底能不能真的進到你日常工作流程的核心問題。

代理人越能做事，就越需要被綁住手腳。

🔴九、StreetVoice 的回應：AI 音樂的身分標籤戰

這個月台灣音樂圈也有一個值得記錄的動作。

StreetVoice 街聲公告，排行榜新增「AI 生成」獨立榜單，專門收錄以 AI 生成為主的作品；總榜與各分類榜維持以真人創作為核心，合規的「AI 協作」作品則同樣包含在內。公告也將 AI 相關作品分成「AI 協作」與「AI 生成」兩種標籤，顯示於歌曲頁面。

這件事表面上是音樂平台分類問題，實際上是 AI 內容時代的第一道治理題。

當 Suno、Udio 這類工具可以用一句 prompt 生成完整歌曲，甚至有人聲、和聲、編曲、混音，平台就會遇到一個新問題：什麼叫音樂作品？什麼叫創作者？什麼叫 AI 協作？什麼叫 AI 生成？

過去，「音樂」這個標籤通常自動意味著某種程度的人類勞動。即使是電子音樂、取樣、loop、remix，也仍然有清楚的創作脈絡。可是 AI 生成音樂把這條線變得更複雜。

如果一首歌的詞曲是人寫的，但聲音由 AI 生成，算什麼？

如果旋律、編曲、人聲都來自 AI，人只做挑選與後製，又算什麼？

如果平台把它放進同一個榜單，對真人創作者公平嗎？

如果完全排除 AI，又是否忽略了新創作工具的現實？

街聲這次的處理方式，是「標籤清晰」加上「榜單分流」。這不是最終答案，但在過渡期裡很務實。

因為現在最重要的不是立刻判決 AI 音樂該不該存在，而是先讓聽眾知道自己聽到的是什麼，讓創作者知道平台如何分類，也讓不同創作方式有各自的位置。

這件事也和 OpenClaw、Agent、Harness 有一條深層連結。

AI 進入內容產業之後，平台不能只問「能不能生成」，還要問「怎麼標示、怎麼分類、怎麼推薦、怎麼保護真人創作的脈絡」。這些都不是模型問題，而是制度問題。

AI 音樂真正進入產業，不是從第一首歌被生成開始，而是從平台開始記錄它的身分開始。

🔴十、每月獨立軟體分享：Studio0808_Video

在智慧通膨的浪潮下，個人創作者如果能找到一套真正幫得上忙的工具，比任何宣言都更實在。

本期獨立軟體分享，可以放一套近期在創作者社群被討論的工具：Studio0808_Video。

這套工具由獨立開發者使用 Antigravity 平台開發，整合影音下載、人聲分離、Whisper AI 自動字幕、GPT-SoVITS 聲音複製、RVC 變聲、即時變聲、微軟 TTS 語音合成、格式轉換、音訊提取、簡易剪輯、影音合併、影片壓縮與裁剪靜音等功能。

原始分享文也提醒，完整版檔案約 30GB，若有 NVIDIA 顯示卡可獲得較好的運算速度；若使用 CPU 則需要較長等待時間。

這類工具的價值，不在於取代創作，而是把原本分散在多個軟體之間的流程整合起來。

過去要完成一段影片或聲音處理，可能要打開下載工具、字幕工具、人聲分離工具、TTS 工具、變聲工具、剪輯工具、壓縮工具。Studio0808_Video 這類整合工具，真正做的是把創作者的流程裝進一個比較完整的工作空間。

它不是最大的模型，也不是最炫的生成效果，但它把一整串工作流程包起來，讓使用者可以比較少切換工具、比較容易控制結果。

不過，這類工具也要提醒兩件事。

第一，涉及影音下載、聲音複製、RVC 變聲時，要注意版權、肖像權、聲音權與平台規範。

第二，因為完整版體積大、模型與工具多，建議先在備用電腦或隔離環境測試，不要直接裝在主要工作機上。

工具再方便，也要守住基本安全線。

這正是 AI 創作工具進入日常後，最需要被反覆提醒的事。

🔴十一、工具更新不是重點，工作形態改變才是重點

四月上半月工具一堆。開源的有、閉源的有、桌面搜尋有、技能格式有、個人記憶有、影音流程也有。如果只是把它們一條一條列出來，那跟流水帳沒兩樣。

OpenClaw、Hermes、Mercury、OpenSkills、Chrome Skills、Gemini notebooks、Google桌面版、Studio0808_Video——它們看起來分屬不同領域，但說穿了，都在做同一件事：改變你工作的方式。

以前用軟體，很像拿著一堆分開的工具。文字編輯器是一個，瀏覽器是一個，通訊軟體是一個，檔案總管是一個，剪輯軟體是另一個。你自己在這些工具之間切來切去，把結果拼起來。

AI Agent 出來以後，這個模式開始鬆動。Agent 不是其中任何一個工具，它比較像一個調度者：自己跑去瀏覽器翻資料、去檔案系統找東西、在通訊軟體收指令、把成功的工作步驟存成技能、下次直接用。

換句話說，AI Agent 真正有用，不是因為它能幫你省一次搜尋。而是因為它能讓工具之間的切換變順、摩擦變小。

所以，判斷一個 AI 工具是否真的有用，標準也開始改變。以前我們容易被一次漂亮的回答打動。現在真正會留下來的，反而是那些能安靜接進原本流程、減少切換摩擦、記住工作脈絡，又不會亂碰核心資料的工具。它不一定每一次都要驚豔，但必須讓人覺得穩、順、可控。對創作者來說，一次漂亮輸出只是靈感，一套能反覆使用的流程，才會變成生產力。

這些問題的答案，會比它哪次回答比較漂亮，更能決定你會不會真的把它留下來。

結語：第一批代理人開始進場

回頭看 2026 年 4 月上半月，OpenClaw 並不是一個孤立事件。

它比較像是第一個讓許多人真正有感的入口。原本只存在於模型發布會、技術簡報和開發者討論裡的 AI Agent，開始被裝進通訊軟體、桌面環境、技能市集、本地工具鏈和創作者工作流程裡。它不再只是回答一句話，而是開始出現在人們真正工作的地方。

OpenClaw 讓代理人進入通訊入口。Hermes 把重點放在記憶與自我改善。Mercury 試著把 AI 的人格、偏好與行為節奏拆成可以管理的文字檔。OpenSkills 和 Chrome Skills 則把重複的工作方法保存成可以再次呼叫的技能。

Google 把 AI 放進搜尋、桌面、筆記與瀏覽器。Microsoft 則把代理能力往企業雲端與辦公系統裡推進。連 StreetVoice 對 AI 音樂的標籤與分流，也像是內容平台正在替 AI 生成物建立自己的管理框架。

這些事情看似分散，其實都指向同一個現象：AI 正在從聊天視窗往外走，進入更複雜的工作現場。

以前大家看 AI，常常先看模型排行榜。哪一個回答比較漂亮，哪一個寫程式比較快，哪一個圖片生成比較像真的。可是代理人時代開始之後，事情會慢慢變得沒有那麼單純。真正進入日常使用後，人們會在意它是否穩定、是否記得住脈絡、是否能接上工具、是否能在出錯時被限制住，是否真的能把一段工作流程跑完，而不是只給出一段漂亮的回答。

這也是為什麼 OpenClaw 這一波值得寫下來。

它不只是「龍蝦」這個名字有趣，而是它讓人第一次看到：AI Agent 開始有了入口、有了工具、有了技能、有了記憶，也開始有了安全與治理的麻煩。當一個技術開始有麻煩，往往也代表它真的開始進入現實。

未來的競爭，會越來越不像單純的模型競賽。

各路 AI 人馬都在把自己旗下的代理人養大、養強、養得更會做事。有的想成為桌面助理，有的想成為工程師，有的想成為創作者工具，有的想進入企業流程，有的想管理知識，有的想負責內容生成。這些代理人會慢慢長出不同的性格、不同的專長，也會被放進不同的平台與產業裡。

所以，第32期停在這裡，正好停在第一批代理人開始進場的時刻。

OpenClaw 讓我們看見了入口，Hermes 讓我們看見了記憶，Mercury 讓我們看見了人格與權限，Google 與 Microsoft 則讓我們看見，大廠已經開始把代理人能力往桌面、瀏覽器、雲端與企業系統裡推進。這一切像是舞台燈剛剛打亮，第一批角色才走到台前，真正的大戲還沒有完全展開。

接下來，鏡頭要拉得更遠。

代理人一旦走出社群與開源工具，就不會只停留在個人電腦

裡。OpenAI、Anthropic、Google、Microsoft、DeepSeek、Higgsfield、Scale AI，乃至音樂平台與內容產業，都會開始把自己的代理人放進更大的版圖裡：模型、雲端、資料、版權、身分驗證、內容分發與產業規則。

第32期寫的是代理人如何從聊天框裡長出手腳。

第33期要看的，則是這些已經長出手腳的代理人，將如何被巨頭收編、被平台命名、被制度標籤，也如何一步步走進未來工作與創作世界的權力核心。

到那時候，AI Agent 就不再只是誰家的工具比較好用。

它會變成一場新的版圖重畫：誰擁有模型，誰掌握入口，誰控制資料，誰決定內容如何被看見，也誰能定義下一個數位時代的工作秩序。

2026 年龍蝦第三篇：AI Agent、Harness Engineering 與工作系統的成形

最新文章

留言