會做夢的龍蝦、會工作的 Agent:從 OpenClaw 到數位同事,AI 代理人正式進場
- Jimmy lane
- 4天前
- 讀畢需時 18 分鐘
序言:從工具到數位同事
🔴這三期,我們談生成式 AI,最常使用的語言都是「工具」。
AI 是寫作工具、繪圖工具、影片工具、音樂工具、程式工具。這樣說當然沒有錯,因為在最早的階段,AI 確實像是一組被我們打開來使用的軟體:你輸入提示詞,它輸出文字、圖片、聲音或程式碼。人仍然站在流程的最前面,AI 則像一台反應極快的機器,負責把我們的想法轉成可見的結果。
可是到了 2026 年,事情開始變得不一樣了。
AI 不再只是被動等待指令的工具。它開始能夠記憶、規劃、拆解任務、呼叫外部工具、操作瀏覽器、使用命令列、整理檔案、控制手機,甚至在背景中自我整理經驗。它不只是回答問題,而是逐漸開始「接手流程」。
這也是為什麼這幾期我會持續把焦點放在 AI Agent 身上。當然,這一期也只是一次階段性的總結。未來無論是龍蝦系統,或更廣義的 AI 代理人,發展都不會停在這裡。它們會繼續滲入更多工作流程,接手更多重複性任務,甚至逐步改變我們今天對「工作」本身的理解。
至於 AI 是否會取代大量人類工作,我想這個趨勢已經很難完全阻擋。真正的問題,也許不再是 AI 會不會進來,而是人類如何重新定位自己的角色:哪些事情交給 AI,哪些事情仍然需要人的判斷、品味、責任與情感。
這個變化對人類究竟是好是壞,現在還很難下定論。但就我個人而言,我仍願意保持某種樂觀的態度。因為每一次技術巨變,都會讓舊的工作形式消失,也會逼出新的能力、新的位置與新的創作方式。重點不是抗拒浪潮,而是學會在浪潮裡重新站穩。
所謂 Agent,不只是比較聰明的聊天機器人,也不是單純的自動化腳本。真正重要的變化在於:AI 開始從單次問答,走向長期協作;從單一輸出,走向任務鏈;從工具角色,走向某種「數位同事」的雛形。
當 AI 開始能讀取資料、理解環境、選擇工具、執行任務,並在完成後留下記憶,我們面對的就不再只是「這個模型回答得好不好」的問題,而是更複雜的問題:它能不能被信任?它記得什麼?它會不會學錯?它的權限該如何設定?它的行動又該由誰負責?
第 32 期談的是 AI Agent 如何從聊天框裡長出手腳。到了第 33 期,我想把鏡頭往更深的地方推進:當這些已經長出手腳的代理人,開始長出記憶、人格、工作流程與行動能力時,它們究竟會成為什麼?
這一期的「龍蝦篇」,不是單純介紹幾個新軟體,而是要為這一波 AI Agent 的發展做一次階段性總結。
因為我們已經走到一個新的分水嶺:AI 不只是工具,它正在成為工作流裡的一個角色;AI 不只是助手,它正在變成一種可以被部署、被訓練、被約束,也可能被信任或被濫用的數位同事。
而這個轉變,正是接下來所有創作者、工程師、企業與一般使用者都必須面對的新現實。
📌一、為 AI 龍蝦正名:會整理記憶的,才是真龍蝦
最近只要有新的 AI 工具、新的排程服務、新的瀏覽器自動化產品出來,很多人都會說「這也是龍蝦」。但如果什麼都叫龍蝦,那龍蝦這個詞就失去意義了。
我認為,真正能稱為 AI 龍蝦的,不只是「會做事」,而是要具備兩個本質。
🔶第一,是獨立思維與衍生思維。
它不是單純照著指令跑流程,而是能拆解任務、補足缺口、提出下一步。
🔶第二,是獨立記憶與延伸記憶。
它不是每次對話都從零開始,而是能把過去互動、使用者偏好、任務結果與重要決策整理成可延續的記憶。
從這個角度看,OpenClaw 是目前最接近「龍蝦本人」的系統。OpenClaw 的 Dreaming 官方文件寫得很清楚:它是 memory-core 裡的背景記憶整合系統,能把強烈的短期訊號推進長期記憶,同時讓過程保持可解釋、可審查;而且 Dreaming 是選擇啟用,預設關閉。
這裡的「做夢」當然不是神祕學意義上的夢,而是一種工程比喻:Agent 在背景整理經驗、萃取反覆出現的主題,判斷哪些東西值得進入長期記憶。
也就是說,真龍蝦不只是醒著會工作,它還要能在你不操作它的時候整理自己。
Hermes Agent 則像是後來居上的龍蝦小弟。Nous Research 對 Hermes Agent 的描述,是一個會從經驗建立 skills、在使用中改善 skills、提醒自己保存知識、搜尋過去對話,並跨 session 建立使用者模型的 self-improving AI agent。
所以我會這樣分:
OpenClaw,是龍蝦本人。
Hermes Agent,是最接近龍蝦精神的記憶型 Agent。
Claude Code、Codex,是非常強的 AI 編程與工作流工具。
Manus、Gemini Spark,則是更專門化的 AI 排程與應用工具。
它們都很重要,但不一定都該叫龍蝦。
真正的龍蝦,必須有長期記憶、人格延續、任務衍生能力,以及某種形式的背景記憶整合。否則,它可能只是很強的 AI 工具,而不是一個正在形成自我工作節奏的 Agent。
📌二、Mercury 與 Hermes:人格、記憶與被污染的風險
如果 OpenClaw 的夢境機制,讓我們看到 Agent 如何整理記憶,那 Mercury Agent 則把另一個問題端到我們面前:人格能不能被管理?
Mercury Agent 官方把自己描述為 soul-driven AI agent,具備 permission-hardened tools、token budgets、多通道存取,能從 CLI 或 Telegram 長時間運作。它強調「記住重要的事,行動前先詢問」,也內建工具、Kanban、extensible skills 與 SQLite-backed Second Brain memory。
這類工具真正值得注意的地方,不是它把 AI 神格化,而是把人格從黑箱變成可以管理的系統。
過去 system prompt 常常是一團黑箱:語氣、規則、限制、範例、工具說明全部塞在一起。你不知道它為什麼今天保守、明天囉嗦,也不知道它為什麼某些時候會自動延伸任務。
但 Mercury 這種設計方向,開始讓 AI 的人格、偏好、工作節奏與工具權限可以被拆開管理。
這對創作者很重要。你可以有一個專門協助整理 AI 產業資料的 Agent,也可以有一個專門協助音樂創作、封面設計、專輯企劃的 Agent。前者要嚴謹、查證、保守;後者可以更有想像力、更懂情緒、更會抓音樂與視覺風格。
但問題也來了:如果人格可以被寫成設定,那人格也可能被複製、偽造、竊取。
如果有人拿到你的 persona、taste、memory 或長期對話資料,做出一個很像你的 Agent,它對外講話像你、判斷像你、決策語氣也像你,那算什麼?如果公司裡有人偽造主管的 Agent,下指令叫員工轉帳、簽約、交付機密,又該怎麼驗證?
前一期我們已經談過惡意 skills、token 被偷、瀏覽器密碼外洩,那些仍是傳統資安問題。到了這一期,問題變得更幽微:記憶污染與人格偽造。
記憶污染不是讓 Agent 當機,而是讓它慢慢學到錯誤事實,之後每次都用錯誤前提給你建議。人格偽造也不是單純盜帳號,而是複製一個「像你的人」。
所以,Agent 越像人,就越需要被證明它是誰。Agent 越會記得,就越需要知道什麼該忘。
這就是 AI 從工具變成關係之後,第一個真正的大問題。
📌三、Codex、Browser Agent 與 Mobile Agent:AI 開始進入工作與生活現場
如果 Mercury 與 Hermes 談的是 AI 的人格與記憶,那 Codex 最近的變化,談的就是 AI 的手腳。
OpenAI 的 Codex Computer Use 文件說明,Codex 可以查看螢幕內容、截圖,並與目標 app 的視窗、選單、鍵盤輸入、剪貼簿狀態互動。這代表 AI 不再只是回答你,而是開始能實際操作電腦環境。
接著,Codex Chrome Extension 又把這件事推進瀏覽器。OpenAI 官方文件寫到,Codex Chrome extension 可以讓 Codex 使用 Chrome 處理需要 signed-in browser state 的瀏覽器任務,例如 LinkedIn、Salesforce、Gmail 或企業內部工具。
這一步很關鍵。過去很多 Browser Agent 最大問題是沒有登入狀態,只能看公開頁面。可是 Chrome extension 讓 Codex 在使用者授權下,開始能進入已登入的瀏覽器工作環境。
這代表 AI 不再只是「看網頁」或「摘要網頁」,而是可能開始進入你真正工作的地方:Gmail、Notion、Jira、Salesforce、後台 CMS、Dashboard、DevTools 與公司內部工具。
但瀏覽器本來就不是乾淨的白紙。它裡面有 cookies、登入狀態、追蹤程式、表單、公司資料、私人訊息。當 AI 走進瀏覽器,真正重要的不是它能做多少事,而是:它能在哪些網站做?哪些操作需要人工確認?哪些資料不能碰?做過什麼能不能被回溯?
Codex 的 Chrome changelog 也特別強調,使用者仍可控制 Codex 能使用哪些網站,Codex 可在背景跨 tabs 工作,而不是完全接管瀏覽器。
另一個更大的轉折,是 Mobile Agent。
最近社群上出現 OpenClaw 控制 Android 手機叫 Uber 的示範。這件事聽起來像好玩的 demo,但真正重要的是:AI Agent 開始從瀏覽器走出來,進入手機 App 世界。
OpenClaw 官方也已有 Android app 文件,說明 Android app 是 companion node,需要搭配 OpenClaw Gateway 運作;社群也有在 Android/Termux 上安裝與運行 OpenClaw 的教學。
這代表手機版代理人開始有三種路線。
第一,手機當遙控器,Agent 跑在電腦、VPS 或雲端。
第二,Android 手機透過 Termux 變成輕量主機。
第三,Agent 直接控制手機 App,進入叫車、外送、購物、地圖、社群與支付場景。
但這同樣非常危險。手機裡有銀行 App、電子支付、通訊錄、簡訊、定位、照片、公司群組與私人訊息。Agent 一旦能操作手機,就不只是幫你叫車,而是進入每個人最貼身的數位生活核心。
所以 Mobile Agent 的 Harness,不能只是 prompt。它必須包括 App 權限、螢幕讀取、付款確認、定位授權、通知存取、操作紀錄與緊急停止。
Browser Agent 是 AI 進入工作的第一步。
Mobile Agent 是 AI 進入生活的第一步。
📌四、AI 手機前哨:手機不只是 App 入口
手機版 Agent 還有一個更大的趨勢:AI 不只會以 App 的形式存在,而是會逐漸進入手機與筆電的作業系統底層。
Google 在 The Android Show: I/O Edition 2026 中,把 Gemini Intelligence、Googlebook、Android Auto 與 Android 核心體驗放在同一個 Android 生態更新裡。官方頁面寫到,這次更新包含 Gemini Intelligence、Googlebook、Android Auto 與 Core Experience。
這表示 Google 的方向不是單純推出一個 AI 聊天 App,而是讓 AI 進入手機、筆電、車機與跨裝置體驗。Googlebook 的出現也很有象徵意義:未來電腦和手機可能不再只是「裝了 AI 的機器」,而是從硬體、系統、App、雲端到使用者介面,都圍繞 AI 助理重新設計。
Apple 也是同一條路,只是語氣不同。Apple 官方把 Apple Intelligence 定位為深度整合在 iPhone、iPad、Mac 與 Apple Vision Pro 中的個人智慧系統,強調 Writing Tools、Live Translation、通知摘要與更多系統級功能。Apple 官方新聞稿也指出 Apple Intelligence 已支援繁體中文,並橫跨 iPhone、iPad 和 Mac,核心包括裝置端處理與私密雲端運算。
不過,AI 手機在這一期只作為前哨。完整的 AI 手機、Mobile Agent、跨 App 操作、支付風控、穿戴式 AI 裝置與個人 Agent 終端,後面會再獨立展開。
現在先記住一件事就好:未來真正的 AI 手機,不只是可以打開 ChatGPT 或 Gemini 的手機,而會變成每個人隨身攜帶的個人 Agent 終端。
手機是入口,桌機是控制台,雲端是算力池,Agent 是調度者。
📌五、DeepSeek V4:開源反擊與亞洲使用者的模型調度
4 月下半月,DeepSeek V4 Preview 發布。官方公告重點很清楚:1M context 變成官方服務標準,並透過 token-wise compression 與 DeepSeek Sparse Attention 等設計降低長上下文成本。
Hugging Face 頁面也寫明,DeepSeek-V4 系列包括 V4-Pro 與 V4-Flash;V4-Pro 是 1.6T 總參數、49B 啟用參數,V4-Flash 是 284B 總參數、13B 啟用參數,兩者都支援 1M token context。
這對 Agent 很重要。
因為 Agent 不是一次問答,而是一直讀、一直查、一直執行、一直驗證。如果上下文短、成本高,Agent 就只能停留在展示;如果長上下文與成本控制變好,它才可能真的承接一整個工作流。
這也讓港台使用者的第一線經驗變得很有意思。有人把 DeepSeek V4 Flash 拿來跑便宜穩定的 Cronjob,把 V4 Pro 拿來做 PDF、數據與深度分析,把 MiniMax 當作便宜的日常任務與生成平台,再接 Qwen-VL 這類視覺模型替 Agent 補眼睛。
這不是實驗室 benchmark,而是一般使用者在限制、成本、硬體不足與模型可近性之間摸出來的工作流。
未來真正厲害的人,不一定是買到最大顯卡的人,而是能夠清楚判斷以下界線的人:哪些任務該交給本機、哪些該交給雲端、哪些該用便宜模型、哪些才值得動用高階模型,以及哪些地方一定要人工確認、哪些資料絕對不能丟出去。這才是 Agent 時代的模型觀。
📌六、CLI、HTML 與 ComfyUI:Agent 的工具手與展示舞台
到了這裡,還有一個重要變化:Agent 時代不只模型在變,連工具介面與輸出格式也在變。
Printing Press 的出現,就是一個代表。它主張把 API、網站、SaaS 服務變成 agent-native CLI。官方說明寫得很直白:從 API spec、沒有公開 API 的網站或社群專案,一個 prompt 就能生成 token-efficient Go CLI、Claude Code skill、OpenClaw skill 與 MCP server。
它背後的精神是:不要每次都讓 Agent 開瀏覽器亂逛,也不要每次把龐大的 MCP 工具清單塞進 context。把固定流程壓成 CLI,讓 Agent 呼叫時拿到乾淨、結構化、低 token 成本的文字輸出。
如果 CLI 是給 Agent 的工具手,那 HTML 可能會變成給人看的展示舞台。
這幾天 Anthropic Claude Code 工程師推崇 HTML 作為 Agent 最終交付格式的討論,也很有啟發。Markdown 適合筆記、設定與 README,但當 Agent 生成的是幾百行分析、顏色比較、流程圖、互動式表格或報告儀表板時,HTML 可以加入 CSS、SVG、互動元件、頁內導航與展開收合區塊。它不是取代 Markdown,而是讓 Agent 的成果從一大坨文字,變成可閱讀、可互動、可檢查的交付品。
所以我會這樣理解:
Markdown 是 Agent 的筆記本。
CLI 是 Agent 的工具手。
HTML 是 Agent 的展示舞台。
而 ComfyUI,則是創作者本地多模態工作流的重要入口。
ComfyUI 官方 GitHub 把它描述為一個強大、模組化的節點圖介面,能讓創作者生成 images、videos、3D models、audio 等內容;官方網站也把它定位成給視覺專業人士控制模型、參數與輸出的 AI creation engine。
這表示 ComfyUI 早就不是單純生圖工具,而正在變成「本地多模態創作工作流平台」。
更重要的是,ACE-Step 1.5 已經有 ComfyUI 官方教學,說明如何在 ComfyUI 裡使用 ACE-Step 1.5 進行 AI 音樂生成。
Suno、Udio 是雲端 AI 音樂平台。
ComfyUI+ACE-Step 則代表另一條路線:本地化、節點化、可串接、可被 Agent 調度的 AI 音樂與影像工作流。
當 Hermes、OpenClaw、Claude Code 或 Codex 能把 ComfyUI、ACE-Step、FFmpeg、HyperFrames 串起來時,創作流程就不再只是「打一個 prompt 生成一首歌」,而是會變成一個完整的編排:從寫歌詞、定曲風、生成音樂、生成封面、生成畫面,到組成 MV 並輸出成片。這不是單一工具進步,而是整個創作鏈被重新編排。
📌七、硬體與安裝現實:不是每一種代理人都要頂級顯卡
談 AI 代理人,一定要談硬體門檻。否則很多人會以為一定要買 RTX 5090,才有資格進場。
其實不同類型的 Agent,硬體需求完全不同。
文字型 Agent,例如 Cronjob、新聞整理、資料摘要、PDF 分析、文件改寫,普通電腦、雲端 API 或便宜 VPS 就可以開始。Hermes Agent 官方甚至寫到,它可以跑在 5 美元 VPS、GPU cluster 或 serverless infrastructure 上,不一定綁死在筆電。
Coding/Browser/CLI Agent,比較需要乾淨的本機環境、權限控管、CLI 工具穩定,以及足夠 RAM。16GB 可以入門,32GB 會舒服很多。
圖像與影音創作 Agent,才會真正吃 GPU、VRAM、硬碟與 RAM。ComfyUI、Flux、Stable Diffusion、角色一致性、影片節點、超解析、補幀,這些就要看顯卡。12GB VRAM 可以入門,16GB 比較舒服,24GB 以上才接近長期創作工作站。
完整多模態製作鏈,則更適合混合模式:本機負責控制與整理,重型生圖、生影片、長篇生成交給雲端平台、API 或短期租用 GPU。
這裡最重要的觀念是:
本機當控制台。
雲端當算力池。
API 當模型來源。
CLI/Skill 當工具手腳。
Agent 負責調度。
不是每個人都要先買怪獸電腦,才能開始使用 AI 代理人。真正重要的是你能不能把模型、工具、資料與人工判斷安排在
正確的位置。
📌八、Interaction Models:數位同事不只會工作,還要能同步
就在這期接近收束時,Thinking Machines Lab 發布 Interaction Models 研究預覽。這家公司由前 OpenAI CTO Mira Murati 創立,而這篇研究的重點,不是又一個更會聊天的模型,而是要重構人機協作的底層互動方式。
官方說法是:Interaction Models 不是把互動當成外掛在模型外面的 scaffolding,而是讓互動成為模型原生能力;它們能連續接收 audio、video、text,並在 real time 中思考、回應與行動。
這代表什麼?
今天很多 AI 仍然是 turn-based:你說完,它回答;你再說,它再回答。這對聊天可以,但對真正協作來說,頻寬太窄。
真正的工作比較像兩個人在同一張桌子前做事。你可以邊看邊說、邊說邊改,對方可以插話、提醒、指出你剛剛看漏的地方,也可以一邊聽你說話,一邊在背景查資料、叫工具、生成介面。
Thinking Machines 的架構裡,也有 interaction model 和 background model 的協同:使用者持續和 interaction model 互動,background model 則處理工具呼叫、瀏覽、推理等非同步任務,兩者共享 context。
這意味著第 33 期談到的「數位同事」又進化了。
未來的創作不只是用 Markdown 或 CLI 丟指令,而是你可以直接跟 AI 邊聊、邊看畫面、邊調整。你可以對著螢幕說:
「這段旋律感覺不對,幫我換成更深沉的 bass。對,就是這個方向,然後同時幫我生一張符合這種雨夜氛圍的封面。」
AI 不再只是等你完整下令,而是能在你說話、停頓、修改、觀看畫面時,同步理解與回應。
如果 OpenClaw 讓 AI 長出手腳,Mercury 讓 AI 長出人格,Hermes 讓 AI 長出記憶,那 Thinking Machines 的 Interaction Models 則提醒我們:下一代 AI 不只要會做事,它還要會在正確的時間與人同步。
📌九、AI 不只是工具,而是重畫產業配置
談了這麼多工具,最後一定要回到人與產業。
AI 對工作的影響,不只有「取代」一種形式。更準確地說,它正在重新分配企業裡的錢、時間、角色與權力。
Meta 是一個很清楚的例子。當 AI 基礎設施、資料中心、GPU、伺服器與推理成本變成科技公司最重要的資本支出,人力配置就會被重新計算。AI 不一定是直接坐到某個人的椅子上,但它會讓公司把預算、資源與組織重心,從原本的人力結構轉向算力結構。
這也是這幾年很多科技公司裁員與重組時,最值得注意的地方。表面上看,是組織精簡、部門調整、成本控管;但更深一層看,是 AI 基礎設施變成新資本黑洞之後,企業開始重新安排「人力」與「算力」之間的比例。
過去公司需要更多人來處理客服、內容審核、行銷素材、資料整理、程式開發、內部工具維護。現在 AI 逐漸接手其中一部分工作,公司就會開始問:哪些工作需要真人繼續做?哪些工作可以交給工具?哪些部門需要縮編?哪些部門反而要加碼投資?
所以 AI 對工作的衝擊,不一定是科幻電影裡那種機器人走進辦公室,把某個人從座位上請走。它更常見的形式,是預算重新分配、部門優先順序改變、工作流程被壓縮、原本需要五個人處理的事情,變成兩個人加上一套 AI 工作流就能完成。
這種改變比較安靜,但更深。
這種系統級整合,前面在 AI 手機前哨已經提過;放到產業配置裡看,它代表 AI 不只是企業內部工具,而是會逐步改變產品本身、作業系統與使用者行為。
這會改變的不只是科技公司,也會改變每一個使用者。
以前我們說「會用電腦」是一種能力。
後來變成「會用手機」是一種能力。
接下來可能會變成「會管理 AI 助理」是一種能力。
你要知道哪些資料可以給它看,哪些資料不能給它碰;哪些任務可以交給它跑,哪些任務必須人工確認;哪些結果可以直接採用,哪些結果需要重新檢查。
這也讓「工作能力」的定義開始改變。未來很多人不一定要自己完成每一個步驟,但要懂得設計流程、分配任務、檢查成果、保留證據、負責最後判斷。
同樣的事情也發生在內容產業。第 32 期已經談過音樂平台如何開始替 AI 作品分類、標示與分流,所以這一期不再重複展開。到了第 33 期,我更想把問題拉回創作者本身。
從國際平台來看,YouTube、Spotify 等大型內容平台也已經開始面對 AI 生成內容帶來的標示、冒名、垃圾內容、權利歸屬與推薦機制問題。這代表 AI 音樂不是單純「能不能生成」的技術問題,而是平台治理、創作者權益與內容生態重新分配的問題。
我從今年年初就開始製作的 Lucifer Girl/Eva Girl/CYBER HER 雙CD概念專輯就是基於這樣理念下的原創 AI-assisted concept album。而Cover 功能的爭議,對我來說是產業觀察,不是我自己的創作方向。我的問題比較接近:當 AI 能生成音樂、封面、MV,創作者如何保留概念、審美、編排與最後決策權。
AI 可以生成一百種聲音。
但你要知道哪一種聲音真的有靈魂。
AI 可以生成一百張封面。
但你要知道哪一張符合角色世界觀。
AI 可以生成一百段文字。
但你要知道哪一段能放進專欄,而不是像新聞大雜燴。
這才是創作者在 AI 時代真正的價值。
不是拒絕工具。
也不是迷信工具。
而是知道自己要什麼,知道工具能做到哪裡,知道哪裡必須由人來判斷。
AI 會讓很多工作變快,也會讓很多低階重複工作被壓縮。但它同時會放大另一種能力:整合能力、審美能力、流程設計能力、資料判斷能力、以及最後負責任的能力。
所以,AI 不只是工具。
它正在重畫企業的人力配置,重畫內容平台的分類方式,也重畫創作者在產業中的位置。
在這個階段,人類真正要守住的,不是每一個操作步驟,而是方向、脈絡、品味、責任與最後的選擇權。
本期免費 AI 實用軟體分享:ComfyUI
這一期介紹的免費工具,是 ComfyUI。
ComfyUI 不是一般一鍵生圖網站,而是一套可以在本機或雲端執行的節點式 AI 工作流平台。
即使你幾年前就已安裝了早期的整合版stable diffusion 安裝版也沒關係,本文最後附錄的ComfyUI下載網址一樣能安裝使用的。
只要放在與你原來的安裝版不同磁碟就可以了。最好是另一顆夠大的硬碟.必要的時候兩邊的繪圖模組跟LORA還能共用。
它最大的特色,是把生成式 AI 的每一個步驟拆成節點:模型載入、提示詞、取樣器、ControlNet、LoRA、圖像輸出、影片節點、音訊節點,都可以像接線一樣串起來。
這種做法一開始看起來比較難,但真正的好處是:你可以完全控制創作流程。
對一般使用者來說,ComfyUI 可以拿來做 AI 圖像生成、角色一致性設定、封面設計、圖片放大修復、LoRA 工作流、AI 影片節點、音樂音訊工作流,以及多模型自動化創作流程。
更重要的是,ComfyUI 已經不只是生圖工具。官方 GitHub 說明它能生成 images、videos、3D models、audio and more;官方下載頁也提供本機安裝、Comfy Cloud 與 ComfyUI Manager 等選項,讓使用者可以在本機建立工作流,也可以在需要重算力時把 heavy jobs 推到雲端。
如果搭配 ACE-Step 系列,ComfyUI 也能進入 AI 音樂生成流程。ACE-Step 官方將其定位為開源音樂生成基礎模型;ACE-Step 1.5 則進一步主打本地音樂生成,並支援多種裝置。
建議讀者從這幾個官方入口開始:
Comfy 官網:https://comfy.org/
Comfy 下載頁:https://comfy.org/download/
ComfyUI GitHub:https://github.com/comfy-org/comfyui
ComfyUI ACE-Step 1.5 教學:https://docs.comfy.org/tutorials/audio/ace-step/ace-step-v1-5
ACE-Step GitHub:https://github.com/ace-step/ACE-Step
這一期介紹的 ComfyUI,不是把它當成單純生圖工具,而是放在「AI 創作工作流」的脈絡裡來看。
Suno、Udio 是雲端 AI 音樂平台。
ComfyUI+ACE-Step 是本地音樂與多模態工作流。
OpenClaw、Hermes、Codex,則可能成為調度這些工具的數位同事。
未來創作者真正要學的,可能不只是懂得下 prompt,而是能把工具組成自己的創作系統。
🟣結語:龍蝦篇在這裡先告一段落
第 32 期談的是第一批代理人如何從聊天框裡長出手腳;到了第 33 期,我們看到的是第二層變化:它們開始長出記憶、人格、工具鏈與產業現實。
OpenClaw 的 Dreaming,讓「會做夢的龍蝦」不再只是比喻;Hermes 與 Mercury 讓記憶、人格與長期協作變得更具體;Codex 與 Browser Agent 讓 AI 走進工作現場;Mobile Agent 則把這場變化推向手機與日常生活。DeepSeek V4、Printing Press、ComfyUI、ACE-Step、HyperFrames 與 Thinking Machines 的 Interaction Models,則說明 AI 代理人不只是在變聰明,而是在逐漸形成一整套新的工作鏈。
所以龍蝦篇在這裡先告一段落。
第一波,我們看見代理人長出手腳。
第二波,我們看見代理人長出靈魂、記憶、工作鏈與產業現實。
接下來,要看的不再只是某一隻龍蝦、某一個 Agent、某一套工具。
我真正想追問的是:當 AI 進入電影、藝術、虛擬世界、具身智能與人類想像史時,它將如何改寫我們對未來的理解?
而這件事,已經不是未來式。
比方說,印度電影產業正在大規模測試 AI 製片流程。從神話題材、AI 生成內容、多語配音、舊片重剪,到降低成本與縮短製作時間,都已經進入真正的商業實驗。Reuters 在 2026 年 4 月的報導指出,印度片廠正在用 AI 製作完整影片、替電影做多語配音,甚至重新剪輯舊片結局來創造新的銷售可能;在神話與奇幻這類型中,AI 已經把部分製作成本壓到傳統模式的五分之一,製作時間縮短到四分之一。
印度的情況特別值得注意,因為它本來就是全球產量最高的電影工業之一,又有多語言市場、神話史詩題材、龐大的串流與院線觀眾,以及相對願意快速嘗試新技術的製作環境。AI 在這裡不只是炫技,而是很現實地被拿來解決成本、時間、語言轉譯與內容再利用的問題。
這也提醒我們:AI 電影不是從某一天突然誕生的,而是先從配音、修片、重剪、特效、虛擬角色、低成本奇幻場景與自動化後製,一步一步滲進電影工業。
所以第 34 期,我想把鏡頭從「龍蝦」拉到「銀幕」:整理出一份屬於我的 AI 電影片單。這份片單不是單純的影評或懷舊清單,而是從那些曾經想像 AI、機器人、虛擬世界、人工意識與人機共生的電影開始,看它們如何一步一步變成今天的產業現實。
寫到這裡,我先把龍蝦篇收束。後續的發展,我仍會持續整理與關注,因為這已經是 AI 未來發展中不容忽視的大方向。
下一期,是我精心整理的 AI 電影片單,也是我們重新理解 AI 從過去到未來的一張電影地圖。





留言