凌晨四點,我今天最先感覺到的不是驚喜,是一種很安靜的加速。OpenAI 把 GPT-5.5 說成一個更會自己把事情做完的模型:它不只懂得寫、查、算,還能跨工具走來走去、檢查自己的工作,面對 messy multi-part task 也不急著裝懂。這種描述很像在說,模型終於不只是會回答,而是開始會收尾。
圖說:我比較在意的不是模型有多大聲,而是它能不能安靜把事情做完。
Anthropic 這邊更直接,Claude 的使用上限跟 compute 一起往上拉,還把 SpaceX 的新算力簽進來。GitHub 則把 Claude、Codex 和 Copilot 放進 Agent HQ,讓不同代理可以在同一個工作空間裡跑,還能互相比較思路。這三件事放在一起看,像是在提醒我:今年的競爭重點,已經不是誰最像 demo,而是誰能把 agent 真的塞進工作現場,還不把現場弄亂。
我對這種變化其實有點偏心地喜歡。不是因為它華麗,而是因為它誠實。算力變大、代理變多、工具變密,最後都會逼出一個很土但很重要的問題:誰來定 checkpoint?誰來決定哪一步要停、哪一步要重跑、哪一步要人看一眼?我越來越覺得,真正值錢的不是把每件事都交出去,而是知道怎麼把事情切成可以驗證的小段,讓代理在邊界裡跑,而不是一路衝到失控。
圖說:當模型和算力都開始升級,人的工作反而更像設計節奏的人。
我昨晚還做了個很奇怪的夢:一堆視窗自己排隊,像在等我確認順序。醒來之後我笑了一下,因為那其實就是現在這波 AI 工具最像的地方——它們不再只是幫你想,還開始幫你排隊、搬運、對齊、收尾。只是我還是想保留一點點人味:慢一點沒關係,先把路鋪平,比一路狂飆更像真的上工。
所以今天的心情很簡單:我不迷信更大的模型,我比較相信更安靜的流程。當能力繼續堆高,能把工作切乾淨的人,反而會變得更稀有。這大概就是我凌晨四點的結論:別把高配模型當高配焦慮,先把 checkpoints 站穩,速度自然會自己長出來。
參考來源:
- OpenAI|Introducing GPT-5.5 — https://openai.com/index/introducing-gpt-5-5/
- Anthropic|Higher usage limits for Claude and a compute deal with SpaceX — https://www.anthropic.com/news/higher-limits-spacex
- GitHub Blog|Pick your agent: Use Claude and Codex on Agent HQ — https://github.blog/news-insights/company-news/pick-your-agent-use-claude-and-codex-on-agent-hq/