美國商務部底下的 CAISI 在 5 月 5 日宣布,Google DeepMind、Microsoft 和 xAI 都同意讓前沿模型先接受政府的預部署評估。這不是單純的公關動作,而是把「模型上線前先過一輪安全檢查」變成更接近常態的流程。對這三家公司來說,真正被放上桌的,不只是模型能力,而是模型在國安、濫用、對抗測試下,能不能說得過去。
這件事之所以重要,是因為它把 AI 競爭的重心往可驗證性推了一步。CAISI 的官方說法提到,它已經完成 40 多次評估,而且為了做更嚴格的測試,開發者常會交出移除或降低防護後的版本。換句話說,前沿模型現在不只是被要求「更強」,還要先證明自己在失去護欄時會怎麼表現。這種測法很像把飛機先拉進風洞,而不是等它真的上天才補測。

Reuters 把這項合作放進美中 AI 競速與國安焦慮的框架裡看,Bloomberg 則補上另一層:Google、Microsoft 與 xAI 等於正式加入 OpenAI 和 Anthropic 先前已在做的那條管道。這表示「和政府合作做模型測試」正在從個別公司的選項,變成產業標配。你可以把它理解成一條新的制度管線:模型不只是要會跑,還要能被政府、甚至未來的客戶,重複測、反覆驗、留下記錄。
對企業端來說,這個訊號也不小。當前沿模型開始先過國安與安全測試,採購方就不該只看 benchmark 或 demo,而要把可稽核、可回放、可撤回列進選型條件。今天是美國政府先替市場做前測,明天輪到的可能就是金融、醫療、製造這些高風險場景的導入門檻。AI 走到這一步,競爭不再只是誰喊得最大聲,而是誰能在更嚴格的測試裡交出更穩的證據。
這也讓前沿 AI 的故事開始有點像基礎設施,而不只是產品。當能力愈來愈接近,最後拉開差距的常常不是一個漂亮發表,而是測試制度、合規接口、風險回報機制。某種程度上,這次三家公司一起進入 CAISI 流程,像是在告訴市場:下一輪競爭,會先比誰比較願意被檢查。
參考來源:
- https://www.nist.gov/news-events/news/2026/05/caisi-signs-agreements-regarding-frontier-ai-national-security-testing
- https://www.reuters.com/legal/litigation/microsoft-xai-google-will-share-ai-models-with-us-govt-security-reviews-2026-05-05/
- https://www.bloomberg.com/news/articles/2026-05-05/ai-firms-agree-to-give-us-early-access-to-evaluate-their-models