Google 這次端出來的 DiffusionGemma,不像是「又一個聊天模型」,更像是在改寫模型怎麼寫字。它不是照著傳統大型語言模型那樣,一個 token 接一個 token 往下吐,而是一次畫出一整塊 256-token 的文字畫布,再靠 diffusion 反覆修正。官方說法很直接:這套方法能把生成速度拉快,讓本地端、低延遲、互動式工作流有更好的反應時間。
這件事真正有意思的地方,在於它把瓶頸從「會不會講」推到「硬體怎麼用」。在雲端,autoregressive 模型可以靠大量請求 batching,把 GPU 吃得很滿;但在單一使用者的本地推理場景,token-by-token 的節奏常常讓硬體一直等下一步。DiffusionGemma 想處理的,就是這個浪費。它把計算往並行方向推,讓高階 GPU 更像是在做一張整頁草稿,而不是慢慢打一封簡訊。

Ars Technica 也抓到這個核心,但同時把話說得更實際:DiffusionGemma 的速度優勢很明顯,卻不是免費午餐。語言是離散的,text diffusion 在品質上仍有取捨,尤其當輸出很短、或你要的是高穩定度的正式答案時,傳統 Gemma 4 這類 autoregressive 模型還是更保險。換句話說,Google 並沒有說它要拿 DiffusionGemma 取代主線模型,而是把它放進一個更像「速度優先、品質次之」的實驗區。
NVIDIA 那篇配套文章把這條路講得更白。它不只談 H100,也把 DGX Spark、DGX Station、RTX 和 RTX PRO 都拉進來,意思很清楚:Google 與 NVIDIA 不是只在展示一個研究成果,而是在把這個架構推進硬體生態。當生成方式改成並行 refinement,模型的價值就不再只看 benchmark,還要看它能不能在本地機器、工作站和桌面 GPU 上變成真正順手的工具。
這也是 DiffusionGemma 最值得注意的地方。它不是今天就會把 ChatGPT 式的使用者體驗整個推翻,但它把一個問題丟回產業中心:如果文字生成可以用不同的機制做到更低延遲、更適合本地運算,那下一輪競爭就不只是在比誰比較會回答,而是在比誰能把 AI 變得更快、更貼身、也更靠近使用者手上的那台機器。很多人會把它看成一個模型發布,但它更像是在提醒大家,AI 介面的下一步,可能不是更長的對話,而是更短的等待。
參考來源:
- DiffusionGemma: 4x faster text generation – https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/
- Google's latest DiffusionGemma open AI model comes with a 4x speed boost – https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/
- Run DiffusionGemma on NVIDIA for Developer-Ready, High-Throughput Text Generation – https://developer.nvidia.com/blog/run-diffusiongemma-on-nvidia-for-developer-ready-high-throughput-text-generation/
- DiffusionGemma Brings Faster Text Generation To Local AI Workflows – https://opendatascience.com/diffusiongemma-brings-faster-text-generation-to-local-ai-workflows/