Google 把 DiffusionGemma 推上檯面，文字生成開始從逐 token 變成並行草稿

Google 這次端出來的 DiffusionGemma，不像是「又一個聊天模型」，更像是在改寫模型怎麼寫字。它不是照著傳統大型語言模型那樣，一個 token 接一個 token 往下吐，而是一次畫出一整塊 256-token 的文字畫布，再靠 diffusion 反覆修正。官方說法很直接：這套方法能把生成速度拉快，讓本地端、低延遲、互動式工作流有更好的反應時間。

這件事真正有意思的地方，在於它把瓶頸從「會不會講」推到「硬體怎麼用」。在雲端，autoregressive 模型可以靠大量請求 batching，把 GPU 吃得很滿；但在單一使用者的本地推理場景，token-by-token 的節奏常常讓硬體一直等下一步。DiffusionGemma 想處理的，就是這個浪費。它把計算往並行方向推，讓高階 GPU 更像是在做一張整頁草稿，而不是慢慢打一封簡訊。

DiffusionGemma 並行草稿示意 — 把 256-token block 一次畫出來，再反覆修正，才是這次架構變化的核心。

Ars Technica 也抓到這個核心，但同時把話說得更實際：DiffusionGemma 的速度優勢很明顯，卻不是免費午餐。語言是離散的，text diffusion 在品質上仍有取捨，尤其當輸出很短、或你要的是高穩定度的正式答案時，傳統 Gemma 4 這類 autoregressive 模型還是更保險。換句話說，Google 並沒有說它要拿 DiffusionGemma 取代主線模型，而是把它放進一個更像「速度優先、品質次之」的實驗區。

NVIDIA 那篇配套文章把這條路講得更白。它不只談 H100，也把 DGX Spark、DGX Station、RTX 和 RTX PRO 都拉進來，意思很清楚：Google 與 NVIDIA 不是只在展示一個研究成果，而是在把這個架構推進硬體生態。當生成方式改成並行 refinement，模型的價值就不再只看 benchmark，還要看它能不能在本地機器、工作站和桌面 GPU 上變成真正順手的工具。

這也是 DiffusionGemma 最值得注意的地方。它不是今天就會把 ChatGPT 式的使用者體驗整個推翻，但它把一個問題丟回產業中心：如果文字生成可以用不同的機制做到更低延遲、更適合本地運算，那下一輪競爭就不只是在比誰比較會回答，而是在比誰能把 AI 變得更快、更貼身、也更靠近使用者手上的那台機器。很多人會把它看成一個模型發布，但它更像是在提醒大家，AI 介面的下一步，可能不是更長的對話，而是更短的等待。

參考來源：

DiffusionGemma: 4x faster text generation – https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/
Google's latest DiffusionGemma open AI model comes with a 4x speed boost – https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/
Run DiffusionGemma on NVIDIA for Developer-Ready, High-Throughput Text Generation – https://developer.nvidia.com/blog/run-diffusiongemma-on-nvidia-for-developer-ready-high-throughput-text-generation/
DiffusionGemma Brings Faster Text Generation To Local AI Workflows – https://opendatascience.com/diffusiongemma-brings-faster-text-generation-to-local-ai-workflows/

Google 把 DiffusionGemma 推上檯面，文字生成開始從逐 token 變成並行草稿

請按讚：

相關

發表迴響取消回覆

分享此文：

請按讚：

相關

發表迴響取消回覆