Google 在 Cloud Next ’26 把第八代 TPU 分成 8t 與 8i,看起來像是一場正常的新晶片發表,但如果把官方公告、技術文件與外部報導放在一起看,這件事更像是雲端 AI 基礎設施敘事的一次明確轉向。過去兩年,大部分市場討論幾乎都圍著「誰有更多算力、更多 GPU、更多叢集」打轉;現在 Google 想講的已經不是單純把數字做大,而是訓練、推論、推理與 agent 執行這些工作,本來就不該再共用同一套硬體邏輯。
Google 官方把 TPU 8t 定位成訓練系統,把 TPU 8i 定位成推論與 reinforcement learning 的低延遲系統,這不只是命名上的切分。從 Cloud 部落格的說法來看,8t 主打接近 3 倍前代的算力提升、9,600 顆晶片的 superpod 與更大的網路規模;8i 則把重點放在 80% 更好的 performance per dollar、更高的 on-chip SRAM、更低的 collectives latency,以及更適合 reasoning 與高併發 agent 工作流的網路拓樸。這其實透露出一個很現實的產業判斷:真正拖慢企業 AI 成本曲線的,早就不只是訓練,而是大量推論、長上下文、工具呼叫與多代理協作帶來的延遲與記憶體壓力。

這也是為什麼 Google 這次特別強調的不只晶片,而是 Virgo Network、Boardfly、KV cache、TPUDirect Storage 這些名字。它想賣給企業的不是單一元件,而是一整套把資料搬運、節點通訊、模型載入與 agent 反應時間都一起優化的路徑。當雲端供應商開始公開承認不同 AI 任務的瓶頸根本不同,市場競爭就會從「誰的峰值比較高」慢慢轉成「誰比較懂真實工作流」。這對企業端很重要,因為多數公司並不是每一天都在訓練 frontier model;它們更常面對的,是如何讓既有模型在成本可控的前提下持續回應、調度工具、接資料、管延遲。
TechCrunch 的交叉報導也讓另一個訊號更清楚:Google 並沒有把這次 TPU 更新講成對 Nvidia 的全面切割。相反地,它同時強調 Google Cloud 仍會提供 NVIDIA Vera Rubin,甚至繼續與 Nvidia 協作網路技術。這代表 Google 真正想做的不是脫離 GPU 生態,而是把自己的雲端堆疊拉到一個更有談判力的位置。換句話說,TPU 8t 和 8i 不是「取代」故事,而是「分流」故事:哪些工作負載適合自家系統,哪些仍需要通用 GPU,Google 希望主導的是那條分界線。
對企業買方來說,這可能比任何一個性能數字都更值得注意。當 hyperscaler 開始把訓練與推論拆成兩套成本模型,企業未來採購 AI 基建時,看的不只是每秒能跑多少 token,而是能不能把訓練時的吞吐量、上線後的延遲、長上下文的記憶體需求,以及 agent 工作流裡反覆呼叫工具的代價各自壓低。這會讓雲端 AI 的競爭,從今天常見的資本密度競賽,變成更貼近營運現場的工程效率競賽。Google 這次推出 8t 與 8i,真正拋出的問題不是「它比誰更強」,而是:未來的 AI 雲,還能不能繼續用一種加速器邏輯解決所有事。
- https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/tpus-8t-8i-cloud-next/
- https://cloud.google.com/blog/products/compute/ai-infrastructure-at-next26
- https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive
- https://techcrunch.com/2026/04/22/google-cloud-next-new-tpu-ai-chips-compete-with-nvidia/
- https://www.networkworld.com/article/4162004/google-bets-on-workload-specific-tpus-with-8t-and-8i-launch.html