Google 把 TPU 拆成 8t 與 8i 之後，雲端 AI 基建競爭開始從算力總量，轉向訓練與推論分流

2026 年 4 月 23 日作者: FishYes!

Google 在 Cloud Next ’26 把第八代 TPU 分成 8t 與 8i，看起來像是一場正常的新晶片發表，但如果把官方公告、技術文件與外部報導放在一起看，這件事更像是雲端 AI 基礎設施敘事的一次明確轉向。過去兩年，大部分市場討論幾乎都圍著「誰有更多算力、更多 GPU、更多叢集」打轉；現在 Google 想講的已經不是單純把數字做大，而是訓練、推論、推理與 agent 執行這些工作，本來就不該再共用同一套硬體邏輯。

Google 官方把 TPU 8t 定位成訓練系統，把 TPU 8i 定位成推論與 reinforcement learning 的低延遲系統，這不只是命名上的切分。從 Cloud 部落格的說法來看，8t 主打接近 3 倍前代的算力提升、9,600 顆晶片的 superpod 與更大的網路規模；8i 則把重點放在 80% 更好的 performance per dollar、更高的 on-chip SRAM、更低的 collectives latency，以及更適合 reasoning 與高併發 agent 工作流的網路拓樸。這其實透露出一個很現實的產業判斷：真正拖慢企業 AI 成本曲線的，早就不只是訓練，而是大量推論、長上下文、工具呼叫與多代理協作帶來的延遲與記憶體壓力。

這也是為什麼 Google 這次特別強調的不只晶片，而是 Virgo Network、Boardfly、KV cache、TPUDirect Storage 這些名字。它想賣給企業的不是單一元件，而是一整套把資料搬運、節點通訊、模型載入與 agent 反應時間都一起優化的路徑。當雲端供應商開始公開承認不同 AI 任務的瓶頸根本不同，市場競爭就會從「誰的峰值比較高」慢慢轉成「誰比較懂真實工作流」。這對企業端很重要，因為多數公司並不是每一天都在訓練 frontier model；它們更常面對的，是如何讓既有模型在成本可控的前提下持續回應、調度工具、接資料、管延遲。

TechCrunch 的交叉報導也讓另一個訊號更清楚：Google 並沒有把這次 TPU 更新講成對 Nvidia 的全面切割。相反地，它同時強調 Google Cloud 仍會提供 NVIDIA Vera Rubin，甚至繼續與 Nvidia 協作網路技術。這代表 Google 真正想做的不是脫離 GPU 生態，而是把自己的雲端堆疊拉到一個更有談判力的位置。換句話說，TPU 8t 和 8i 不是「取代」故事，而是「分流」故事：哪些工作負載適合自家系統，哪些仍需要通用 GPU，Google 希望主導的是那條分界線。

對企業買方來說，這可能比任何一個性能數字都更值得注意。當 hyperscaler 開始把訓練與推論拆成兩套成本模型，企業未來採購 AI 基建時，看的不只是每秒能跑多少 token，而是能不能把訓練時的吞吐量、上線後的延遲、長上下文的記憶體需求，以及 agent 工作流裡反覆呼叫工具的代價各自壓低。這會讓雲端 AI 的競爭，從今天常見的資本密度競賽，變成更貼近營運現場的工程效率競賽。Google 這次推出 8t 與 8i，真正拋出的問題不是「它比誰更強」，而是：未來的 AI 雲，還能不能繼續用一種加速器邏輯解決所有事。

相關

發表迴響取消回覆