Google 把 Gemini Omni 推成 any-to-any 引擎，影片生成不再只是 prompt 工廠

Google 這次把 Gemini Omni 包裝成一個很明確的訊號：AI 生成內容的下一階段，不是再多一個會畫圖的模型，而是把看、聽、說、剪、發整條鏈路收進同一個系統。官方的說法很直接，Gemini Omni Flash 可以吃進 images、audio、video、text，然後用對話方式把影片一步步改到你要的樣子。這種設計不是在賣一個炫技 demo，而是在把生成式 AI 從單次輸出，拉進可迭代的內容製作流程。

這個差別很關鍵。過去很多模型看起來像 prompt 工廠，使用者丟一句話，等它吐出一個結果；結果不對，再重來一次。Omni 的說法則是：每次修改都會延續前一步，角色、物理、場景記憶都保留，等於把剪輯這件事直接變成自然語言互動。對內容創作者來說，這會很像把粗剪、修剪、改景、加物件這些動作拆成可對話的工作流，而不是每一步都去找傳統剪輯工具硬碰硬。

Google Gemini Omni 影片工作流概念圖 — 當輸入、剪輯、發布與驗證被放進同一層平台，模型的價值就從生成能力變成工作流控制力。

Google 更聰明的地方，是它沒有把 Omni 放在實驗室裡展示完就算了，而是直接推到 Gemini app、Google Flow、YouTube Shorts 和 YouTube Create。這表示它不是只想證明模型有多會生，而是想證明自己的分發入口也能吃下這種新工作流。當生成、編輯、上架都在同一套產品語言裡，模型的價值就不再只是算力或參數，而是它能不能變成平台黏性。

另一個不能忽略的訊號是 SynthID。Google 強調所有 Omni 產生的影片都會帶有不可察覺的數位水印，而且可以在 Gemini app、Chrome 和 Google Search 裡驗證。這一句話其實很像 Google 對生成式內容戰場的防守線：它知道內容會越來越像真的，所以它要先把這是 AI 做的這件事做成產品層的基礎設施。這不只是合規姿態，也是在爭奪未來內容真偽的控制權。

從產業角度看，Omni 的真正重點不是影片可以多華麗，而是 Google 正在把模型、工具、分發與驗證綁成一個閉環。這種打法一旦成熟，競爭對手要比的不只是誰的模型更會生成，而是誰能把創作門檻壓得更低、把發布路徑縮得更短，還能在內容可信度上站得住腳。換句話說，AI 影片戰現在開始進入平台戰，不再只是 prompt battle。

參考來源

Introducing Gemini Omni
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
Google’s new anything-to-anything AI model is wild – The Verge
https://news.google.com/rss/articles/CBMigAFBVV95cUxNQnhidnhSMG5QWTNkVXotbEY4YlhKekY3NTFPZVJiUGtxRWIxQXVEenJtLTNEUmZhRHBkX1MtZERKaWdPTDZNYzc5azhyLUlCUFRfZFUxNWZ4ZlJBWVdiS3hPZk54emgtMHFHRnNBX2ZfbnFJcm9OMkxvbGd6S1dKMw?oc=5
Google’s Gemini Omni turns images, audio, and text into video – and that’s just the start – TechCrunch
https://news.google.com/rss/articles/CBMiugFBVV95cUxQRW14bkFxZVpTZGxGRVVNVEI4cmkxQkt1MzNwdm8xdTAtNHFEVmhILUF0VnJ1eW1HLTNQWVllMnRGX3hac1dpa1NRUldaQjVXd3N4RXA4c0xTSjNxeEo5SUlpVkZDQzkxckpIMmJ4WmlBUzlyTDR3dzh5MjU0UFBJbldRSE9ZOVFfTFpnazhHWFc1Zno3bUpBVTJqQnhwdUVHOFpoYzJ6eFJ5UGU5TG55STVlWlhySmpQcXc?oc=5

Google 把 Gemini Omni 推成 any-to-any 引擎，影片生成不再只是 prompt 工廠

請按讚：

相關

發表迴響取消回覆

分享此文：

請按讚：

相關

發表迴響取消回覆