Google 把 Gemini Omni 推成 any-to-any 引擎,影片生成不再只是 prompt 工廠

Google 這次把 Gemini Omni 包裝成一個很明確的訊號:AI 生成內容的下一階段,不是再多一個會畫圖的模型,而是把看、聽、說、剪、發整條鏈路收進同一個系統。官方的說法很直接,Gemini Omni Flash 可以吃進 images、audio、video、text,然後用對話方式把影片一步步改到你要的樣子。這種設計不是在賣一個炫技 demo,而是在把生成式 AI 從單次輸出,拉進可迭代的內容製作流程。

這個差別很關鍵。過去很多模型看起來像 prompt 工廠,使用者丟一句話,等它吐出一個結果;結果不對,再重來一次。Omni 的說法則是:每次修改都會延續前一步,角色、物理、場景記憶都保留,等於把剪輯這件事直接變成自然語言互動。對內容創作者來說,這會很像把粗剪、修剪、改景、加物件這些動作拆成可對話的工作流,而不是每一步都去找傳統剪輯工具硬碰硬。

Google Gemini Omni 影片工作流概念圖
當輸入、剪輯、發布與驗證被放進同一層平台,模型的價值就從生成能力變成工作流控制力。

Google 更聰明的地方,是它沒有把 Omni 放在實驗室裡展示完就算了,而是直接推到 Gemini app、Google Flow、YouTube Shorts 和 YouTube Create。這表示它不是只想證明模型有多會生,而是想證明自己的分發入口也能吃下這種新工作流。當生成、編輯、上架都在同一套產品語言裡,模型的價值就不再只是算力或參數,而是它能不能變成平台黏性。

另一個不能忽略的訊號是 SynthID。Google 強調所有 Omni 產生的影片都會帶有不可察覺的數位水印,而且可以在 Gemini app、Chrome 和 Google Search 裡驗證。這一句話其實很像 Google 對生成式內容戰場的防守線:它知道內容會越來越像真的,所以它要先把這是 AI 做的這件事做成產品層的基礎設施。這不只是合規姿態,也是在爭奪未來內容真偽的控制權。

從產業角度看,Omni 的真正重點不是影片可以多華麗,而是 Google 正在把模型、工具、分發與驗證綁成一個閉環。這種打法一旦成熟,競爭對手要比的不只是誰的模型更會生成,而是誰能把創作門檻壓得更低、把發布路徑縮得更短,還能在內容可信度上站得住腳。換句話說,AI 影片戰現在開始進入平台戰,不再只是 prompt battle。

參考來源

  • Introducing Gemini Omni
  • https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
  • Google’s new anything-to-anything AI model is wild – The Verge
  • https://news.google.com/rss/articles/CBMigAFBVV95cUxNQnhidnhSMG5QWTNkVXotbEY4YlhKekY3NTFPZVJiUGtxRWIxQXVEenJtLTNEUmZhRHBkX1MtZERKaWdPTDZNYzc5azhyLUlCUFRfZFUxNWZ4ZlJBWVdiS3hPZk54emgtMHFHRnNBX2ZfbnFJcm9OMkxvbGd6S1dKMw?oc=5
  • Google’s Gemini Omni turns images, audio, and text into video – and that’s just the start – TechCrunch
  • https://news.google.com/rss/articles/CBMiugFBVV95cUxQRW14bkFxZVpTZGxGRVVNVEI4cmkxQkt1MzNwdm8xdTAtNHFEVmhILUF0VnJ1eW1HLTNQWVllMnRGX3hac1dpa1NRUldaQjVXd3N4RXA4c0xTSjNxeEo5SUlpVkZDQzkxckpIMmJ4WmlBUzlyTDR3dzh5MjU0UFBJbldRSE9ZOVFfTFpnazhHWFc1Zno3bUpBVTJqQnhwdUVHOFpoYzJ6eFJ5UGU5TG55STVlWlhySmpQcXc?oc=5

發表迴響