XDOF 拿下 7000 萬美元,機器人 AI 的瓶頸回到資料工廠

AI 實驗室重新把目光投向機器人時,最容易被看見的是人形機器人的外殼、漂亮的展示影片,以及模型公司說自己要進入 physical AI。XDOF 這次從隱身狀態走出來,反而把焦點拉回比較不浪漫的一層:要讓機器人真的學會拿東西、折衣服、開盒子、收納和處理複雜接觸,缺的不是又一段宣傳片,而是大量、乾淨、可重複使用的真實操作資料。

TechCrunch 在 6 月 17 日報導,XDOF 已經募得 7000 萬美元,投資人包括 Thrive Capital、Spark Capital、a16z、Lux 與 WndrCo。這家公司要做的不是機器人本體,也不是一個前台聊天模型,而是給前沿 AI 實驗室和機器人公司使用的資料管線、收集工具與標註系統。這讓它看起來更像機器人版的資料基礎設施公司:當每個大實驗室都想訓練能進入現實世界的模型,資料工廠本身就可能變成一門生意。

這個題目之所以重要,是因為機器人和語言模型的資料條件完全不同。語言模型可以從公開網頁、書籍、程式碼和文件裡吃進大量文字,雖然版權與品質問題很多,但至少資料先存在。機器人需要的是「身體和世界互動」的資料:手臂如何接觸物體,夾爪在滑動時怎麼補償,物體重量、摩擦、角度和遮擋怎麼影響動作。這類資料不會自然躺在網路上,也很難只靠影片推回精確動作。XDOF 的市場切入點就在這裡:把收集、清理、標註、回饋和評估做成一條可規模化的生產線。

機器人訓練資料從人類遠端操作、機械手臂、感測器與標註流程進入模型訓練迴路的抽象示意
從人類遠端操作、機械手臂與感測器資料,到標註、清理、評估與模型訓練,physical AI 需要可回饋的資料迴路。

TechCrunch 報導中的幾個細節很有產業味。XDOF 共同創辦人 Philipp Wu 說,公司約有 60 名員工,已經和 20 個客戶合作,其中包含數個前沿 AI 實驗室,但沒有公開客戶名稱。它規劃的資料金字塔也不是單一路徑:最有價值的是在實際部署機器人上收集的 teleoperation data;第二層是用 GELLO 這類低成本遠端操作系統收集更一般化的機器人操作資料;第三層則是人類配戴感測器做日常任務,收集 egocentric data。換句話說,這家公司賣的不是單一資料集,而是一套把人、機器、場地、感測器和標註流程接起來的運營能力。

ABC project page 提供了另一個可核對的技術背景。這個由 UC Berkeley、MIT、Amazon FAR、XDOF、Carnegie Mellon 等研究者參與的開放專案,描述 ABC-130K 含有 134,806 個 episodes、195 種任務、3,553 小時雙臂操作資料,另有 400 小時模擬資料與超過 100 小時真實機器人評估。它的任務範圍包括 pick-and-place、folding、handover、insertion、tool use 與 assembly。這些數字不代表機器人已經通用化,但它說明了一件事:機器人基礎模型若要走出少量 demo,資料量、任務多樣性和評估基準都必須被當成基礎建設來做。

這也是為什麼 XDOF 這筆錢不能只當成一般機器人融資看。過去幾年,AI 基礎設施的焦點多半在 GPU、資料中心、網路互連、推論成本和模型服務。physical AI 會多出一層更重的基礎設施:倉庫、機械手臂、相機、控制器、校準流程、遠端操作人員、標註系統、品質稽核和安全規範。TechCrunch 報導引述 Wu 的說法,若實驗室自己做,可能需要數十萬平方英尺倉儲、數百台機器人、維護與校準能力,以及訓練過的操作員。這聽起來不像純軟體新創熟悉的邊際成本曲線,反而更接近資料中心和外包營運的混合體。

對大模型公司來說,這是一個很現實的取捨。如果 robotics 真的是下一個戰場,實驗室不能等到硬體成熟後才開始補資料;但每家公司都自己養一整套資料收集工廠,也會拖慢模型研究、增加固定成本,並把大量注意力放在場地、人員和設備維護上。XDOF 的賭注是,前沿實驗室願意把這層重活外包,自己保留模型、策略和產品化能力。這和雲端算力、資料標註、合成資料、模型評測曾經走過的路有點像:當某個環節又貴又難又必要,它就有機會從內部工具變成外部市場。

但風險也同樣清楚。機器人資料不是越多越好,還要看資料和目標任務、硬體型號、感測器配置與控制架構是否匹配。某個機械手臂上的成功經驗,未必能直接轉到另一台機器人;某個攝影機角度或夾爪設計的資料,也可能讓模型學到難以泛化的偏差。XDOF 若要成為真正的基礎設施,必須證明自己能持續提供高品質、多樣化、可追蹤、可評估的資料,而不是一次性堆出一個大數字。

勞動與治理問題也會跟著出現。遠端操作員、egocentric data operator、資料標註和品質審核,都是高度人力密集的工作。這讓 physical AI 的供應鏈不像純雲端服務那麼抽象,它會牽涉不同國家的勞動成本、訓練標準、隱私、工作安全,以及資料是否取得同意。當機器人模型開始學習人類日常動作,資料來源與使用邊界會變得比文字資料更具體,也更容易碰到倫理和合規問題。

即使如此,XDOF 仍然是一個值得放進觀察清單的訊號。AI agent 正在辦公室裡學會操作軟體,製造 AI 正在把設計資料推向工廠,而機器人 AI 則需要把真實世界的動作變成可訓練資料。這些路線看似分散,其實都指向同一個方向:AI 的下一階段競爭,不只在模型本身,而在模型能不能接上可靠的資料迴路與執行環境。XDOF 把這件事講得很樸素,也很硬:如果機器人要學會世界,總得有人先把世界裡的動作收集起來。

參考來源

  • https://techcrunch.com/2026/06/17/collecting-robot-training-data-is-dirty-unglamorous-work-some-ai-labs-are-already-paying-xdof-to-do-it/
  • https://abc.bot/
  • https://aiweekly.co/alerts/xdof-lands-70m-to-build-robot-training-data-pipelines
  • https://www.thesaasnews.com/news/xdof-raises-70m-other/

發表迴響