MIT等團隊發表FoundationMotion,此自動化系統可生成高品質影片動態數據,解決AI訓練瓶頸。經此數據微調後之中型模型,其動態理解準確率已超越大型模型,對自動駕駛與機器人領域影響深遠。MIT等團隊發表FoundationMotion,此自動化系統可生成高品質影片動態數據,解決AI訓練瓶頸。經此數據微調後之中型模型,其動態理解準確率已超越大型模型,對自動駕駛與機器人領域影響深遠。

MIT 與 NVIDIA 發表 FoundationMotion 技術 讓 AI 真正理解影像動態

2025/12/26 20:54

MIT 與 NVIDIA 聯手發表 FoundationMotion 技術,宣稱可讓 AI 真正理解影片中的動態資訊,有助解決自駕與機器人等領域對運動感知的難題並推動應用創新。

由MIT (麻省理工學院) 教授領軍,攜手NVIDIA、密西根大學、加州大學柏克萊分校與史丹佛大學研究團隊,在arXiv網站發表一項名為「FoundationMotion」的突破性研究。這項技術解決了目前AI領域最大的痛點之一:缺乏高品質的運動標註數據。透過這套自動化系統,電腦終於能像人類一樣,理解影片中物體與人物的連續動作,對於自動駕駛與機器人產業將有重大影響。

頂級AI的罩門:看得見「物體」,看不懂「動作」

研究團隊發現,即使是目前最強大的AI模型 (如Google的Gemini),在面對「汽車正在右轉」這種簡單的動態場景時,也經常會判斷錯誤。

根本原因在於,現有的訓練數據多半是靜態的圖片標註,而高品質的「影片動作標註」極其稀缺。傳統上,要標註一段幾秒鐘的影片,需要專業人員花費數分鐘逐幀確認,成本極高且難以量產。這導致了AI雖然能認出畫面裡有車,卻不知道車子下一秒要幹嘛。

AI教AI:全自動化的數據工廠

為了解決這個問題,研究團隊開發了「FoundationMotion」,這是一套完全自動化的數據製作流水線,就像一個不知疲倦的超級助手,自動觀看、追蹤,並且描述影片內容。

這套系統運作分為四個步驟:

• 影片預處理:自動截取5到10秒的關鍵片段。

• 物體檢測與追蹤:結合Qwen2.5-VL識別物體類別,並且利用 SAM 2 (Segment Anything Model 2) 給每個運動物體發「身分證」,無論物體如何移動或被遮擋,都能精準鎖定軌跡。

• 語言描述生成:利用GPT-4o-mini作為大腦,將冷冰冰的軌跡數據翻譯成人類語言,從動作識別、時間順序等七個維度進行詳細描述。

• 問答對生成:自動出題考AI,生成包含動作識別、空間位置等五種類型的測試題。

透過這套流程,團隊成功建立了包含46.7萬個影片片段與問答對的大規模數據集,這在過去可能需要數百人工作數年才能完成。

中型模型逆襲:數據品質勝過參數大小

最令人驚訝的是訓練成果。研究團隊使用這套數據集對開源模型NVILA-Video-15B進行微調訓練,結果顯示,該模型在自動駕駛場景理解的準確率達到了91.5%。

這個成績直接超越了參數量更大的Gemini-2.5-Flash (84.1%) 與Qwen-2.5-VL-72B (83.3%)。這證明了在AI領域,「數據的品質」往往比「模型的大小」更為重要。一個經過專項訓練的中學生 (中型模型),在特定領域完全可以擊敗沒有受過訓練的大學生 (大型通用模型)。

應用前景:從自駕車到帕金森氏症診斷

「FoundationMotion」的出現,為多個領域帶來了想像空間:

• 自動駕駛:系統不再只是看到車,而是能預判「前車正在變道」或「行人準備過馬路」,大幅提升安全性。

• 機器人協作:工廠機器人能看懂工人的手部動作,預判下一步需求並遞上工具。

• 醫療健康:透過分析患者的手部震顫模式 (如帕金森氏症),提供醫生客觀的數據輔助。

分析觀點:合成數據將是AI進化的燃料

筆者認為,「FoundationMotion」這項研究最大的意義,不只是讓AI看懂影片,而是驗證了「合成數據」 (Synthetic Data) 或「自動化標註」的可行性。

隨著AI模型對數據的需求量呈指數級成長,人類產生的數據早已不夠用,而標註成本也越來越高。這種「用現有AI工具 (如SAM 2、GPT-4o)來生產數據,再用來訓練下一代AI」的模式,將會是未來幾年AI發展的主流。

雖然目前該技術在3D空間理解與高速運動模糊上仍有局限,但MIT與NVIDIA已經承諾將開源相關代碼與數據。這意味著,未來我們家裡的掃地機器人或監控攝影機,可能都會因此變得更聰明一點。

資料來源

  • https://mashdigi.com/mit-and-nvidia-unveil-foundationmotion-this-technology-enables-ai-to-truly-understand-video-motion-addressing-pain-points-in-autonomous-driving-and-robotics/
市場機遇
Sleepless AI 圖標
Sleepless AI實時價格 (AI)
$0.03837
$0.03837$0.03837
+1.72%
USD
Sleepless AI (AI) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。