SkyRL 引入視覺語言強化學習,實現多模態任務的可擴展訓練。了解這對 AI 發展的影響。(閱讀更多)SkyRL 引入視覺語言強化學習,實現多模態任務的可擴展訓練。了解這對 AI 發展的影響。(閱讀更多)

SkyRL 新增對多模態模型的視覺語言強化學習支援

2026/04/25 00:33
閱讀時長 5 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

SkyRL 新增視覺語言強化學習支援,適用於多模態模型

Joerg Hiller 2026年4月24日 16:33(UTC +8)

SkyRL 引入視覺語言強化學習,為多模態任務提供可擴展的訓練能力。了解這對 AI 開發的影響。

SkyRL 新增視覺語言強化學習支援,適用於多模態模型

SkyRL 是由加州大學柏克萊分校 Sky Computing Lab 與 Anyscale 共同開發的強化學習(RL)函式庫,近日宣布支援視覺語言模型(VLM)的後訓練。此次更新讓團隊能夠使用監督式微調(SFT)與 RL 工作流程訓練多模態模型,滿足市場對能夠同時處理視覺與文字資料之模型日益增長的需求。

電腦視覺任務、機器人技術及智能推理等多模態工作負載,要求模型處理視覺輸入、採取行動並根據回饋進行調整。SkyRL 的新功能將 VLM 提升為其訓練堆疊中的一等公民,提供可在本地 GPU 或多節點叢集上擴展訓練的工具。這建立在 SkyRL 現有基礎架構之上,該架構已支援複雜的智能任務,例如軟體工程基準測試與 Text-to-SQL 生成。

此次更新的主要功能

視覺語言任務中 RL 的核心挑戰之一,是維持訓練與推理之間的一致性。SkyRL 透過引入分離式管線來解決對數機率漂移問題——此問題在處理視覺輸入時十分常見。平台以 vLLM 推理堆疊作為唯一可信來源,確保分詞與輸入準備在各工作流程中保持一致。

此方法不僅穩定了訓練過程,還允許獨立擴展用於輸入處理的 CPU 工作執行緒,確保 GPU 吞吐量不受瓶頸限制。此次更新還支援現成的任務配方,例如 Maze2D 導航和需要視覺幾何推理的資料集 Geometry-3k。早期結果顯示,即使在較大的模型規模下(例如 Qwen3-VL 8B Instruct),訓練穩定性也有所提升。

對 AI 開發的影響

SkyRL 正將自身定位為多模態模型訓練中可擴展 RL 與 SFT 的首選平台。透過與 Tinker API 等工具整合,使用者可以在自己的基礎架構上部署 RL 工作流程,降低對外部供應商的依賴。鑑於訓練大型模型的運算需求持續增加,這一點尤為重要。

這些進展恰逢多模態 AI 系統在實際應用中需求旺盛之際。需要循序決策、視覺推理及適應能力的任務——例如自主導航和與工具的動態互動——將從中獲得顯著效益。SkyRL 的模組化設計亦支援快速原型開發,讓研究人員與開發者能夠嘗試新演算法與訓練範式。

展望未來

SkyRL 的路線圖包含序列打包、Megatron 後端支援及具備上下文並行的長上下文訓練等功能。這些升級預計將進一步增強其處理複雜智能工作負載的能力。對於渴望深入 VLM 訓練的開發者,SkyRL 提供教學課程與文件說明以協助他們快速上手。

隨著 AI 產業日益將多模態系統融入實際應用場景,高效訓練和微調此類模型的能力將成為關鍵的差異化優勢。SkyRL 的最新更新體現了其在這一演進浪潮中保持領先的承諾,為前沿 RL 研究與部署提供可擴展且模組化的框架。

圖片來源:Shutterstock
  • skyrl
  • 強化學習
  • 視覺語言模型
  • AI 訓練
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

Roll the Dice & Win Up to 1 BTC

Roll the Dice & Win Up to 1 BTCRoll the Dice & Win Up to 1 BTC

Invite friends & share 500,000 USDT!