SkyRL 新增視覺語言強化學習支援,適用於多模態模型
Joerg Hiller 2026年4月24日 16:33(UTC +8)
SkyRL 引入視覺語言強化學習,為多模態任務提供可擴展的訓練能力。了解這對 AI 開發的影響。
SkyRL 是由加州大學柏克萊分校 Sky Computing Lab 與 Anyscale 共同開發的強化學習(RL)函式庫,近日宣布支援視覺語言模型(VLM)的後訓練。此次更新讓團隊能夠使用監督式微調(SFT)與 RL 工作流程訓練多模態模型,滿足市場對能夠同時處理視覺與文字資料之模型日益增長的需求。
電腦視覺任務、機器人技術及智能推理等多模態工作負載,要求模型處理視覺輸入、採取行動並根據回饋進行調整。SkyRL 的新功能將 VLM 提升為其訓練堆疊中的一等公民,提供可在本地 GPU 或多節點叢集上擴展訓練的工具。這建立在 SkyRL 現有基礎架構之上,該架構已支援複雜的智能任務,例如軟體工程基準測試與 Text-to-SQL 生成。
此次更新的主要功能
視覺語言任務中 RL 的核心挑戰之一,是維持訓練與推理之間的一致性。SkyRL 透過引入分離式管線來解決對數機率漂移問題——此問題在處理視覺輸入時十分常見。平台以 vLLM 推理堆疊作為唯一可信來源,確保分詞與輸入準備在各工作流程中保持一致。
此方法不僅穩定了訓練過程,還允許獨立擴展用於輸入處理的 CPU 工作執行緒,確保 GPU 吞吐量不受瓶頸限制。此次更新還支援現成的任務配方,例如 Maze2D 導航和需要視覺幾何推理的資料集 Geometry-3k。早期結果顯示,即使在較大的模型規模下(例如 Qwen3-VL 8B Instruct),訓練穩定性也有所提升。
對 AI 開發的影響
SkyRL 正將自身定位為多模態模型訓練中可擴展 RL 與 SFT 的首選平台。透過與 Tinker API 等工具整合,使用者可以在自己的基礎架構上部署 RL 工作流程,降低對外部供應商的依賴。鑑於訓練大型模型的運算需求持續增加,這一點尤為重要。
這些進展恰逢多模態 AI 系統在實際應用中需求旺盛之際。需要循序決策、視覺推理及適應能力的任務——例如自主導航和與工具的動態互動——將從中獲得顯著效益。SkyRL 的模組化設計亦支援快速原型開發,讓研究人員與開發者能夠嘗試新演算法與訓練範式。
展望未來
SkyRL 的路線圖包含序列打包、Megatron 後端支援及具備上下文並行的長上下文訓練等功能。這些升級預計將進一步增強其處理複雜智能工作負載的能力。對於渴望深入 VLM 訓練的開發者,SkyRL 提供教學課程與文件說明以協助他們快速上手。
隨著 AI 產業日益將多模態系統融入實際應用場景,高效訓練和微調此類模型的能力將成為關鍵的差異化優勢。SkyRL 的最新更新體現了其在這一演進浪潮中保持領先的承諾,為前沿 RL 研究與部署提供可擴展且模組化的框架。
圖片來源:Shutterstock- skyrl
- 強化學習
- 視覺語言模型
- AI 訓練








