SkyRL เพิ่มการรองรับ Vision-Language RL สำหรับโมเดลมัลติโมดัล

Joerg Hiller 24 เม.ย. 2026 23:33

SkyRL แนะนำการเรียนรู้เสริมแบบ vision-language ที่ช่วยให้การฝึกสำหรับงานมัลติโมดัลสามารถขยายขนาดได้ เรียนรู้ว่าสิ่งนี้ส่งผลต่อการพัฒนา AI อย่างไร

SkyRL Adds Vision-Language RL Support for Multimodal Models

SkyRL ซึ่งเป็นไลบรารีการเรียนรู้เสริม (RL) ที่พัฒนาโดย Sky Computing Lab ของ UC Berkeley และ Anyscale ได้ประกาศรองรับการฝึกหลังการเทรนสำหรับโมเดล vision-language (VLM) การอัปเดตนี้ช่วยให้ทีมงานสามารถฝึกโมเดลมัลติโมดัลโดยใช้เวิร์กโฟลว์การปรับแต่งแบบมีผู้ดูแล (SFT) และ RL ตอบสนองต่อความต้องการที่เพิ่มขึ้นสำหรับโมเดลที่สามารถจัดการข้อมูลภาพและข้อความได้พร้อมกัน

ภาระงานมัลติโมดัล เช่น งาน computer vision, หุ่นยนต์ และการใช้เหตุผลแบบ agentic ต้องการให้โมเดลประมวลผลข้อมูลภาพ ดำเนินการ และปรับตัวตามข้อเสนอแนะ ฟังก์ชันใหม่ของ SkyRL ทำให้ VLMs เป็นพลเมืองชั้นหนึ่งในชุดการฝึก พร้อมมอบเครื่องมือในการขยายการฝึกข้ามกลุ่ม GPU ในเครื่องหรือคลัสเตอร์หลายโหนด สิ่งนี้ต่อยอดจากโครงสร้างพื้นฐานที่มีอยู่ของ SkyRL ซึ่งรองรับงาน agentic ที่ซับซ้อนอยู่แล้ว เช่น เกณฑ์มาตรฐานวิศวกรรมซอฟต์แวร์และการสร้าง Text-to-SQL

คุณสมบัติหลักของการอัปเดต

หนึ่งในความท้าทายหลักของ RL สำหรับงาน vision-language คือการรักษาความสอดคล้องระหว่างการฝึกและการอนุมาน SkyRL แก้ปัญหาการเลื่อนของค่าความน่าจะเป็นของบันทึก ซึ่งพบได้บ่อยเมื่อประมวลผลข้อมูลภาพ ด้วยการแนะนำไปป์ไลน์แบบแยกส่วน โดยใช้ชุดการอนุมาน vLLM เป็นแหล่งข้อมูลที่ถูกต้อง แพลตฟอร์มนี้ช่วยให้การสร้าง token และการเตรียมข้อมูลนำเข้ายังคงสอดคล้องกันตลอดเวิร์กโฟลว์

แนวทางนี้ไม่เพียงช่วยให้การฝึกมีเสถียรภาพ แต่ยังช่วยให้สามารถขยาย CPU worker สำหรับการประมวลผลข้อมูลนำเข้าได้อย่างอิสระ เพื่อให้แน่ใจว่าปริมาณงาน GPU ไม่ถูกคอขวด การอัปเดตนี้ยังรองรับสูตรสำเร็จรูปสำหรับงานเช่น Maze2D navigation และ Geometry-3k ซึ่งเป็นชุดข้อมูลที่ต้องใช้การใช้เหตุผลทางเรขาคณิตด้วยภาพ ผลลัพธ์เบื้องต้นแสดงให้เห็นถึงเสถียรภาพในการฝึกที่ดีขึ้นแม้ในขนาดโมเดลที่ใหญ่ขึ้น เช่น Qwen3-VL 8B Instruct

ผลกระทบต่อการพัฒนา AI

SkyRL กำลังวางตำแหน่งตัวเองเป็นแพลตฟอร์มหลักสำหรับ RL และ SFT ที่ขยายขนาดได้ในการฝึกโมเดลมัลติโมดัล ด้วยการผสานรวมกับเครื่องมืออย่าง Tinker API ผู้ใช้สามารถปรับใช้เวิร์กโฟลว์ RL บนโครงสร้างพื้นฐานของตนเอง ลดการพึ่งพาผู้ให้บริการภายนอก สิ่งนี้มีความสำคัญเป็นพิเศษเมื่อพิจารณาถึงความต้องการการคำนวณที่เพิ่มขึ้นสำหรับการฝึกโมเดลขนาดใหญ่

ความก้าวหน้าเหล่านี้เกิดขึ้นในช่วงเวลาที่ระบบ AI มัลติโมดัลเป็นที่ต้องการอย่างสูงสำหรับการใช้งานในโลกแห่งความเป็นจริง งานที่ต้องการการตัดสินใจแบบต่อเนื่อง การใช้เหตุผลด้วยภาพ และความสามารถในการปรับตัว เช่น การนำทางแบบอัตโนมัติและการโต้ตอบแบบไดนามิกกับเครื่องมือ จะได้รับประโยชน์อย่างมาก การออกแบบแบบโมดูลาร์ของ SkyRL ยังรองรับการสร้างต้นแบบอย่างรวดเร็ว ช่วยให้นักวิจัยและนักพัฒนาสามารถทดลองใช้อัลกอริทึมใหม่และรูปแบบการฝึกได้

มองไปข้างหน้า

แผนงานของ SkyRL ประกอบด้วยฟีเจอร์ต่างๆ เช่น sequence packing, การรองรับ Megatron backend และการฝึก long-context ด้วย context parallelism การอัปเกรดเหล่านี้คาดว่าจะช่วยเพิ่มขีดความสามารถในการจัดการภาระงาน agentic ที่ซับซ้อนยิ่งขึ้น สำหรับนักพัฒนาที่กระตือรือร้นที่จะเริ่มต้นการฝึก VLM SkyRL มีบทเรียนและเอกสารประกอบเพื่อช่วยให้เริ่มต้นได้

เมื่ออุตสาหกรรม AI ผสานรวมระบบมัลติโมดัลเข้าสู่กรณีการใช้งานจริงมากขึ้น ความสามารถในการฝึกและปรับแต่งโมเดลดังกล่าวอย่างมีประสิทธิภาพจะเป็นปัจจัยสำคัญที่สร้างความแตกต่าง การอัปเดตล่าสุดของ SkyRL สะท้อนถึงความมุ่งมั่นที่จะอยู่แนวหน้าของวิวัฒนาการนี้ โดยมอบเฟรมเวิร์กที่ขยายขนาดได้และเป็นโมดูลาร์สำหรับการวิจัย RL ล้ำสมัยและการปรับใช้งาน

แหล่งที่มาของภาพ: Shutterstock