TorchForge RL Pipelines jetzt auf Together AI's Cloud nutzbar

Jessie A Ellis
04.12.2025 17:54

Together AI führt TorchForge RL-Pipelines auf seiner Cloud-Plattform ein und verbessert verteiltes Training und Sandbox-Umgebungen mit einer BlackJack-Trainingsdemo.

TorchForge Reinforcement Learning (RL)-Pipelines sind jetzt nahtlos auf Together AI's Instant Clusters nutzbar und bieten robuste Unterstützung für verteiltes Training, Tool-Ausführung und Sandbox-Umgebungen, wie durch eine Open-Source BlackJack-Trainingsdemo demonstriert wird, laut together.ai.

Die KI-gesteuerte Cloud: Grundlage für Next-Gen RL

Im sich schnell entwickelnden Bereich des Reinforcement Learning erfordert der Aufbau flexibler und skalierbarer Systeme kompatible und effiziente Rechenrahmen und Werkzeuge. Moderne RL-Pipelines haben grundlegende Trainingsschleifen überschritten und verlassen sich jetzt stark auf verteilte Rollouts, Hochdurchsatz-Inferenz und eine koordinierte Nutzung von CPU- und GPU-Ressourcen.

Der umfassende PyTorch-Stack, einschließlich TorchForge und Monarch, arbeitet jetzt mit verteilten Trainingsmöglichkeiten auf Together Instant Clusters. Diese Cluster bieten:

GPU-Kommunikation mit niedriger Latenz: Nutzung von InfiniBand/NVLink-Topologien für effiziente RDMA-basierte Datenübertragungen und verteilte Akteur-Messaging.
Konsistentes Cluster-Hochfahren: Vorkonfiguriert mit Treibern, NCCL, CUDA und dem GPU-Operator, ermöglicht PyTorch verteilte Jobs ohne manuelle Einrichtung auszuführen.
Heterogene RL-Workload-Planung: Optimierte GPU-Knoten für Policy-Replikate und Trainer, neben CPU-optimierten Knoten für Umgebungs- und Tool-Ausführung.

Together AI's Cluster sind bestens geeignet für RL-Frameworks, die eine Mischung aus GPU-gebundener Modellberechnung und CPU-gebundenen Umgebungs-Workloads erfordern.

Erweiterte Tool-Integration und Demonstration

Ein bedeutender Teil der RL-Workloads beinhaltet die Ausführung von Tools, das Ausführen von Code oder die Interaktion mit Sandbox-Umgebungen. Together AI's Plattform unterstützt diese Anforderungen nativ durch:

Together CodeSandbox: MicroVM-Umgebungen, die für Tool-Nutzung, Coding-Aufgaben und Simulationen maßgeschneidert sind.
Together Code Interpreter: Ermöglicht schnelle, isolierte Python-Ausführung, geeignet für Unit-Test-basierte Belohnungsfunktionen oder Code-Evaluierungsaufgaben.

Sowohl CodeSandbox als auch Code Interpreter integrieren sich mit OpenEnv und TorchForge-Umgebungsdiensten und ermöglichen Rollout-Workern, diese Tools während des Trainings zu nutzen.

BlackJack-Trainingsdemo

Together AI hat eine Demonstration einer TorchForge RL-Pipeline veröffentlicht, die auf seinen Instant Clusters läuft und mit einer OpenEnv-Umgebung interagiert, die auf Together CodeSandbox gehostet wird. Diese Demo, adaptiert von einer Meta-Referenzimplementierung, trainiert ein Qwen 1.5B-Modell, um BlackJack mit GRPO zu spielen. Die RL-Pipeline integriert einen vLLM-Policy-Server, BlackJack-Umgebung, Referenzmodell, Off-Policy-Replay-Buffer und einen TorchTitan-Trainer – verbunden durch Monarchs Actor-Mesh und unter Verwendung von TorchStore für die Gewichtssynchronisierung.

Das OpenEnv GRPO BlackJack-Repository enthält Kubernetes-Manifeste und Setup-Skripte. Bereitstellung und Trainingsinitiierung werden mit einfachen kubectl-Befehlen optimiert, was Experimente mit Modellkonfigurationen und GRPO-Hyperparameter-Anpassungen ermöglicht.

Zusätzlich umhüllt eine eigenständige Integration Together's Code Interpreter als OpenEnv-Umgebung, was RL-Agenten ermöglicht, mit dem Interpreter wie mit jeder anderen Umgebung zu interagieren. Diese Integration ermöglicht es, RL-Pipelines auf verschiedene Aufgaben wie Coding und mathematisches Denken anzuwenden.

Die Demonstrationen zeigen, dass anspruchsvolles, mehrkomponentiges RL-Training problemlos auf der Together AI Cloud durchgeführt werden kann, was den Grundstein für ein flexibles, offenes RL-Framework im PyTorch-Ökosystem legt, skalierbar auf der Together AI Cloud.

Bildquelle: Shutterstock

Quelle: https://blockchain.news/news/torchforge-rl-pipelines-operable-together-ai-cloud