Jessie A Ellis
04.12.2025 17:54
Together AI führt TorchForge RL-Pipelines auf seiner Cloud-Plattform ein und verbessert verteiltes Training und Sandbox-Umgebungen mit einer BlackJack-Trainingsdemo.
TorchForge Reinforcement Learning (RL)-Pipelines sind jetzt nahtlos auf Together AI's Instant Clusters nutzbar und bieten robuste Unterstützung für verteiltes Training, Tool-Ausführung und Sandbox-Umgebungen, wie durch eine Open-Source BlackJack-Trainingsdemo demonstriert wird, laut together.ai.
Die KI-gesteuerte Cloud: Grundlage für Next-Gen RL
Im sich schnell entwickelnden Bereich des Reinforcement Learning erfordert der Aufbau flexibler und skalierbarer Systeme kompatible und effiziente Rechenrahmen und Werkzeuge. Moderne RL-Pipelines haben grundlegende Trainingsschleifen überschritten und verlassen sich jetzt stark auf verteilte Rollouts, Hochdurchsatz-Inferenz und eine koordinierte Nutzung von CPU- und GPU-Ressourcen.
Der umfassende PyTorch-Stack, einschließlich TorchForge und Monarch, arbeitet jetzt mit verteilten Trainingsmöglichkeiten auf Together Instant Clusters. Diese Cluster bieten:
- GPU-Kommunikation mit niedriger Latenz: Nutzung von InfiniBand/NVLink-Topologien für effiziente RDMA-basierte Datenübertragungen und verteilte Akteur-Messaging.
- Konsistentes Cluster-Hochfahren: Vorkonfiguriert mit Treibern, NCCL, CUDA und dem GPU-Operator, ermöglicht PyTorch verteilte Jobs ohne manuelle Einrichtung auszuführen.
- Heterogene RL-Workload-Planung: Optimierte GPU-Knoten für Policy-Replikate und Trainer, neben CPU-optimierten Knoten für Umgebungs- und Tool-Ausführung.
Together AI's Cluster sind bestens geeignet für RL-Frameworks, die eine Mischung aus GPU-gebundener Modellberechnung und CPU-gebundenen Umgebungs-Workloads erfordern.
Erweiterte Tool-Integration und Demonstration
Ein bedeutender Teil der RL-Workloads beinhaltet die Ausführung von Tools, das Ausführen von Code oder die Interaktion mit Sandbox-Umgebungen. Together AI's Plattform unterstützt diese Anforderungen nativ durch:
- Together CodeSandbox: MicroVM-Umgebungen, die für Tool-Nutzung, Coding-Aufgaben und Simulationen maßgeschneidert sind.
- Together Code Interpreter: Ermöglicht schnelle, isolierte Python-Ausführung, geeignet für Unit-Test-basierte Belohnungsfunktionen oder Code-Evaluierungsaufgaben.
Sowohl CodeSandbox als auch Code Interpreter integrieren sich mit OpenEnv und TorchForge-Umgebungsdiensten und ermöglichen Rollout-Workern, diese Tools während des Trainings zu nutzen.
BlackJack-Trainingsdemo
Together AI hat eine Demonstration einer TorchForge RL-Pipeline veröffentlicht, die auf seinen Instant Clusters läuft und mit einer OpenEnv-Umgebung interagiert, die auf Together CodeSandbox gehostet wird. Diese Demo, adaptiert von einer Meta-Referenzimplementierung, trainiert ein Qwen 1.5B-Modell, um BlackJack mit GRPO zu spielen. Die RL-Pipeline integriert einen vLLM-Policy-Server, BlackJack-Umgebung, Referenzmodell, Off-Policy-Replay-Buffer und einen TorchTitan-Trainer – verbunden durch Monarchs Actor-Mesh und unter Verwendung von TorchStore für die Gewichtssynchronisierung.
Das OpenEnv GRPO BlackJack-Repository enthält Kubernetes-Manifeste und Setup-Skripte. Bereitstellung und Trainingsinitiierung werden mit einfachen kubectl-Befehlen optimiert, was Experimente mit Modellkonfigurationen und GRPO-Hyperparameter-Anpassungen ermöglicht.
Zusätzlich umhüllt eine eigenständige Integration Together's Code Interpreter als OpenEnv-Umgebung, was RL-Agenten ermöglicht, mit dem Interpreter wie mit jeder anderen Umgebung zu interagieren. Diese Integration ermöglicht es, RL-Pipelines auf verschiedene Aufgaben wie Coding und mathematisches Denken anzuwenden.
Die Demonstrationen zeigen, dass anspruchsvolles, mehrkomponentiges RL-Training problemlos auf der Together AI Cloud durchgeführt werden kann, was den Grundstein für ein flexibles, offenes RL-Framework im PyTorch-Ökosystem legt, skalierbar auf der Together AI Cloud.
Bildquelle: Shutterstock
Quelle: https://blockchain.news/news/torchforge-rl-pipelines-operable-together-ai-cloud


