Der Beitrag TorchForge RL Pipelines jetzt auf Together AI's Cloud nutzbar erschien auf BitcoinEthereumNews.com. Jessie A Ellis 04.12.2025 17:54 Together AI führt TorchForge RL-Pipelines auf seiner Cloud-Plattform ein und verbessert verteiltes Training und Sandbox-Umgebungen mit einer BlackJack-Trainingsdemo. TorchForge Reinforcement Learning (RL)-Pipelines sind jetzt nahtlos auf Together AI's Instant Clusters nutzbar und bieten robuste Unterstützung für verteiltes Training, Tool-Ausführung und Sandbox-Umgebungen, wie durch eine Open-Source BlackJack-Trainingsdemo demonstriert wird, laut together.ai. Die KI-gesteuerte Cloud: Grundlage für Next-Gen RL Im sich schnell entwickelnden Bereich des Reinforcement Learning erfordert der Aufbau flexibler und skalierbarer Systeme kompatible und effiziente Rechenframeworks und Tools. Moderne RL-Pipelines haben grundlegende Trainingsschleifen überschritten und verlassen sich jetzt stark auf verteilte Rollouts, Hochdurchsatz-Inferenz und eine koordinierte Nutzung von CPU- und GPU-Ressourcen. Der umfassende PyTorch-Stack, einschließlich TorchForge und Monarch, arbeitet jetzt mit verteilten Trainingsfähigkeiten auf Together Instant Clusters. Diese Cluster bieten: GPU-Kommunikation mit niedriger Latenz: Nutzung von InfiniBand/NVLink-Topologien für effiziente RDMA-basierte Datenübertragungen und verteilte Akteur-Messaging. Konsistentes Cluster-Hochfahren: Vorkonfiguriert mit Treibern, NCCL, CUDA und dem GPU-Operator, ermöglicht PyTorch verteilte Jobs ohne manuelle Einrichtung auszuführen. Heterogene RL-Workload-Planung: Optimierte GPU-Knoten für Policy-Replikate und Trainer, neben CPU-optimierten Knoten für Umgebungs- und Tool-Ausführung. Together AI's Cluster sind bestens geeignet für RL-Frameworks, die eine Mischung aus GPU-gebundener Modellberechnung und CPU-gebundenen Umgebungs-Workloads erfordern. Fortschrittliche Tool-Integration und Demonstration Ein bedeutender Teil der RL-Workloads beinhaltet die Ausführung von Tools, das Ausführen von Code oder die Interaktion mit Sandbox-Umgebungen. Together AI's Plattform unterstützt diese Anforderungen nativ durch: Together CodeSandbox: MicroVM-Umgebungen, maßgeschneidert für Tool-Nutzung, Coding-Aufgaben und Simulationen. Together Code Interpreter: Ermöglicht schnelle, isolierte Python-Ausführung, geeignet für Unit-Test-basierte Belohnungsfunktionen oder Code-Evaluierungsaufgaben. Sowohl CodeSandbox als auch Code Interpreter integrieren sich mit OpenEnv und TorchForge-Umgebungsdiensten, wodurch Rollout-Worker diese Tools nutzen können...Der Beitrag TorchForge RL Pipelines jetzt auf Together AI's Cloud nutzbar erschien auf BitcoinEthereumNews.com. Jessie A Ellis 04.12.2025 17:54 Together AI führt TorchForge RL-Pipelines auf seiner Cloud-Plattform ein und verbessert verteiltes Training und Sandbox-Umgebungen mit einer BlackJack-Trainingsdemo. TorchForge Reinforcement Learning (RL)-Pipelines sind jetzt nahtlos auf Together AI's Instant Clusters nutzbar und bieten robuste Unterstützung für verteiltes Training, Tool-Ausführung und Sandbox-Umgebungen, wie durch eine Open-Source BlackJack-Trainingsdemo demonstriert wird, laut together.ai. Die KI-gesteuerte Cloud: Grundlage für Next-Gen RL Im sich schnell entwickelnden Bereich des Reinforcement Learning erfordert der Aufbau flexibler und skalierbarer Systeme kompatible und effiziente Rechenframeworks und Tools. Moderne RL-Pipelines haben grundlegende Trainingsschleifen überschritten und verlassen sich jetzt stark auf verteilte Rollouts, Hochdurchsatz-Inferenz und eine koordinierte Nutzung von CPU- und GPU-Ressourcen. Der umfassende PyTorch-Stack, einschließlich TorchForge und Monarch, arbeitet jetzt mit verteilten Trainingsfähigkeiten auf Together Instant Clusters. Diese Cluster bieten: GPU-Kommunikation mit niedriger Latenz: Nutzung von InfiniBand/NVLink-Topologien für effiziente RDMA-basierte Datenübertragungen und verteilte Akteur-Messaging. Konsistentes Cluster-Hochfahren: Vorkonfiguriert mit Treibern, NCCL, CUDA und dem GPU-Operator, ermöglicht PyTorch verteilte Jobs ohne manuelle Einrichtung auszuführen. Heterogene RL-Workload-Planung: Optimierte GPU-Knoten für Policy-Replikate und Trainer, neben CPU-optimierten Knoten für Umgebungs- und Tool-Ausführung. Together AI's Cluster sind bestens geeignet für RL-Frameworks, die eine Mischung aus GPU-gebundener Modellberechnung und CPU-gebundenen Umgebungs-Workloads erfordern. Fortschrittliche Tool-Integration und Demonstration Ein bedeutender Teil der RL-Workloads beinhaltet die Ausführung von Tools, das Ausführen von Code oder die Interaktion mit Sandbox-Umgebungen. Together AI's Plattform unterstützt diese Anforderungen nativ durch: Together CodeSandbox: MicroVM-Umgebungen, maßgeschneidert für Tool-Nutzung, Coding-Aufgaben und Simulationen. Together Code Interpreter: Ermöglicht schnelle, isolierte Python-Ausführung, geeignet für Unit-Test-basierte Belohnungsfunktionen oder Code-Evaluierungsaufgaben. Sowohl CodeSandbox als auch Code Interpreter integrieren sich mit OpenEnv und TorchForge-Umgebungsdiensten, wodurch Rollout-Worker diese Tools nutzen können...

TorchForge RL Pipelines jetzt auf Together AI's Cloud nutzbar

2025/12/06 15:05


Jessie A Ellis
04.12.2025 17:54

Together AI führt TorchForge RL-Pipelines auf seiner Cloud-Plattform ein und verbessert verteiltes Training und Sandbox-Umgebungen mit einer BlackJack-Trainingsdemo.

TorchForge Reinforcement Learning (RL)-Pipelines sind jetzt nahtlos auf Together AI's Instant Clusters nutzbar und bieten robuste Unterstützung für verteiltes Training, Tool-Ausführung und Sandbox-Umgebungen, wie durch eine Open-Source BlackJack-Trainingsdemo demonstriert wird, laut together.ai.

Die KI-gesteuerte Cloud: Grundlage für Next-Gen RL

Im sich schnell entwickelnden Bereich des Reinforcement Learning erfordert der Aufbau flexibler und skalierbarer Systeme kompatible und effiziente Rechenrahmen und Werkzeuge. Moderne RL-Pipelines haben grundlegende Trainingsschleifen überschritten und verlassen sich jetzt stark auf verteilte Rollouts, Hochdurchsatz-Inferenz und eine koordinierte Nutzung von CPU- und GPU-Ressourcen.

Der umfassende PyTorch-Stack, einschließlich TorchForge und Monarch, arbeitet jetzt mit verteilten Trainingsmöglichkeiten auf Together Instant Clusters. Diese Cluster bieten:

  • GPU-Kommunikation mit niedriger Latenz: Nutzung von InfiniBand/NVLink-Topologien für effiziente RDMA-basierte Datenübertragungen und verteilte Akteur-Messaging.
  • Konsistentes Cluster-Hochfahren: Vorkonfiguriert mit Treibern, NCCL, CUDA und dem GPU-Operator, ermöglicht PyTorch verteilte Jobs ohne manuelle Einrichtung auszuführen.
  • Heterogene RL-Workload-Planung: Optimierte GPU-Knoten für Policy-Replikate und Trainer, neben CPU-optimierten Knoten für Umgebungs- und Tool-Ausführung.

Together AI's Cluster sind bestens geeignet für RL-Frameworks, die eine Mischung aus GPU-gebundener Modellberechnung und CPU-gebundenen Umgebungs-Workloads erfordern.

Erweiterte Tool-Integration und Demonstration

Ein bedeutender Teil der RL-Workloads beinhaltet die Ausführung von Tools, das Ausführen von Code oder die Interaktion mit Sandbox-Umgebungen. Together AI's Plattform unterstützt diese Anforderungen nativ durch:

  • Together CodeSandbox: MicroVM-Umgebungen, die für Tool-Nutzung, Coding-Aufgaben und Simulationen maßgeschneidert sind.
  • Together Code Interpreter: Ermöglicht schnelle, isolierte Python-Ausführung, geeignet für Unit-Test-basierte Belohnungsfunktionen oder Code-Evaluierungsaufgaben.

Sowohl CodeSandbox als auch Code Interpreter integrieren sich mit OpenEnv und TorchForge-Umgebungsdiensten und ermöglichen Rollout-Workern, diese Tools während des Trainings zu nutzen.

BlackJack-Trainingsdemo

Together AI hat eine Demonstration einer TorchForge RL-Pipeline veröffentlicht, die auf seinen Instant Clusters läuft und mit einer OpenEnv-Umgebung interagiert, die auf Together CodeSandbox gehostet wird. Diese Demo, adaptiert von einer Meta-Referenzimplementierung, trainiert ein Qwen 1.5B-Modell, um BlackJack mit GRPO zu spielen. Die RL-Pipeline integriert einen vLLM-Policy-Server, BlackJack-Umgebung, Referenzmodell, Off-Policy-Replay-Buffer und einen TorchTitan-Trainer – verbunden durch Monarchs Actor-Mesh und unter Verwendung von TorchStore für die Gewichtssynchronisierung.

Das OpenEnv GRPO BlackJack-Repository enthält Kubernetes-Manifeste und Setup-Skripte. Bereitstellung und Trainingsinitiierung werden mit einfachen kubectl-Befehlen optimiert, was Experimente mit Modellkonfigurationen und GRPO-Hyperparameter-Anpassungen ermöglicht.

Zusätzlich umhüllt eine eigenständige Integration Together's Code Interpreter als OpenEnv-Umgebung, was RL-Agenten ermöglicht, mit dem Interpreter wie mit jeder anderen Umgebung zu interagieren. Diese Integration ermöglicht es, RL-Pipelines auf verschiedene Aufgaben wie Coding und mathematisches Denken anzuwenden.

Die Demonstrationen zeigen, dass anspruchsvolles, mehrkomponentiges RL-Training problemlos auf der Together AI Cloud durchgeführt werden kann, was den Grundstein für ein flexibles, offenes RL-Framework im PyTorch-Ökosystem legt, skalierbar auf der Together AI Cloud.

Bildquelle: Shutterstock

Quelle: https://blockchain.news/news/torchforge-rl-pipelines-operable-together-ai-cloud

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an service@support.mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.