Jessie A Ellis
04 déc. 2025 17:54
Together AI introduit les pipelines TorchForge RL sur sa plateforme cloud, améliorant l'entraînement distribué et les environnements sandbox avec une démo d'entraînement BlackJack.
Les pipelines d'apprentissage par renforcement (RL) TorchForge sont désormais parfaitement opérationnels sur les Instant Clusters de Together AI, offrant un support robuste pour l'entraînement distribué, l'exécution d'outils et les environnements sandbox, comme le démontre une démo d'entraînement BlackJack open-source, selon together.ai.
Le Cloud natif IA : Fondation pour le RL de nouvelle génération
Dans le domaine en rapide évolution de l'apprentissage par renforcement, la construction de systèmes flexibles et évolutifs nécessite des frameworks de calcul et des outils compatibles et efficaces. Les pipelines RL modernes ont transcendé les boucles d'entraînement de base, s'appuyant désormais fortement sur des déploiements distribués, une inférence à haut débit et une utilisation coordonnée des ressources CPU et GPU.
La pile PyTorch complète, incluant TorchForge et Monarch, fonctionne maintenant avec des capacités d'entraînement distribué sur les Instant Clusters de Together. Ces clusters fournissent :
- Communication GPU à faible latence : Utilisant des topologies InfiniBand/NVLink pour des transferts de données efficaces basés sur RDMA et la messagerie d'acteurs distribuée.
- Mise en service cohérente des clusters : Préconfigurés avec des pilotes, NCCL, CUDA et l'opérateur GPU, permettant aux tâches distribuées PyTorch de s'exécuter sans configuration manuelle.
- Planification de charge de travail RL hétérogène : Nœuds GPU optimisés pour les répliques de politique et les formateurs, aux côtés de nœuds optimisés pour CPU pour l'environnement et l'exécution d'outils.
Les clusters de Together AI sont parfaitement adaptés aux frameworks RL qui nécessitent un mélange de calcul de modèle lié au GPU et de charges de travail d'environnement liées au CPU.
Intégration d'outils avancés et démonstration
Une part importante des charges de travail RL implique l'exécution d'outils, l'exécution de code ou l'interaction avec des environnements sandbox. La plateforme de Together AI prend en charge nativement ces exigences via :
- Together CodeSandbox : Environnements MicroVM adaptés à l'utilisation d'outils, aux tâches de codage et aux simulations.
- Together Code Interpreter : Facilite l'exécution Python rapide et isolée, adaptée aux fonctions de récompense basées sur des tests unitaires ou aux tâches d'évaluation de code.
CodeSandbox et Code Interpreter s'intègrent tous deux aux services d'environnement OpenEnv et TorchForge, permettant aux travailleurs de déploiement d'utiliser ces outils pendant l'entraînement.
Démo d'entraînement BlackJack
Together AI a publié une démonstration d'un pipeline RL TorchForge fonctionnant sur ses Instant Clusters, interagissant avec un environnement OpenEnv hébergé sur Together CodeSandbox. Cette démo, adaptée d'une implémentation de référence Meta, entraîne un modèle Qwen 1.5B à jouer au BlackJack en utilisant GRPO. Le pipeline RL intègre un serveur de politique vLLM, un environnement BlackJack, un modèle de référence, un tampon de replay hors politique et un formateur TorchTitan—connectés via le maillage d'acteurs de Monarch et utilisant TorchStore pour la synchronisation des poids.
Le dépôt OpenEnv GRPO BlackJack comprend des manifestes Kubernetes et des scripts de configuration. Le déploiement et l'initiation de l'entraînement sont simplifiés avec de simples commandes kubectl, permettant l'expérimentation avec des configurations de modèle et des ajustements d'hyperparamètres GRPO.
De plus, une intégration autonome encapsule le Code Interpreter de Together comme un environnement OpenEnv, permettant aux agents RL d'interagir avec l'Interpréteur comme avec n'importe quel autre environnement. Cette intégration permet d'appliquer les pipelines RL à diverses tâches telles que le codage et le raisonnement mathématique.
Les démonstrations soulignent que l'entraînement RL sophistiqué à composants multiples peut être réalisé facilement sur le Cloud Together AI, préparant le terrain pour un framework RL flexible et ouvert dans l'écosystème PyTorch, évolutif sur le Cloud Together AI.
Source de l'image : Shutterstock
Source : https://blockchain.news/news/torchforge-rl-pipelines-operable-together-ai-cloud


