Jessie A Ellis
04/12/2025 17:54
Together AI introduce tuberías RL de TorchForge en su plataforma en la nube, mejorando el entrenamiento distribuido y entornos aislados con una demo de entrenamiento de BlackJack.
Las tuberías de aprendizaje por refuerzo (RL) de TorchForge ahora son operables sin problemas en los Clusters Instantáneos de Together AI, ofreciendo un sólido soporte para entrenamiento distribuido, ejecución de herramientas y entornos aislados, como lo demuestra una demo de entrenamiento de BlackJack de código abierto, según together.ai.
La Nube Nativa de IA: Fundamento para el RL de Próxima Generación
En el campo de rápida evolución del aprendizaje por refuerzo, construir sistemas flexibles y escalables requiere marcos de computación y herramientas compatibles y eficientes. Las tuberías modernas de RL han trascendido los bucles básicos de entrenamiento, dependiendo ahora en gran medida de despliegues distribuidos, inferencia de alto rendimiento y un uso coordinado de recursos de CPU y GPU.
El completo stack de PyTorch, que incluye TorchForge y Monarch, ahora opera con capacidades de entrenamiento distribuido en los Clusters Instantáneos de Together. Estos clusters proporcionan:
- Comunicación GPU de baja latencia: Utilizando topologías InfiniBand/NVLink para transferencias de datos eficientes basadas en RDMA y mensajería de actores distribuida.
- Activación consistente de clusters: Preconfigurados con controladores, NCCL, CUDA y el operador GPU, permitiendo que los trabajos distribuidos de PyTorch se ejecuten sin configuración manual.
- Programación de cargas de trabajo RL heterogéneas: Nodos GPU optimizados para réplicas de políticas y entrenadores, junto con nodos optimizados para CPU para entorno y ejecución de herramientas.
Los clusters de Together AI son adecuadamente apropiados para marcos de RL que requieren una combinación de computación de modelos vinculados a GPU y cargas de trabajo de entorno vinculadas a CPU.
Integración Avanzada de Herramientas y Demostración
Una parte significativa de las cargas de trabajo de RL implica ejecutar herramientas, ejecutar código o interactuar con entornos aislados. La plataforma de Together AI admite de forma nativa estos requisitos a través de:
- Together CodeSandbox: Entornos MicroVM adaptados para uso de herramientas, tareas de codificación y simulaciones.
- Together Code Interpreter: Facilita la ejecución rápida y aislada de Python adecuada para funciones de recompensa basadas en pruebas unitarias o tareas de evaluación de código.
Tanto CodeSandbox como Code Interpreter se integran con los servicios de entorno OpenEnv y TorchForge, permitiendo a los trabajadores de despliegue utilizar estas herramientas durante el entrenamiento.
Demo de Entrenamiento de BlackJack
Together AI ha lanzado una demostración de una tubería RL de TorchForge ejecutándose en sus Clusters Instantáneos, interactuando con un entorno OpenEnv alojado en Together CodeSandbox. Esta demo, adaptada de una implementación de referencia de Meta, entrena un modelo Qwen 1.5B para jugar BlackJack usando GRPO. La tubería RL integra un servidor de políticas vLLM, entorno BlackJack, modelo de referencia, búfer de reproducción fuera de política y un entrenador TorchTitan, conectados a través de la malla de actores de Monarch y utilizando TorchStore para la sincronización de pesos.
El repositorio OpenEnv GRPO BlackJack incluye manifiestos de Kubernetes y scripts de configuración. La implementación e iniciación del entrenamiento se simplifican con simples comandos kubectl, permitiendo la experimentación con configuraciones de modelos y ajustes de hiperparámetros GRPO.
Además, una integración independiente envuelve el Code Interpreter de Together como un entorno OpenEnv, permitiendo a los agentes RL interactuar con el Intérprete como cualquier otro entorno. Esta integración permite que las tuberías RL se apliquen a diversas tareas como codificación y razonamiento matemático.
Las demostraciones destacan que el entrenamiento RL sofisticado y multicomponente puede realizarse en la Nube de Together AI con facilidad, preparando el escenario para un marco RL flexible y abierto en el ecosistema PyTorch, escalable en la Nube de Together AI.
Fuente de la imagen: Shutterstock
Fuente: https://blockchain.news/news/torchforge-rl-pipelines-operable-together-ai-cloud


