Tony Kim
23 de diciembre de 2025 21:56
Character.ai revela métodos innovadores para optimizar el preentrenamiento a gran escala, enfocándose en técnicas como Squinch, sujeción dinámica y Gumbel Softmax, para mejorar la eficiencia en el entrenamiento de modelos de IA.
Character.ai, un actor notable en el espacio de la IA, ha compartido recientemente información sobre sus esfuerzos iniciales para optimizar el entrenamiento de transformers a gran escala. La compañía, que desde entonces ha cambiado su enfoque hacia fundaciones de modelos de código abierto, originalmente exploró diversas técnicas para mejorar la eficiencia y velocidad del entrenamiento, según el Blog de Character.AI.
Compresión de Gradiente: Squinch
Una de las innovaciones clave destacadas en los esfuerzos de Character.ai es un algoritmo de compresión de gradiente conocido como Squinch. Desarrollado por el cofundador Noam Shazeer, esta técnica de compresión de 6 bits fue diseñada para reducir significativamente el ancho de banda de comunicación durante el entrenamiento distribuido mientras se mantiene la precisión del modelo. El algoritmo comprime efectivamente los gradientes a 6 bits por elemento, optimizando el uso del ancho de banda de los clústeres de entrenamiento.
Regularización de Precisión: Attention Z-Reg
Character.ai también desarrolló Attention Z-Reg, un método de regularización aplicado a los logits de atención para garantizar la estabilidad numérica. Esta técnica ayuda a mantener la precisión de las representaciones bfloat16, crucial para optimizar el entrenamiento de modelos grandes.
Estabilidad de Cuantización: Sujeción Dinámica
La Sujeción Dinámica es otra técnica empleada para mejorar la estabilidad de cuantización. Previene que los valores de activación pequeños colapsen a cero al calcular dinámicamente el rango de sujeción basado en la raíz cuadrada media de los pesos de entrada. Este método mejora la estabilidad del entrenamiento al reducir los errores de cuantización.
API de Atención Eficiente: Visibility Mask
La introducción del Visibility Mask, una herramienta para representar relaciones entre tokens durante el entrenamiento y la inferencia, ha mejorado la eficiencia de los sistemas de entrenamiento. Esta API ayuda a gestionar rangos de atención dentro de lotes, soportando relaciones de documentos estructurados en árbol y atención bidireccional.
Optimización de Destilación: Gumbel Softmax
En el ámbito de la destilación de modelos, Character.ai ha aprovechado la técnica Gumbel Softmax para reducir los costos de almacenamiento y ancho de banda mientras mantiene la fidelidad de los modelos maestros. Este enfoque implica muestrear subconjuntos de salidas del modelo maestro, preservando valores objetivo suaves para un entrenamiento más eficiente del modelo estudiante.
Los esfuerzos de Character.ai en optimizar el preentrenamiento han allanado el camino para un entrenamiento de modelos de IA más eficiente, incluso mientras la compañía se orienta hacia el aprendizaje por refuerzo post-entrenamiento para modelos de código abierto. Estas técnicas, incluyendo Squinch y Gumbel Softmax, subrayan el compromiso de la compañía con el avance de la eficiencia y escalabilidad de la IA.
Fuente de imagen: Shutterstock
Fuente: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

