Tony Kim
23 décembre 2025 21h56
Character.ai révèle des méthodes innovantes pour optimiser le préentraînement à grande échelle, en se concentrant sur des techniques telles que Squinch, le bridage dynamique et Gumbel Softmax, afin d'améliorer l'efficacité de l'entraînement des modèles d'IA.
Character.ai, un acteur notable dans le domaine de l'IA, a récemment partagé des informations sur ses premiers efforts pour optimiser l'entraînement des transformers à grande échelle. L'entreprise, qui a depuis réorienté son attention vers les fondations de modèles open-source, a initialement exploré diverses techniques pour améliorer l'efficacité et la vitesse d'entraînement, selon le blog de Character.AI.
Compression de gradient : Squinch
L'une des innovations clés mises en avant dans les efforts de Character.ai est un algorithme de compression de gradient connu sous le nom de Squinch. Développée par le cofondateur Noam Shazeer, cette technique de compression 6 bits a été conçue pour réduire considérablement la bande passante de communication lors de l'entraînement distribué tout en maintenant la précision du modèle. L'algorithme compresse efficacement les gradients à 6 bits par élément, optimisant ainsi l'utilisation de la bande passante des clusters d'entraînement.
Régularisation de précision : Attention Z-Reg
Character.ai a également développé Attention Z-Reg, une méthode de régularisation appliquée aux logits d'attention pour assurer la stabilité numérique. Cette technique aide à maintenir la précision des représentations bfloat16, cruciale pour optimiser l'entraînement de grands modèles.
Stabilité de quantification : Bridage dynamique
Le bridage dynamique est une autre technique employée pour améliorer la stabilité de quantification. Il empêche les petites valeurs d'activation de s'effondrer à zéro en calculant dynamiquement la plage de bridage en fonction de la racine carrée moyenne des poids d'entrée. Cette méthode améliore la stabilité de l'entraînement en réduisant les erreurs de quantification.
API d'attention efficace : Masque de visibilité
L'introduction du masque de visibilité, un outil pour représenter les relations entre tokens pendant l'entraînement et l'inférence, a amélioré l'efficacité des systèmes d'entraînement. Cette API aide à gérer les plages d'attention au sein des lots, en prenant en charge les relations de documents structurés en arbre et l'attention bidirectionnelle.
Optimisation de la distillation : Gumbel Softmax
Dans le domaine de la distillation de modèles, Character.ai a exploité la technique Gumbel Softmax pour réduire les coûts de stockage et de bande passante tout en maintenant la fidélité des modèles enseignants. Cette approche implique l'échantillonnage de sous-ensembles de sorties de modèles enseignants, préservant les valeurs cibles douces pour un entraînement de modèle étudiant plus efficace.
Les efforts de Character.ai pour optimiser le préentraînement ont ouvert la voie à un entraînement de modèles d'IA plus efficace, même si l'entreprise s'oriente vers l'apprentissage par renforcement post-entraînement pour les modèles open-source. Ces techniques, notamment Squinch et Gumbel Softmax, soulignent l'engagement de l'entreprise à faire progresser l'efficacité et l'évolutivité de l'IA.
Source de l'image : Shutterstock
Source : https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


