Character.ai dévoile des techniques efficaces pour le pré-entraînement à grande échelle

Tony Kim
23 décembre 2025 21h56

Character.ai révèle des méthodes innovantes pour optimiser le préentraînement à grande échelle, en se concentrant sur des techniques telles que Squinch, le bridage dynamique et Gumbel Softmax, afin d'améliorer l'efficacité de l'entraînement des modèles d'IA.

Character.ai, un acteur notable dans le domaine de l'IA, a récemment partagé des informations sur ses premiers efforts pour optimiser l'entraînement des transformers à grande échelle. L'entreprise, qui a depuis réorienté son attention vers les fondations de modèles open-source, a initialement exploré diverses techniques pour améliorer l'efficacité et la vitesse d'entraînement, selon le blog de Character.AI.

Compression de gradient : Squinch

L'une des innovations clés mises en avant dans les efforts de Character.ai est un algorithme de compression de gradient connu sous le nom de Squinch. Développée par le cofondateur Noam Shazeer, cette technique de compression 6 bits a été conçue pour réduire considérablement la bande passante de communication lors de l'entraînement distribué tout en maintenant la précision du modèle. L'algorithme compresse efficacement les gradients à 6 bits par élément, optimisant ainsi l'utilisation de la bande passante des clusters d'entraînement.

Régularisation de précision : Attention Z-Reg

Character.ai a également développé Attention Z-Reg, une méthode de régularisation appliquée aux logits d'attention pour assurer la stabilité numérique. Cette technique aide à maintenir la précision des représentations bfloat16, cruciale pour optimiser l'entraînement de grands modèles.

Stabilité de quantification : Bridage dynamique

Le bridage dynamique est une autre technique employée pour améliorer la stabilité de quantification. Il empêche les petites valeurs d'activation de s'effondrer à zéro en calculant dynamiquement la plage de bridage en fonction de la racine carrée moyenne des poids d'entrée. Cette méthode améliore la stabilité de l'entraînement en réduisant les erreurs de quantification.

API d'attention efficace : Masque de visibilité

L'introduction du masque de visibilité, un outil pour représenter les relations entre tokens pendant l'entraînement et l'inférence, a amélioré l'efficacité des systèmes d'entraînement. Cette API aide à gérer les plages d'attention au sein des lots, en prenant en charge les relations de documents structurés en arbre et l'attention bidirectionnelle.

Optimisation de la distillation : Gumbel Softmax

Dans le domaine de la distillation de modèles, Character.ai a exploité la technique Gumbel Softmax pour réduire les coûts de stockage et de bande passante tout en maintenant la fidélité des modèles enseignants. Cette approche implique l'échantillonnage de sous-ensembles de sorties de modèles enseignants, préservant les valeurs cibles douces pour un entraînement de modèle étudiant plus efficace.

Les efforts de Character.ai pour optimiser le préentraînement ont ouvert la voie à un entraînement de modèles d'IA plus efficace, même si l'entreprise s'oriente vers l'apprentissage par renforcement post-entraînement pour les modèles open-source. Ces techniques, notamment Squinch et Gumbel Softmax, soulignent l'engagement de l'entreprise à faire progresser l'efficacité et l'évolutivité de l'IA.

Source de l'image : Shutterstock

Source : https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Character.ai dévoile des techniques efficaces pour le pré-entraînement à grande échelle

Compression de gradient : Squinch

Régularisation de précision : Attention Z-Reg

Stabilité de quantification : Bridage dynamique

API d'attention efficace : Masque de visibilité

Optimisation de la distillation : Gumbel Softmax

Vous aimerez peut-être aussi

Les États-Unis prévoient d'imposer des tarifs douaniers sur les importations de semi-conducteurs chinois d'ici juin 2027

Comment créer des onglets personnalisés sur la page de compte et organiser les informations utilisateur dans WooCommerce

21Shares va de l'avant avec l'ETF TDOG malgré la stagnation du fonds DOGE

Actualités tendance

Les États-Unis prévoient d'imposer des tarifs douaniers sur les importations de semi-conducteurs chinois d'ici juin 2027

Comment créer des onglets personnalisés sur la page de compte et organiser les informations utilisateur dans WooCommerce

21Shares va de l'avant avec l'ETF TDOG malgré la stagnation du fonds DOGE

La Russie dévoile un nouveau cadre réglementaire pour les crypto-monnaies destiné aux investisseurs particuliers et qualifiés

Les rachats de Pump.fun ne parviennent pas à soutenir le prix de PUMP face à la pression de vente des baleines

Prix des cryptomonnaies