L'Entraînement Spectral Clairsemé (SST) introduit un cadre mathématiquement fondé pour optimiser les réseaux neuronaux en utilisant des décompositions spectrales de faible rang. En se concentrant sur la direction du gradient plutôt que sur l'échelle, SST réduit la charge de calcul tout en maintenant la stabilité d'apprentissage. L'article prouve une distorsion nulle avec l'initialisation SVD et une performance de gradient améliorée par rapport aux méthodes par défaut comme LoRA et HyboNet. Des expériences approfondies sur la traduction, la génération de langage et les réseaux neuronaux de graphes démontrent l'efficacité et la précision de SST, montrant sa promesse comme alternative évolutive à l'entraînement de rang complet.L'Entraînement Spectral Clairsemé (SST) introduit un cadre mathématiquement fondé pour optimiser les réseaux neuronaux en utilisant des décompositions spectrales de faible rang. En se concentrant sur la direction du gradient plutôt que sur l'échelle, SST réduit la charge de calcul tout en maintenant la stabilité d'apprentissage. L'article prouve une distorsion nulle avec l'initialisation SVD et une performance de gradient améliorée par rapport aux méthodes par défaut comme LoRA et HyboNet. Des expériences approfondies sur la traduction, la génération de langage et les réseaux neuronaux de graphes démontrent l'efficacité et la précision de SST, montrant sa promesse comme alternative évolutive à l'entraînement de rang complet.

Voici pourquoi les chercheurs en IA parlent de l'entraînement spectral clairsemé

2025/10/30 18:12

Abstrait et 1. Introduction

  1. Travaux Connexes

  2. Adaptation de Rang Faible

    3.1 LoRA et 3.2 Limitation de LoRA

    3.3 ReLoRA*

  3. Entraînement Spectral Sparse

    4.1 Préliminaires et 4.2 Mise à jour du gradient de U, VT avec Σ

    4.3 Pourquoi l'initialisation SVD est importante

    4.4 SST équilibre exploitation et exploration

    4.5 Implémentation économe en mémoire pour SST et 4.6 Sparsité de SST

  4. Expériences

    5.1 Traduction automatique

    5.2 Génération de langage naturel

    5.3 Réseaux de neurones graphiques hyperboliques

  5. Conclusion et Discussion

  6. Impacts plus larges et Références

Informations Supplémentaires

A. Algorithme d'Entraînement Spectral Sparse

B. Preuve du Gradient de la Couche Spectrale Sparse

C. Preuve de la Décomposition du Gradient du Poids

D. Preuve de l'Avantage du Gradient Amélioré sur le Gradient par Défaut

E. Preuve de Distorsion Zéro avec Initialisation SVD

F. Détails des Expériences

G. Élagage des Valeurs Singulières

H. Évaluation de SST et GaLore : Approches Complémentaires pour l'Efficacité de la Mémoire

I. Étude d'Ablation

A Algorithme d'Entraînement Spectral Sparse

B Preuve du Gradient de la Couche Spectrale Sparse

Nous pouvons exprimer le différentiel de W comme la somme des différentiels :

\ \

\ \ Nous avons la règle de chaîne pour le gradient de W :

\ \

\ \ \

\

C Preuve de la Décomposition du Gradient du Poids

\

\

D Preuve de l'Avantage du Gradient Amélioré sur le Gradient par Défaut

\

\ \ \

\ \ \

\ \ Comme seule la direction de la mise à jour compte, l'échelle de la mise à jour peut être ajustée en modifiant le taux d'apprentissage. Nous mesurons la similarité en utilisant la norme de Frobenius des différences entre les mises à jour SST et 3 fois la mise à jour de rang complet.

\ \

\

E Preuve de Distorsion Zéro avec Initialisation SVD

\

F Détails des Expériences

F.1 Détails d'Implémentation pour SST

\

\ \ \

\

F.2 Hyperparamètres de la Traduction Automatique

IWSLT'14. Les hyperparamètres se trouvent dans le Tableau 6. Nous utilisons la même base de code et les mêmes hyperparamètres que ceux utilisés dans HyboNet [12], qui est dérivé d'OpenNMT-py [54]. Le point de contrôle final du modèle est utilisé pour l'évaluation. La recherche en faisceau, avec une taille de faisceau de 2, est employée pour optimiser le processus d'évaluation. Les expériences ont été menées sur un GPU A100.

\ Pour SST, le nombre d'étapes par itération (T3) est fixé à 200. Chaque itération commence par une phase de préchauffage durant 20 étapes. Le nombre d'itérations par tour (T2) est déterminé par la formule T2 = d/r, où d représente la dimension d'intégration et r désigne le rang utilisé dans SST.

\ \ Tableau 6: Hyperparamètres sur IWSLT'14 pour Transformer euclidien et hyperbolique.

\ \ \

\ \ Pour SST, le nombre d'étapes par itération (T3) est fixé à 200 pour Multi30K et 400 pour IWSLT'17. Chaque itération commence par une phase de préchauffage durant 20 étapes. Le nombre d'itérations par tour (T2) est déterminé par la formule T2 = d/r, où d représente la dimension d'intégration et r désigne le rang utilisé dans SST

F.3 Hyperparamètres de la Génération de Langage Naturel

Les hyperparamètres de nos expériences sont détaillés dans le Tableau 8. Nous employons un préchauffage linéaire de 2000 étapes suivi d'un taux d'apprentissage stable, sans décroissance. Un taux d'apprentissage plus élevé (0,001) est utilisé uniquement pour les paramètres de rang faible (U, VT et Σ pour SST, B et A pour LoRA et ReLoRA*. Le total des jetons d'entraînement pour chaque expérience est de 19,7 milliards, soit environ 2 époques d'OpenWebText. L'entraînement distribué est facilité par la bibliothèque Accelerate [55] sur quatre GPU A100 sur un serveur Linux.

\ Pour SST, le nombre d'étapes par itération (T3) est fixé à 200. Chaque itération commence par une phase de préchauffage durant 20 étapes. Le nombre d'itérations par tour (T2) est déterminé par la formule T2 = d/r, où d représente la dimension d'intégration et r désigne le rang utilisé dans SST.

\ \ Tableau 7: Hyperparamètres sur Multi30K et IWSLT'17 pour Transformer vanilla.

\ \ \ Tableau 8: Hyperparamètres pour les modèles OPT

\

F.4 Hyperparamètres des Réseaux de Neurones Graphiques Hyperboliques

Nous utilisons HyboNet [12] comme modèle de rang complet, avec les mêmes hyperparamètres que ceux utilisés dans HyboNet. Les expériences ont été menées sur un GPU A100.

\ Pour SST, le nombre d'étapes par itération (T3) est fixé à 100. Chaque itération commence par une phase de préchauffage durant 100 étapes. Le nombre d'itérations par tour (T2) est déterminé par la formule T2 = d/r, où d représente la dimension d'intégration et r désigne le rang utilisé dans SST.

\ Nous fixons le taux de dropout à 0,5 pour les méthodes LoRA et SST pendant la tâche de classification des nœuds sur le jeu de données Cora. C'est la seule déviation par rapport à la configuration HyboNet.

\ \ \

:::info Auteurs :

(1) Jialin Zhao, Centre d'Intelligence des Réseaux Complexes (CCNI), Laboratoire Tsinghua du Cerveau et de l'Intelligence (THBI) et Département d'Informatique ;

(2) Yingtao Zhang, Centre d'Intelligence des Réseaux Complexes (CCNI), Laboratoire Tsinghua du Cerveau et de l'Intelligence (THBI) et Département d'Informatique ;

(3) Xinghang Li, Département d'Informatique ;

(4) Huaping Liu, Département d'Informatique ;

(5) Carlo Vittorio Cannistraci, Centre d'Intelligence des Réseaux Complexes (CCNI), Laboratoire Tsinghua du Cerveau et de l'Intelligence (THBI), Département d'Informatique et Département de Génie Biomédical, Université Tsinghua, Pékin, Chine.

:::


:::info Cet article est disponible sur arxiv sous licence CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.
Partager des idées

Vous aimerez peut-être aussi

Une Autre Entreprise Cotée au Nasdaq Annonce un Achat Massif de Bitcoin (BTC) ! Devient la 14e Plus Grande Entreprise ! – Ils Investiront Également dans une Altcoin Liée à Trump !

Une Autre Entreprise Cotée au Nasdaq Annonce un Achat Massif de Bitcoin (BTC) ! Devient la 14e Plus Grande Entreprise ! – Ils Investiront Également dans une Altcoin Liée à Trump !

L'article Une autre entreprise cotée au Nasdaq annonce un achat massif de Bitcoin (BTC) ! Devient la 14e plus grande entreprise ! - Ils investiront également dans une altcoin liée à Trump ! est apparu sur BitcoinEthereumNews.com. Alors que le nombre d'entreprises détenant des réserves de Bitcoin (BTC) continue d'augmenter jour après jour, une autre entreprise cotée au Nasdaq a annoncé son achat de BTC. En conséquence, la société de diffusion en direct et de commerce électronique GD Culture Group a annoncé un accord d'achat de Bitcoin de 787,5 millions de dollars. Selon le communiqué officiel, GD Culture Group a annoncé avoir conclu un accord d'actions pour acquérir des actifs d'une valeur de 875 millions de dollars, comprenant 7 500 Bitcoins, auprès de Pallas Capital Holding, une société enregistrée dans les îles Vierges britanniques. GD Culture émettra environ 39,2 millions d'actions ordinaires en échange de tous les actifs de Pallas Capital, y compris 875,4 millions de dollars de Bitcoin. Le PDG de GD Culture, Xiaojian Wang, a déclaré que l'accord d'acquisition soutiendra directement le plan de l'entreprise visant à constituer une réserve d'actifs cryptographiques solide et diversifiée tout en capitalisant sur l'acceptation institutionnelle croissante du Bitcoin comme actif de réserve et réserve de valeur. Avec cette acquisition, GD Culture devrait devenir la 14e plus grande entreprise cotée en bourse détenant du Bitcoin. Le nombre d'entreprises adoptant des stratégies de trésorerie Bitcoin a considérablement augmenté, dépassant 190 d'ici 2025. Immédiatement après l'annonce de l'accord, les actions de GD Culture ont chuté de 28,16 % à 6,99 $, leur plus forte baisse en un an. Comme vous vous en souvenez peut-être également, GD Culture a annoncé en mai qu'elle créerait une réserve de cryptomonnaies. À ce stade, l'entreprise a annoncé qu'elle prévoyait d'investir dans Bitcoin et dans le meme coin officiel du président Donald Trump, le token TRUMP, par le biais de l'émission d'actions pouvant atteindre 300 millions de dollars. *Ceci n'est pas un conseil en investissement. Suivez maintenant notre compte Telegram et Twitter pour des nouvelles exclusives, des analyses et des données on-chain ! Source : https://en.bitcoinsistemi.com/another-nasdaq-listed-company-announces-massive-bitcoin-btc-purchase-becomes-14th-largest-company-theyll-also-invest-in-trump-linked-altcoin/
Partager
BitcoinEthereumNews2025/09/18 04:06