Tony Kim
23 grudnia 2025 21:56
Character.ai ujawnia innowacyjne metody optymalizacji wstępnego treningu na dużą skalę, koncentrując się na technikach takich jak Squinch, dynamiczne ograniczanie i Gumbel Softmax, w celu zwiększenia efektywności treningu modeli AI.
Character.ai, znaczący gracz w przestrzeni AI, niedawno podzielił się spostrzeżeniami dotyczącymi swoich wczesnych wysiłków w optymalizacji treningu transformerów na dużą skalę. Firma, która od tego czasu przesunęła swoją uwagę na fundamenty modeli open-source, pierwotnie badała różne techniki w celu zwiększenia wydajności i szybkości treningu, zgodnie z blogiem Character.AI.
Kompresja gradientu: Squinch
Jedną z kluczowych innowacji podkreślonych w wysiłkach Character.ai jest algorytm kompresji gradientu znany jako Squinch. Opracowana przez współzałożyciela Noama Shazeera, ta technika kompresji 6-bitowej została zaprojektowana w celu znacznego zmniejszenia przepustowości komunikacji podczas treningu rozproszonego przy jednoczesnym zachowaniu dokładności modelu. Algorytm skutecznie kompresuje gradienty do 6 bitów na element, optymalizując wykorzystanie przepustowości klastrów treningowych.
Regularyzacja precyzji: Attention Z-Reg
Character.ai opracował również Attention Z-Reg, metodę regularyzacji stosowaną do logitów uwagi w celu zapewnienia stabilności numerycznej. Technika ta pomaga zachować precyzję reprezentacji bfloat16, co jest kluczowe dla optymalizacji treningu dużych modeli.
Stabilność kwantyzacji: Dynamic Clamping
Dynamic Clamping to kolejna technika wykorzystywana do zwiększenia stabilności kwantyzacji. Zapobiega ona zapadaniu się małych wartości aktywacji do zera poprzez dynamiczne obliczanie zakresu ograniczania na podstawie pierwiastka średniego kwadratu wag wejściowych. Metoda ta poprawia stabilność treningu poprzez redukcję błędów kwantyzacji.
Wydajne API uwagi: Visibility Mask
Wprowadzenie Visibility Mask, narzędzia do reprezentowania relacji między tokenami podczas treningu i wnioskowania, poprawiło wydajność systemów treningowych. To API pomaga zarządzać zakresami uwagi w ramach partii, wspierając relacje dokumentów w strukturze drzewa i uwagę dwukierunkową.
Optymalizacja destylacji: Gumbel Softmax
W dziedzinie destylacji modeli Character.ai wykorzystał technikę Gumbel Softmax w celu zmniejszenia kosztów przechowywania i przepustowości przy jednoczesnym zachowaniu wierności modeli nauczycielskich. To podejście obejmuje próbkowanie podzbiorów wyników modelu nauczycielskiego, zachowując miękkie wartości docelowe dla bardziej efektywnego treningu modelu ucznia.
Wysiłki Character.ai w optymalizacji wstępnego treningu utorowały drogę do bardziej efektywnego treningu modeli AI, nawet gdy firma przechodzi w kierunku uczenia ze wzmocnieniem po treningu dla modeli open-source. Te techniki, w tym Squinch i Gumbel Softmax, podkreślają zaangażowanie firmy w rozwój efektywności i skalowalności AI.
Źródło obrazu: Shutterstock
Źródło: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


