Google zmniejsza pamięć AI bez utraty dokładności — ale jest haczyk

W skrócie

Google oświadczył, że jego algorytm TurboQuant może zmniejszyć główne wąskie gardło pamięci AI co najmniej sześciokrotnie bez utraty dokładności podczas wnioskowania.
Akcje firm produkujących pamięć, w tym Micron, Western Digital i Seagate, spadły po opublikowaniu artykułu.
Metoda kompresuje pamięć wnioskowania, a nie wagi modelu, i została przetestowana jedynie w testach badawczych.

Google Research opublikował w środę TurboQuant, algorytm kompresji, który zmniejsza główne wąskie gardło pamięci wnioskowania co najmniej 6-krotnie, zachowując przy tym zerową utratę dokładności.

Artykuł ma zostać zaprezentowany na ICLR 2026, a reakcje online były natychmiastowe.

CEO Cloudflare Matthew Prince nazwał to momentem DeepSeek dla Google. Ceny akcji firm produkujących pamięć, w tym Micron, Western Digital i Seagate, spadły tego samego dnia.

Czy to prawda?

Efektywność kwantyzacji sama w sobie jest dużym osiągnięciem. Ale "zerowa utrata dokładności" wymaga kontekstu.

TurboQuant celuje w pamięć podręczną KV — fragment pamięci GPU, który przechowuje wszystko, co model językowy musi zapamiętać podczas rozmowy.

Wraz ze wzrostem okien kontekstowych do milionów tokenów, te pamięci podręczne rozrastają się do setek gigabajtów na sesję. To właśnie jest rzeczywiste wąskie gardło. Nie moc obliczeniowa, ale surowa pamięć.

Tradycyjne metody kompresji próbują zmniejszyć te pamięci podręczne poprzez zaokrąglanie liczb w dół — na przykład z 32-bitowych liczb zmiennoprzecinkowych do 16, do 8, do 4-bitowych liczb całkowitych. Aby lepiej to zrozumieć, pomyśl o zmniejszaniu obrazu z 4K, do full HD, do 720p i tak dalej. Łatwo stwierdzić, że to ogólnie ten sam obraz, ale w rozdzielczości 4K jest więcej szczegółów.

Problem polega na tym, że muszą przechowywać dodatkowe "stałe kwantyzacji" obok skompresowanych danych, aby model nie działał bezsensownie. Te stałe dodają od 1 do 2 bitów na wartość, częściowo erodując zyski.

TurboQuant twierdzi, że całkowicie eliminuje ten narzut.

Robi to za pomocą dwóch podalgorytmów. PolarQuant oddziela wielkość od kierunku w wektorach, a QJL (Quantized Johnson-Lindenstrauss) bierze drobny błąd resztkowy, który pozostaje, i redukuje go do pojedynczego bitu znaku, dodatniego lub ujemnego, z zerowymi przechowywanymi stałymi.

Rezultatem, jak mówi Google, jest matematycznie nieobciążony estymator dla obliczeń uwagi, które napędzają modele transformatorowe.

W testach porównawczych używających Gemma i Mistral, TurboQuant dorównał wydajności pełnej precyzji przy 4-krotnej kompresji, w tym idealnej dokładności wyszukiwania w zadaniach typu igła w stogu siana do 104 000 tokenów.

Dla kontekstu, dlaczego te testy porównawcze mają znaczenie, rozszerzanie użytecznego kontekstu modelu bez utraty jakości było jednym z najtrudniejszych problemów we wdrażaniu LLM.

Teraz drobny druk.

"Zerowa utrata dokładności" dotyczy kompresji pamięci podręcznej KV podczas wnioskowania — nie wag modelu. Kompresowanie wag to zupełnie inny, trudniejszy problem. TurboQuant ich nie dotyka.

To, co kompresuje, to tymczasowa pamięć przechowująca obliczenia uwagi w trakcie sesji, co jest bardziej wybaczalne, ponieważ te dane teoretycznie można zrekonstruować.

Jest też różnica między czystym testem porównawczym a systemem produkcyjnym obsługującym miliardy żądań. TurboQuant został przetestowany na modelach open-source — Gemma, Mistral, Llama — nie na własnym stosie Gemini Google na dużą skalę.

W przeciwieństwie do zysków efektywności DeepSeek, które wymagały głębokich decyzji architektonicznych wbudowanych od początku, TurboQuant nie wymaga ponownego trenowania ani dostrajania i twierdzi, że ma znikomy narzut w czasie wykonywania. Teoretycznie, wchodzi wprost do istniejących rurociągów wnioskowania.

To jest część, która przestraszyła sektor sprzętu pamięci — ponieważ jeśli to działa w produkcji, każde główne laboratorium AI działa oszczędniej na tych samych GPU, które już posiadają.

Artykuł trafia do ICLR 2026. Dopóki nie zostanie wdrożony w produkcji, nagłówek "zerowa strata" pozostaje w laboratorium.

Biuletyn Codzienny

Rozpocznij każdy dzień od najważniejszych wiadomości, plus oryginalne materiały, podcast, filmy i więcej.

Źródło: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Google zmniejsza pamięć AI bez utraty dokładności — ale jest haczyk

W skrócie

Czy to prawda?

Biuletyn Codzienny

Możesz także polubić

Przejęcie BVNK przez Mastercard połączy płatności kryptowalutowe i fiat

Kolejna kryptowaluta do eksplozji, gdy CME otwiera całodobowe kontrakty futures, a przedsprzedaż Pepeto przekracza 8 mln USD

Zwolnienie SEC z tokenizacji: Przełomowa zmiana regulacyjna może nastąpić w ciągu kilku tygodni

Popularne wiadomości

Przejęcie BVNK przez Mastercard połączy płatności kryptowalutowe i fiat

Kolejna kryptowaluta do eksplozji, gdy CME otwiera całodobowe kontrakty futures, a przedsprzedaż Pepeto przekracza 8 mln USD

Zwolnienie SEC z tokenizacji: Przełomowa zmiana regulacyjna może nastąpić w ciągu kilku tygodni

Konflikt na Bliskim Wschodzie stwarza ryzyko inflacji i zagrożenia gospodarcze

Dan Matuszewski: Napięcia geopolityczne napędzają zmienność rynku towarowego, Rezerwa Federalna prawdopodobnie obniży stopy procentowe przed wyborami, a cena Bitcoina może wzrosnąć powyżej 72 000 USD

Ceny kryptowalut