Google reduce memoria AI fără pierdere de acuratețe—dar există un dezavantaj

Pe scurt

Google a declarat că algoritmul său TurboQuant poate reduce un blocaj major de memorie AI cu cel puțin șase ori, fără pierderi de precizie în timpul inferenței.
Acțiunile companiilor de memorie, inclusiv Micron, Western Digital și Seagate, au scăzut după ce lucrarea a fost publicată.
Metoda comprimă memoria de inferență, nu ponderile modelului, și a fost testată doar în testele de referință de cercetare.

Google Research a publicat miercuri TurboQuant, un algoritm de comprimare care reduce un blocaj major de memorie de inferență cu cel puțin 6x, menținând în același timp zero pierderi de precizie.

Lucrarea este programată pentru prezentare la ICLR 2026, iar reacția online a fost imediată.

CEO-ul Cloudflare, Matthew Prince, a numit-o momentul DeepSeek al Google. Prețurile acțiunilor de memorie, inclusiv Micron, Western Digital și Seagate, au scăzut în aceeași zi.

Deci este real?

Eficiența cuantificării este o realizare importantă în sine. Dar „zero pierderi de precizie" necesită context.

TurboQuant vizează memoria cache KV—secțiunea de memorie GPU care stochează tot ce trebuie să rețină un model de limbaj în timpul unei conversații.

Pe măsură ce ferestrele de context cresc către milioane de tokeni, aceste cache-uri se extind la sute de gigabiți per sesiune. Acesta este blocajul real. Nu puterea de calcul, ci memoria brută.

Metodele tradiționale de comprimare încearcă să reducă aceste cache-uri prin rotunjirea numerelor în jos—de exemplu, de la valori float de 32 de biți la 16, la 8 până la întregi de 4 biți. Pentru a înțelege mai bine, gândește-te la reducerea unei imagini de la 4K, la Full HD, la 720p și așa mai departe. Este ușor să spui că este aceeași imagine în general, dar există mai multe detalii în rezoluția 4K.

Problema: trebuie să stocheze „constante de cuantificare" suplimentare alături de datele comprimate pentru a preveni ca modelul să devină stupid. Aceste constante adaugă 1 până la 2 biți pe valoare, erodând parțial câștigurile.

TurboQuant susține că elimină complet această supraîncărcare.

Face acest lucru prin două sub-algoritmi. PolarQuant separă magnitudinea de direcție în vectori, iar QJL (Quantized Johnson-Lindenstrauss) ia eroarea reziduală minusculă rămasă și o reduce la un singur bit de semn, pozitiv sau negativ, cu zero constante stocate.

Rezultatul, spune Google, este un estimator matematic nepartinitor pentru calculele de atenție care conduc modelele transformer.

În testele de referință folosind Gemma și Mistral, TurboQuant a egalat performanța de precizie completă sub comprimare 4x, inclusiv precizie perfectă de recuperare în sarcinile needle-in-haystack până la 104 000 de tokeni.

Pentru context despre de ce contează aceste teste de referință, extinderea contextului utilizabil al unui model fără pierderi de calitate a fost una dintre cele mai dificile probleme în implementarea LLM.

Acum, detaliile importante.

„Zero pierderi de precizie" se aplică comprimării cache-ului KV în timpul inferenței—nu ponderilor modelului. Comprimarea ponderilor este o problemă complet diferită, mai dificilă. TurboQuant nu le atinge.

Ceea ce comprimă este memoria temporară care stochează calculele de atenție din mijlocul sesiunii, care este mai permisivă deoarece acele date pot fi teoretic reconstituite.

Există, de asemenea, diferența dintre un test de referință curat și un sistem de producție care deservește miliarde de solicitări. TurboQuant a fost testat pe modele open-source—Gemma, Mistral, Llama—nu pe propriul stack Gemini al Google la scară.

Spre deosebire de câștigurile de eficiență ale DeepSeek, care au necesitat decizii arhitecturale profunde integrate de la început, TurboQuant nu necesită nicio reantrenare sau ajustare fină și pretinde o supraîncărcare neglijabilă la runtime. În teorie, se integrează direct în pipeline-urile de inferență existente.

Aceasta este partea care a alarmat sectorul hardware de memorie—pentru că dacă funcționează în producție, fiecare laborator major de AI devine mai eficient pe aceleași GPU-uri pe care le dețin deja.

Lucrarea merge la ICLR 2026. Până când va fi implementată în producție, titlul „zero pierderi" rămâne în laborator.

Newsletter Daily Debrief

Începe fiecare zi cu cele mai importante știri de actualitate, plus reportaje originale, un podcast, videoclipuri și multe altele.

Sursă: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Google reduce memoria AI fără pierdere de acuratețe—dar există un dezavantaj

Pe scurt

Deci este real?

Newsletter Daily Debrief

Poate îți place și

Achiziția BVNK de către Mastercard va conecta plățile cripto și fiat

Următoarea Criptovălută care Va Exploda pe măsură ce CME Deschide Futures 24/7 și Prevânzarea Pepeto Depășește 8 Milioane $

Excepție SEC pentru Tokenizare: Schimbare Regulatorie Revoluționară Ar Putea Surveni în Câteva Săptămâni

Știri în tendințe

Achiziția BVNK de către Mastercard va conecta plățile cripto și fiat

Următoarea Criptovălută care Va Exploda pe măsură ce CME Deschide Futures 24/7 și Prevânzarea Pepeto Depășește 8 Milioane $

Excepție SEC pentru Tokenizare: Schimbare Regulatorie Revoluționară Ar Putea Surveni în Câteva Săptămâni

Conflictul din Orientul Mijlociu prezintă riscuri de inflație și economice

Dan Matuszewski: Tensiunile geopolitice generează volatilitate pe piața mărfurilor, Rezerva Federală este probabil să reducă ratele dobânzilor înainte de alegeri, iar prețul Bitcoin-ului ar putea depăși 72.000$

Prețuri cripto