Postarea Google Reduce Memoria AI Fără Pierderi de Precizie—Dar Există o Capcană a apărut pe BitcoinEthereumNews.com. Pe scurt, Google a declarat că algoritmul său TurboQuant poatePostarea Google Reduce Memoria AI Fără Pierderi de Precizie—Dar Există o Capcană a apărut pe BitcoinEthereumNews.com. Pe scurt, Google a declarat că algoritmul său TurboQuant poate

Google reduce memoria AI fără pierdere de acuratețe—dar există un dezavantaj

2026/03/26 07:33
4 min de lectură
Pentru opinii sau preocupări cu privire la acest conținut, contactează-ne la crypto.news@mexc.com

Pe scurt

  • Google a declarat că algoritmul său TurboQuant poate reduce un blocaj major de memorie AI cu cel puțin șase ori, fără pierderi de precizie în timpul inferenței.
  • Acțiunile companiilor de memorie, inclusiv Micron, Western Digital și Seagate, au scăzut după ce lucrarea a fost publicată.
  • Metoda comprimă memoria de inferență, nu ponderile modelului, și a fost testată doar în testele de referință de cercetare.

Google Research a publicat miercuri TurboQuant, un algoritm de comprimare care reduce un blocaj major de memorie de inferență cu cel puțin 6x, menținând în același timp zero pierderi de precizie.

Lucrarea este programată pentru prezentare la ICLR 2026, iar reacția online a fost imediată.

CEO-ul Cloudflare, Matthew Prince, a numit-o momentul DeepSeek al Google. Prețurile acțiunilor de memorie, inclusiv Micron, Western Digital și Seagate, au scăzut în aceeași zi.

Deci este real?

Eficiența cuantificării este o realizare importantă în sine. Dar „zero pierderi de precizie" necesită context.

TurboQuant vizează memoria cache KV—secțiunea de memorie GPU care stochează tot ce trebuie să rețină un model de limbaj în timpul unei conversații.

Pe măsură ce ferestrele de context cresc către milioane de tokeni, aceste cache-uri se extind la sute de gigabiți per sesiune. Acesta este blocajul real. Nu puterea de calcul, ci memoria brută.

Metodele tradiționale de comprimare încearcă să reducă aceste cache-uri prin rotunjirea numerelor în jos—de exemplu, de la valori float de 32 de biți la 16, la 8 până la întregi de 4 biți. Pentru a înțelege mai bine, gândește-te la reducerea unei imagini de la 4K, la Full HD, la 720p și așa mai departe. Este ușor să spui că este aceeași imagine în general, dar există mai multe detalii în rezoluția 4K.

Problema: trebuie să stocheze „constante de cuantificare" suplimentare alături de datele comprimate pentru a preveni ca modelul să devină stupid. Aceste constante adaugă 1 până la 2 biți pe valoare, erodând parțial câștigurile.

TurboQuant susține că elimină complet această supraîncărcare.

Face acest lucru prin două sub-algoritmi. PolarQuant separă magnitudinea de direcție în vectori, iar QJL (Quantized Johnson-Lindenstrauss) ia eroarea reziduală minusculă rămasă și o reduce la un singur bit de semn, pozitiv sau negativ, cu zero constante stocate.

Rezultatul, spune Google, este un estimator matematic nepartinitor pentru calculele de atenție care conduc modelele transformer.

În testele de referință folosind Gemma și Mistral, TurboQuant a egalat performanța de precizie completă sub comprimare 4x, inclusiv precizie perfectă de recuperare în sarcinile needle-in-haystack până la 104 000 de tokeni.

Pentru context despre de ce contează aceste teste de referință, extinderea contextului utilizabil al unui model fără pierderi de calitate a fost una dintre cele mai dificile probleme în implementarea LLM.

Acum, detaliile importante.

„Zero pierderi de precizie" se aplică comprimării cache-ului KV în timpul inferenței—nu ponderilor modelului. Comprimarea ponderilor este o problemă complet diferită, mai dificilă. TurboQuant nu le atinge.

Ceea ce comprimă este memoria temporară care stochează calculele de atenție din mijlocul sesiunii, care este mai permisivă deoarece acele date pot fi teoretic reconstituite.

Există, de asemenea, diferența dintre un test de referință curat și un sistem de producție care deservește miliarde de solicitări. TurboQuant a fost testat pe modele open-source—Gemma, Mistral, Llama—nu pe propriul stack Gemini al Google la scară.

Spre deosebire de câștigurile de eficiență ale DeepSeek, care au necesitat decizii arhitecturale profunde integrate de la început, TurboQuant nu necesită nicio reantrenare sau ajustare fină și pretinde o supraîncărcare neglijabilă la runtime. În teorie, se integrează direct în pipeline-urile de inferență existente.

Aceasta este partea care a alarmat sectorul hardware de memorie—pentru că dacă funcționează în producție, fiecare laborator major de AI devine mai eficient pe aceleași GPU-uri pe care le dețin deja.

Lucrarea merge la ICLR 2026. Până când va fi implementată în producție, titlul „zero pierderi" rămâne în laborator.

Newsletter Daily Debrief

Începe fiecare zi cu cele mai importante știri de actualitate, plus reportaje originale, un podcast, videoclipuri și multe altele.

Sursă: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Oportunitate de piață
Logo Major
Pret Major (MAJOR)
$0.06532
$0.06532$0.06532
+0.44%
USD
Major (MAJOR) graficul prețurilor în timp real
Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează crypto.news@mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.