Google reduce la memoria de IA sin pérdida de precisión, pero hay una trampa

En resumen

Google afirmó que su algoritmo TurboQuant puede reducir un importante cuello de botella de memoria de IA en al menos seis veces sin pérdida de precisión durante la inferencia.
Las acciones de memoria, incluidas Micron, Western Digital y Seagate, cayeron después de que circulara el artículo.
El método comprime la memoria de inferencia, no los pesos del modelo, y solo se ha probado en benchmarks de investigación.

Google Research publicó TurboQuant el miércoles, un algoritmo de compresión que reduce un importante cuello de botella de memoria de inferencia en al menos 6 veces mientras mantiene cero pérdida de precisión.

El artículo está programado para presentarse en ICLR 2026, y la reacción en línea fue inmediata.

El CEO de Cloudflare, Matthew Prince, lo llamó el momento DeepSeek de Google. Los precios de las acciones de memoria, incluidas Micron, Western Digital y Seagate, cayeron el mismo día.

Entonces, ¿es real?

La eficiencia de cuantización es un gran logro por sí misma. Pero "cero pérdida de precisión" necesita contexto.

TurboQuant se dirige a la caché KV, el fragmento de memoria de GPU que almacena todo lo que un modelo de lenguaje necesita recordar durante una conversación.

A medida que las ventanas de contexto crecen hacia millones de tokens, esas cachés se expanden a cientos de gigabytes por sesión. Ese es el cuello de botella real. No la potencia de cómputo, sino la memoria en bruto.

Los métodos de compresión tradicionales intentan reducir esas cachés redondeando números hacia abajo, por ejemplo, de flotantes de 32 bits a 16, a 8 a enteros de 4 bits. Para entenderlo mejor, piense en reducir una imagen de 4K, a Full HD, a 720p y así sucesivamente. Es fácil decir que es la misma imagen en general, pero hay más detalle en resolución 4K.

El problema: tienen que almacenar "constantes de cuantización" adicionales junto con los datos comprimidos para evitar que el modelo se vuelva estúpido. Esas constantes agregan de 1 a 2 bits por valor, erosionando parcialmente las ganancias.

TurboQuant afirma que elimina ese overhead por completo.

Lo hace a través de dos subalgoritmos. PolarQuant separa la magnitud de la dirección en vectores, y QJL (Quantized Johnson-Lindenstrauss) toma el pequeño error residual que queda y lo reduce a un solo bit de signo, positivo o negativo, con cero constantes almacenadas.

El resultado, dice Google, es un estimador matemáticamente imparcial para los cálculos de atención que impulsan los modelos transformer.

En benchmarks usando Gemma y Mistral, TurboQuant igualó el rendimiento de precisión completa bajo compresión 4x, incluyendo precisión perfecta de recuperación en tareas de aguja en el pajar de hasta 104,000 tokens.

Para contextualizar por qué esos benchmarks importan, expandir el contexto utilizable de un modelo sin pérdida de calidad ha sido uno de los problemas más difíciles en el despliegue de LLM.

Ahora, la letra pequeña.

"Cero pérdida de precisión" se aplica a la compresión de caché KV durante la inferencia, no a los pesos del modelo. Comprimir pesos es un problema completamente diferente y más difícil. TurboQuant no los toca.

Lo que comprime es la memoria temporal que almacena los cálculos de atención a mitad de sesión, lo cual es más indulgente porque esos datos teóricamente pueden reconstruirse.

También está la brecha entre un benchmark limpio y un sistema de producción que atiende miles de millones de solicitudes. TurboQuant fue probado en modelos de código abierto: Gemma, Mistral, Llama, no en el propio stack Gemini de Google a escala.

A diferencia de las ganancias de eficiencia de DeepSeek, que requirieron decisiones arquitectónicas profundas incorporadas desde el principio, TurboQuant no requiere reentrenamiento ni ajuste fino y afirma un overhead de tiempo de ejecución insignificante. En teoría, se integra directamente en los pipelines de inferencia existentes.

Esa es la parte que asustó al sector de hardware de memoria, porque si funciona en producción, cada laboratorio importante de IA funciona de manera más eficiente con las mismas GPU que ya poseen.

El artículo va a ICLR 2026. Hasta que se implemente en producción, el titular de "cero pérdida" permanece en el laboratorio.

Daily Debrief Newsletter

Comience cada día con las principales noticias ahora mismo, además de funciones originales, un podcast, videos y más.

Fuente: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Google reduce la memoria de IA sin pérdida de precisión, pero hay una trampa

En resumen

Entonces, ¿es real?

Daily Debrief Newsletter

También te puede interesar

La probabilidad de que la Fed mantenga las tasas alcanza el 94.8% para la reunión del FOMC de abril de 2026

Exención de Tokenización de la SEC: Un Cambio Regulatorio Revolucionario Podría Llegar en Semanas

Pronóstico del Precio del WTI: Resistencia Crítica de $88.00 se Mantiene mientras el Quiebre de la SMA de 200 Horas Amenaza una Caída Devastadora

Noticias en tendencia

La probabilidad de que la Fed mantenga las tasas alcanza el 94.8% para la reunión del FOMC de abril de 2026

Exención de Tokenización de la SEC: Un Cambio Regulatorio Revolucionario Podría Llegar en Semanas

Pronóstico del Precio del WTI: Resistencia Crítica de $88.00 se Mantiene mientras el Quiebre de la SMA de 200 Horas Amenaza una Caída Devastadora

El conflicto de Oriente Medio plantea riesgos de inflación y económicos

Dan Matuszewski: Las tensiones geopolíticas impulsan la volatilidad del mercado de materias primas, es probable que la Reserva Federal reduzca las tasas antes de las elecciones, y el precio de Bitcoin podría superar los $72,000

Precios de criptos