El post Google Reduce la Memoria de IA Sin Pérdida de Precisión—Pero Hay un Inconveniente apareció en BitcoinEthereumNews.com. En resumen, Google dijo que su algoritmo TurboQuant puedeEl post Google Reduce la Memoria de IA Sin Pérdida de Precisión—Pero Hay un Inconveniente apareció en BitcoinEthereumNews.com. En resumen, Google dijo que su algoritmo TurboQuant puede

Google reduce la memoria de IA sin pérdida de precisión, pero hay una trampa

2026/03/26 07:33
Lectura de 4 min
Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

En resumen

  • Google afirmó que su algoritmo TurboQuant puede reducir un importante cuello de botella de memoria de IA en al menos seis veces sin pérdida de precisión durante la inferencia.
  • Las acciones de memoria, incluidas Micron, Western Digital y Seagate, cayeron después de que circulara el artículo.
  • El método comprime la memoria de inferencia, no los pesos del modelo, y solo se ha probado en benchmarks de investigación.

Google Research publicó TurboQuant el miércoles, un algoritmo de compresión que reduce un importante cuello de botella de memoria de inferencia en al menos 6 veces mientras mantiene cero pérdida de precisión.

El artículo está programado para presentarse en ICLR 2026, y la reacción en línea fue inmediata.

El CEO de Cloudflare, Matthew Prince, lo llamó el momento DeepSeek de Google. Los precios de las acciones de memoria, incluidas Micron, Western Digital y Seagate, cayeron el mismo día.

Entonces, ¿es real?

La eficiencia de cuantización es un gran logro por sí misma. Pero "cero pérdida de precisión" necesita contexto.

TurboQuant se dirige a la caché KV, el fragmento de memoria de GPU que almacena todo lo que un modelo de lenguaje necesita recordar durante una conversación.

A medida que las ventanas de contexto crecen hacia millones de tokens, esas cachés se expanden a cientos de gigabytes por sesión. Ese es el cuello de botella real. No la potencia de cómputo, sino la memoria en bruto.

Los métodos de compresión tradicionales intentan reducir esas cachés redondeando números hacia abajo, por ejemplo, de flotantes de 32 bits a 16, a 8 a enteros de 4 bits. Para entenderlo mejor, piense en reducir una imagen de 4K, a Full HD, a 720p y así sucesivamente. Es fácil decir que es la misma imagen en general, pero hay más detalle en resolución 4K.

El problema: tienen que almacenar "constantes de cuantización" adicionales junto con los datos comprimidos para evitar que el modelo se vuelva estúpido. Esas constantes agregan de 1 a 2 bits por valor, erosionando parcialmente las ganancias.

TurboQuant afirma que elimina ese overhead por completo.

Lo hace a través de dos subalgoritmos. PolarQuant separa la magnitud de la dirección en vectores, y QJL (Quantized Johnson-Lindenstrauss) toma el pequeño error residual que queda y lo reduce a un solo bit de signo, positivo o negativo, con cero constantes almacenadas.

El resultado, dice Google, es un estimador matemáticamente imparcial para los cálculos de atención que impulsan los modelos transformer.

En benchmarks usando Gemma y Mistral, TurboQuant igualó el rendimiento de precisión completa bajo compresión 4x, incluyendo precisión perfecta de recuperación en tareas de aguja en el pajar de hasta 104,000 tokens.

Para contextualizar por qué esos benchmarks importan, expandir el contexto utilizable de un modelo sin pérdida de calidad ha sido uno de los problemas más difíciles en el despliegue de LLM.

Ahora, la letra pequeña.

"Cero pérdida de precisión" se aplica a la compresión de caché KV durante la inferencia, no a los pesos del modelo. Comprimir pesos es un problema completamente diferente y más difícil. TurboQuant no los toca.

Lo que comprime es la memoria temporal que almacena los cálculos de atención a mitad de sesión, lo cual es más indulgente porque esos datos teóricamente pueden reconstruirse.

También está la brecha entre un benchmark limpio y un sistema de producción que atiende miles de millones de solicitudes. TurboQuant fue probado en modelos de código abierto: Gemma, Mistral, Llama, no en el propio stack Gemini de Google a escala.

A diferencia de las ganancias de eficiencia de DeepSeek, que requirieron decisiones arquitectónicas profundas incorporadas desde el principio, TurboQuant no requiere reentrenamiento ni ajuste fino y afirma un overhead de tiempo de ejecución insignificante. En teoría, se integra directamente en los pipelines de inferencia existentes.

Esa es la parte que asustó al sector de hardware de memoria, porque si funciona en producción, cada laboratorio importante de IA funciona de manera más eficiente con las mismas GPU que ya poseen.

El artículo va a ICLR 2026. Hasta que se implemente en producción, el titular de "cero pérdida" permanece en el laboratorio.

Daily Debrief Newsletter

Comience cada día con las principales noticias ahora mismo, además de funciones originales, un podcast, videos y más.

Fuente: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Oportunidad de mercado
Logo de Major
Precio de Major(MAJOR)
$0.06518
$0.06518$0.06518
+0.23%
USD
Gráfico de precios en vivo de Major (MAJOR)
Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.