Al combinar las ventajas de los modelos de espacio de estados (SSMs) con mecanismos de atención, SAMBA presenta una arquitectura neuronal híbrida que permite un modelado de lenguaje efectivo y escalable con una longitud de contexto casi infinita. SAMBA supera tanto a los modelos basados en atención pura como a los basados en SSM en una variedad de métricas de razonamiento, comprensión y codificación cuando se entrena en SlimPajama con configuraciones consistentes. El modelo procesa secuencias de hasta 256K tokens con poco ajuste fino, logrando una velocidad y capacidad de extrapolación excepcionales.Al combinar las ventajas de los modelos de espacio de estados (SSMs) con mecanismos de atención, SAMBA presenta una arquitectura neuronal híbrida que permite un modelado de lenguaje efectivo y escalable con una longitud de contexto casi infinita. SAMBA supera tanto a los modelos basados en atención pura como a los basados en SSM en una variedad de métricas de razonamiento, comprensión y codificación cuando se entrena en SlimPajama con configuraciones consistentes. El modelo procesa secuencias de hasta 256K tokens con poco ajuste fino, logrando una velocidad y capacidad de extrapolación excepcionales.

Cómo los modelos híbridos de IA equilibran la memoria y la eficiencia

2025/10/28 17:13

Resumen y 1. Introducción

  1. Metodología

  2. Experimentos y Resultados

    3.1 Modelado de Lenguaje en Datos vQuality

    3.2 Exploración sobre Atención y Recurrencia Lineal

    3.3 Extrapolación Eficiente de Longitud

    3.4 Comprensión de Contexto Largo

  3. Análisis

  4. Conclusión, Agradecimientos y Referencias

A. Detalles de Implementación

B. Resultados Adicionales de Experimentos

C. Detalles de Medición de Entropía

D. Limitaciones

\

A Detalles de Implementación

\ Para la capa GLA en la arquitectura Sliding GLA, utilizamos el número de cabezas dm/384, una proporción de expansión de clave de 0.5 y una proporción de expansión de valor de 1. Para la capa RetNet utilizamos un número de cabezas que es la mitad del número de cabezas de consulta de atención, proporción de expansión de clave de 1 y proporción de expansión de valor de 2. Las implementaciones de GLA y RetNet son del repositorio Flash Linear Attention[3] [YZ24]. Utilizamos la implementación basada en FlashAttention para la extrapolación Self-Extend[4]. El modelo Mamba 432M tiene un ancho de modelo de 1024 y el modelo Mamba 1.3B tiene un ancho de modelo de 2048. Todos los modelos entrenados en SlimPajama tienen las mismas configuraciones de entrenamiento y el tamaño intermedio MLP que Samba, a menos que se especifique lo contrario. La infraestructura de entrenamiento en SlimPajama se basa en una versión modificada del código base TinyLlama[5].

\ Tabla 10: Hiperparámetros detallados de los modelos SAMBA entrenados a diferentes escalas. Solo mostramos la configuración de optimización para la primera fase de entrenamiento del modelo de 3.8B.

\ En las configuraciones de generación para las tareas posteriores, utilizamos decodificación voraz para GSM8K y Nucleus Sampling [HBD+19] con una temperatura de τ = 0.2 y top-p = 0.95 para HumanEval. Para MBPP y SQuAD, establecemos τ = 0.01 y top-p = 0.95.

B Resultados Adicionales de Experimentos

\ Figura 6: Curvas de pérdida de entrenamiento de los modelos Samba 1.7B y Mistral 1.6B durante 500 pasos de ajuste de instrucciones en Recuperación de Claves de Acceso con longitud de secuencia de 4K. Trazamos las curvas de pérdida para ambos modelos utilizando el promedio móvil simple con ventana de tamaño 10.

\

\ Figura 7: Precisión general de recuperación de claves de acceso en la longitud de documento de 256K de los modelos Samba 1.7B y Mistral 1.6B durante 500 pasos de ajuste de instrucciones.

\

C Detalles de Medición de Entropía

\

\

D Limitaciones

Aunque Samba demuestra un rendimiento prometedor de recuperación de memoria a través del ajuste de instrucciones, su modelo base pre-entrenado tiene un rendimiento de recuperación similar al del modelo basado en SWA, como se muestra en la Figura 7. Esto abre una dirección futura para mejorar aún más la capacidad de recuperación de Samba sin comprometer su eficiencia y capacidad de extrapolación. Además, la estrategia de hibridación de Samba no es consistentemente mejor que otras alternativas en todas las tareas. Como se muestra en la Tabla 2, MambaSWA-MLP muestra un rendimiento mejorado en tareas como WinoGrande, SIQA y GSM8K. Esto nos da el potencial para invertir en un enfoque más sofisticado para realizar combinaciones dinámicas dependientes de la entrada de modelos basados en SWA y modelos basados en SSM.

\

:::info Autores:

(1) Liliang Ren, Microsoft y University of Illinois at Urbana-Champaign (liliangren@microsoft.com);

(2) Yang Liu†, Microsoft (yaliu10@microsoft.com);

(3) Yadong Lu†, Microsoft (yadonglu@microsoft.com);

(4) Yelong Shen, Microsoft (yelong.shen@microsoft.com);

(5) Chen Liang, Microsoft (chenliang1@microsoft.com);

(6) Weizhu Chen, Microsoft (wzchen@microsoft.com).

:::


:::info Este artículo está disponible en arxiv bajo licencia CC BY 4.0.

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate con service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.
Compartir perspectivas

También te puede interesar

Pronóstico de Forex y Criptomonedas para el 27-31 de octubre de 2025

Pronóstico de Forex y Criptomonedas para el 27-31 de octubre de 2025

Perspectiva General Los mercados entran en la última semana de octubre asimilando la publicación retrasada del IPC de EE.UU. y el cierre federal en curso que ha limitado la visibilidad de datos macroeconómicos. La inflación de septiembre resultó ligeramente más baja de lo esperado, aliviando la presión sobre el dólar y permitiendo que EUR/USD se estabilice alrededor de 1,16. El oro se está consolidando después de establecer un nuevo máximo histórico cerca de 4.380 a principios de mes, mientras que el Brent se ha recuperado de mínimos de cinco meses. Bitcoin está intentando reconstruir impulso tras una fuerte corrección a mediados de octubre. Es probable que la volatilidad se mantenga elevada mientras los traders se posicionan antes de las reuniones de la FOMC y el BCE, con pocas publicaciones de datos nuevos para proporcionar dirección.EUR/USD EUR/USD terminó la semana anterior alrededor de 1,162 después de probar tanto 1,158 como 1,165 durante la sesión de rango limitado. Los datos más suaves del IPC ayudaron al par a recuperarse ligeramente de sus mínimos anteriores. La perspectiva a corto plazo sigue siendo constructiva mientras se mantenga por encima de 1,1580. Una ruptura por encima de 1,1660–1,1710 podría abrir el camino hacia 1,1755 y 1,1810. A la baja, el soporte se encuentra en 1,1600/1,1580, seguido por 1,1550 y 1,1500. Con el calendario de datos de EE.UU. limitado, la dirección dependerá principalmente del sentimiento de riesgo y los comentarios de política de la FOMC y el BCE.Niveles: Soporte 1,1600/1,1580, 1,1550, 1,1500. Resistencia 1,1660, 1,1710/1,1755, 1,1810.XAU/USD (Oro) El oro está operando dentro de un amplio rango de 4.000–4.300 después de un máximo histórico cerca de 4.380 a principios de este mes. El metal sigue respaldado por las tensiones geopolíticas en curso y la incertidumbre sobre la política fiscal de EE.UU. La tendencia alcista se mantiene intacta mientras los precios se mantengan por encima de 4.000–4.080. Un cierre por encima de 4.240–4.300 volvería a centrar la atención en la zona récord cerca de 4.380. Por el contrario, una caída por debajo de 4.000 podría desencadenar una corrección hacia 3.900–3.890. Por ahora, los traders de oro continúan comprando en las caídas mientras monitorean los movimientos del dólar y el rendimiento de los bonos.Niveles: Soporte 4.080, 4.000, 3.900. Resistencia 4.240, 4.300, 4.380.Brent El crudo Brent rebotó desde mínimos de cinco meses cerca de 61 y ahora se está estabilizando alrededor de los 60 medios. Las preocupaciones de suministro siguen siendo limitadas ya que la curva a plazo permanece en contango, reflejando expectativas de superávit a corto plazo. Los alcistas necesitan un cierre por encima de 66,5–67,0 para apuntar a 69,8–71,0. Un fracaso en mantenerse por encima de 64,5 aumentaría el riesgo de otro movimiento hacia 61,0 y posiblemente 58,0. Los traders continúan enfocándose en la comunicación de la OPEP+ y señales de recuperación en la demanda global.Niveles: Soporte 64,5, 61,0, 58,0. Resistencia 66,5/67,0, 69,8, 71,0.BTC/USD Bitcoin se está consolidando después de un comienzo volátil del mes, operando cerca de 111.000 al final de la semana pasada. La caída anterior hacia 104.000 parece haber encontrado soporte temporal. La resistencia clave se sitúa en 112.000–116.000; una ruptura por encima de esta zona abriría 120.000 y 124.000. Los niveles de soporte se ven en 110.000, 107.000 y 104.000, con 100.000 manteniéndose como un umbral crucial para la tendencia a medio plazo. Las entradas de ETF se mantienen estables, pero el sentimiento de los inversores es cauteloso tras las fuertes oscilaciones vistas a principios de octubre.Niveles: Soporte 110.000, 107.000, 104.000, 100.000. Resistencia 112.000/116.000, 120.000, 124.000.Conclusión Para la semana del 27–31 de octubre, EUR/USD permanece en rango pero con soporte mientras esté por encima de 1,1580. El oro se está consolidando entre 4.000 y 4.300 después de máximos históricos. El Brent se está estabilizando pero vulnerable por debajo de 67, mientras que Bitcoin está intentando reconstruir su tendencia alcista por encima de 104.000. Con las reuniones de la FOMC y el BCE por delante y datos nuevos limitados, es probable que los mercados operen de manera reactiva a los titulares y al sentimiento de riesgo. Grupo Analítico de NordFX Descargo de responsabilidad: Estos materiales no son recomendaciones de inversión y son solo para fines informativos. Operar en mercados financieros es arriesgado y puede llevar a una pérdida completa de los fondos depositados. El pronóstico de Forex y Criptomonedas para el 27–31 de octubre de 2025 fue publicado originalmente en Coinmonks en Medium, donde la gente continúa la conversación destacando y respondiendo a esta historia
Compartir
2025/10/28 23:21