Resumen y 1. Introducción
Antecedentes
Método
Experimentos
4.1 Rendimiento de Razonamiento Multi-hop
4.2 Razonamiento con Distractores
4.3 Generalización al conocimiento del Mundo Real
4.4 Análisis de tiempo de ejecución
4.5 Memorización de Conocimiento
Trabajos Relacionados
Conclusión, Agradecimientos y Referencias
\ A. Conjunto de datos
B. Razonamiento en contexto con Distractores
C. Detalles de Implementación
D. Tasa de Aprendizaje Adaptativa
E. Experimentos con Modelos de Lenguaje Grandes
En casos donde múltiples preguntas deben ser respondidas sobre el mismo conjunto de conocimiento, algún conocimiento que es relevante para una pregunta probablemente será irrelevante para otra pregunta. Por ejemplo, en la Tabla 7, el hecho "Charlie es Blanco." no es necesario para responder la pregunta "¿Harry es rojo?". Por lo tanto, es importante evaluar la robustez de RECKONING cuando existe información irrelevante (es decir, distractores) en el conjunto de conocimiento. En este experimento, analizamos la capacidad de RECKONING para enfocarse en el conocimiento correcto e ignorar distractores al responder preguntas. Utilizamos ProofWriter como conjunto de datos de evaluación ya que ya tiene una configuración con distractores incluidos en el conocimiento. Para un análisis sistemático, gradualmente añadimos distractores al contexto (comenzando desde 2 y terminando con todos los distractores posibles, de los cuales hay un promedio de 7 por pregunta). Entrenamos RECKONING y la línea base utilizando el objetivo multi-tarea, donde el modelo debe (1) recordar todos los hechos y reglas relevantes para la pregunta y (2) predecir la conclusión basada en el conocimiento correcto. En este caso, adaptamos el entrenamiento de manera que para cada pregunta x, la pérdida CLM del bucle externo (Ecuación (5)) solo se calcula con respecto a los hechos relevantes de K, aprendiendo así a recordar solo hechos relevantes durante el entrenamiento.
\ En la Figura 5, vemos que el rendimiento de RECKONING es consistentemente más robusto bajo distractores que la línea base FT-ICR. Cuando incluimos todos los distractores en el contexto, RECKONING logra una precisión de etiqueta promedio significativamente más alta (82.5%) a través de saltos que la línea base (70.9%), calculada por el promedio de las 3 profundidades de salto consideradas. Además, en comparación con el rendimiento sin distractores, el rendimiento de RECKONING solo cae un 17.1% mientras que el rendimiento de la línea base cae un 28.6%, exhibiendo así una mejor capacidad para desenredar el conocimiento correcto de los distractores.
\ Finalmente, también exploramos la capacidad de generalización de RECKONING a modelos con un tamaño de parámetro mayor. Escalamos el modelo de lenguaje que usamos, GPT-2-small (124M), a GPT-2-XL (1.5B) adoptando un método de ajuste fino eficiente en parámetros LoRA [33]. Por simplicidad, solo evaluamos los modelos en las configuraciones más difíciles, es decir, ProofWriter-5-hop con todos los distractores. Con GPT-2-XL-LoRA, el razonamiento en contexto logra un 65% de precisión en el conjunto de prueba, mientras que nuestro modelo RECKONING logra un 70.2% de precisión, una ganancia de rendimiento del 5%. Este resultado sugiere que las ventajas de RECKONING en presencia de distractores se mantienen incluso cuando los modelos aumentan de tamaño.
\
:::info Autores:
(1) Zeming Chen, EPFL (zeming.chen@epfl.ch);
(2) Gail Weiss, EPFL (antoine.bosselut@epfl.ch);
(3) Eric Mitchell, Stanford University (eric.mitchell@cs.stanford.edu)';
(4) Asli Celikyilmaz, Meta AI Research (aslic@meta.com);
(5) Antoine Bosselut, EPFL (antoine.bosselut@epfl.ch).
:::
:::info Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.
:::
\


