摘要和1. 引言
背景
方法
实验
4.1 多跳推理性能
4.2 带干扰项的推理
4.3 对真实世界知识的泛化
4.4 运行时间分析
4.5 记忆知识
相关工作
结论、致谢和参考文献
\ A. 数据集
B. 带干扰项的上下文推理
C. 实现细节
D. 自适应学习率
E. 大型语言模型实验
在需要回答关于同一知识集的多个问题的情况下,与一个问题相关的某些知识可能与另一个问题无关。例如,在表7中,事实"Charlie是白色的。"对于回答问题"Harry是红色的吗?"并不需要。因此,评估RECKONING在知识集中存在不相关信息(即干扰项)时的鲁棒性非常重要。在这个实验中,我们分析RECKONING在回答问题时专注于正确知识并忽略干扰项的能力。我们使用ProofWriter作为评估数据集,因为它已经包含了带有干扰项的知识设置。为了系统分析,我们逐渐向上下文添加干扰项(从2个开始,最终包含所有可能的干扰项,平均每个问题有7个)。我们使用多任务目标训练RECKONING和基线模型,其中模型必须(1)回忆与问题相关的所有事实和规则,以及(2)基于正确知识预测结论。在这种情况下,我们调整训练方式,使得对于每个问题x,外循环(公式(5))CLM损失仅针对来自K的相关事实计算,从而在训练期间学习只回忆相关事实。
\ 在图5中,我们看到RECKONING在干扰项存在时的性能始终比FT-ICR基线更加稳健。当我们在上下文中包含所有干扰项时,RECKONING在各跳数上实现的平均标签准确率(82.5%)显著高于基线(70.9%),这是通过计算3个考虑的跳深度的平均值得出的。此外,与无干扰项情况下的性能相比,RECKONING的性能仅下降17.1%,而基线性能下降28.6%,从而表现出更好的从干扰项中分离正确知识的能力。
\ 最后,我们还探索了RECKONING对更大参数规模模型的泛化能力。我们通过采用参数高效微调方法LoRA [33],将我们使用的语言模型从GPT-2-small (124M)扩展到GPT-2-XL (1.5B)。为简单起见,我们仅在最困难的设置上评估模型,即带有所有干扰项的ProofWriter-5-hop。使用GPT-2-XL-LoRA,上下文推理在测试集上达到65%的准确率,而我们的RECKONING模型达到70.2%的准确率,提高了5%的性能。这一结果表明,即使随着模型规模的扩大,RECKONING在存在干扰项时的优势仍然存在。
\
:::info 作者:
(1) Zeming Chen,EPFL (zeming.chen@epfl.ch);
(2) Gail Weiss,EPFL (antoine.bosselut@epfl.ch);
(3) Eric Mitchell,斯坦福大学 (eric.mitchell@cs.stanford.edu)';
(4) Asli Celikyilmaz,Meta AI研究院 (aslic@meta.com);
(5) Antoine Bosselut,EPFL (antoine.bosselut@epfl.ch)。
:::
:::info 本论文可在arxiv上获取,遵循CC BY 4.0 DEED许可。
:::
\


