该研究证实，即使使用GPT-2-XL-LoRA扩展模型规模，RECKONING解析相关知识的能力仍然得以保持该研究证实，即使使用GPT-2-XL-LoRA扩展模型规模，RECKONING解析相关知识的能力仍然得以保持

干扰鲁棒性：RECKONING 在对不相关事实的推理中显著优于 FT-ICR

作者：Hackernoon

2025/10/25 01:09

链接表

摘要和1. 引言

背景
方法
实验

4.1 多跳推理性能

4.2 带干扰项的推理

4.3 对真实世界知识的泛化

4.4 运行时间分析

4.5 记忆知识
相关工作
结论、致谢和参考文献

\ A. 数据集

B. 带干扰项的上下文推理

C. 实现细节

D. 自适应学习率

E. 大型语言模型实验

4.2 带干扰项的推理

在需要回答关于同一知识集的多个问题的情况下，与一个问题相关的某些知识可能与另一个问题无关。例如，在表7中，事实"Charlie是白色的。"对于回答问题"Harry是红色的吗？"并不需要。因此，评估RECKONING在知识集中存在不相关信息（即干扰项）时的鲁棒性非常重要。在这个实验中，我们分析RECKONING在回答问题时专注于正确知识并忽略干扰项的能力。我们使用ProofWriter作为评估数据集，因为它已经包含了带有干扰项的知识设置。为了系统分析，我们逐渐向上下文添加干扰项（从2个开始，最终包含所有可能的干扰项，平均每个问题有7个）。我们使用多任务目标训练RECKONING和基线模型，其中模型必须(1)回忆与问题相关的所有事实和规则，以及(2)基于正确知识预测结论。在这种情况下，我们调整训练方式，使得对于每个问题x，外循环（公式(5)）CLM损失仅针对来自K的相关事实计算，从而在训练期间学习只回忆相关事实。

\ 在图5中，我们看到RECKONING在干扰项存在时的性能始终比FT-ICR基线更加稳健。当我们在上下文中包含所有干扰项时，RECKONING在各跳数上实现的平均标签准确率(82.5%)显著高于基线(70.9%)，这是通过计算3个考虑的跳深度的平均值得出的。此外，与无干扰项情况下的性能相比，RECKONING的性能仅下降17.1%，而基线性能下降28.6%，从而表现出更好的从干扰项中分离正确知识的能力。

\ 最后，我们还探索了RECKONING对更大参数规模模型的泛化能力。我们通过采用参数高效微调方法LoRA [33]，将我们使用的语言模型从GPT-2-small (124M)扩展到GPT-2-XL (1.5B)。为简单起见，我们仅在最困难的设置上评估模型，即带有所有干扰项的ProofWriter-5-hop。使用GPT-2-XL-LoRA，上下文推理在测试集上达到65%的准确率，而我们的RECKONING模型达到70.2%的准确率，提高了5%的性能。这一结果表明，即使随着模型规模的扩大，RECKONING在存在干扰项时的优势仍然存在。

:::info 作者：

(1) Zeming Chen，EPFL (zeming.chen@epfl.ch)；

(2) Gail Weiss，EPFL (antoine.bosselut@epfl.ch)；

(3) Eric Mitchell，斯坦福大学 (eric.mitchell@cs.stanford.edu)'；

(4) Asli Celikyilmaz，Meta AI研究院 (aslic@meta.com)；

(5) Antoine Bosselut，EPFL (antoine.bosselut@epfl.ch)。

:::

:::info 本论文可在arxiv上获取，遵循CC BY 4.0 DEED许可。

:::

免责声明：本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

分享文章