该研究证实,即使使用GPT-2-XL-LoRA扩展模型规模,RECKONING解析相关知识的能力仍然得以保持该研究证实,即使使用GPT-2-XL-LoRA扩展模型规模,RECKONING解析相关知识的能力仍然得以保持

干扰鲁棒性:RECKONING 在对不相关事实的推理中显著优于 FT-ICR

2025/10/25 01:09

摘要和1. 引言

  1. 背景

  2. 方法

  3. 实验

    4.1 多跳推理性能

    4.2 带干扰项的推理

    4.3 对真实世界知识的泛化

    4.4 运行时间分析

    4.5 记忆知识

  4. 相关工作

  5. 结论、致谢和参考文献

\ A. 数据集

B. 带干扰项的上下文推理

C. 实现细节

D. 自适应学习率

E. 大型语言模型实验

4.2 带干扰项的推理

在需要回答关于同一知识集的多个问题的情况下,与一个问题相关的某些知识可能与另一个问题无关。例如,在表7中,事实"Charlie是白色的。"对于回答问题"Harry是红色的吗?"并不需要。因此,评估RECKONING在知识集中存在不相关信息(即干扰项)时的鲁棒性非常重要。在这个实验中,我们分析RECKONING在回答问题时专注于正确知识并忽略干扰项的能力。我们使用ProofWriter作为评估数据集,因为它已经包含了带有干扰项的知识设置。为了系统分析,我们逐渐向上下文添加干扰项(从2个开始,最终包含所有可能的干扰项,平均每个问题有7个)。我们使用多任务目标训练RECKONING和基线模型,其中模型必须(1)回忆与问题相关的所有事实和规则,以及(2)基于正确知识预测结论。在这种情况下,我们调整训练方式,使得对于每个问题x,外循环(公式(5))CLM损失仅针对来自K的相关事实计算,从而在训练期间学习只回忆相关事实。

\ 在图5中,我们看到RECKONING在干扰项存在时的性能始终比FT-ICR基线更加稳健。当我们在上下文中包含所有干扰项时,RECKONING在各跳数上实现的平均标签准确率(82.5%)显著高于基线(70.9%),这是通过计算3个考虑的跳深度的平均值得出的。此外,与无干扰项情况下的性能相比,RECKONING的性能仅下降17.1%,而基线性能下降28.6%,从而表现出更好的从干扰项中分离正确知识的能力。

\ 最后,我们还探索了RECKONING对更大参数规模模型的泛化能力。我们通过采用参数高效微调方法LoRA [33],将我们使用的语言模型从GPT-2-small (124M)扩展到GPT-2-XL (1.5B)。为简单起见,我们仅在最困难的设置上评估模型,即带有所有干扰项的ProofWriter-5-hop。使用GPT-2-XL-LoRA,上下文推理在测试集上达到65%的准确率,而我们的RECKONING模型达到70.2%的准确率,提高了5%的性能。这一结果表明,即使随着模型规模的扩大,RECKONING在存在干扰项时的优势仍然存在。

\

:::info 作者:

(1) Zeming Chen,EPFL (zeming.chen@epfl.ch);

(2) Gail Weiss,EPFL (antoine.bosselut@epfl.ch);

(3) Eric Mitchell,斯坦福大学 (eric.mitchell@cs.stanford.edu)';

(4) Asli Celikyilmaz,Meta AI研究院 (aslic@meta.com);

(5) Antoine Bosselut,EPFL (antoine.bosselut@epfl.ch)。

:::


:::info 本论文可在arxiv上获取,遵循CC BY 4.0 DEED许可。

:::

\

免责声明:本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。
分享文章