本文提供了一项消融研究,确认自适应的、每步每层学习率对RECKONING框架至关重要。本文提供了一项消融研究,确认自适应的、每步每层学习率对RECKONING框架至关重要。

消融研究证实动态费率对RECKONING性能的必要性

2025/10/29 23:38

摘要和1. 引言

  1. 背景

  2. 方法

  3. 实验

    4.1 多跳推理性能

    4.2 带干扰项的推理

    4.3 对真实世界知识的泛化

    4.4 运行时间分析

    4.5 记忆知识

  4. 相关工作

  5. 结论、致谢和参考文献

\ A. 数据集

B. 带干扰项的上下文推理

C. 实现细节

D. 自适应学习率

E. 大型语言模型实验

D 自适应学习率

先前的工作[3, 4]表明,在步骤和参数之间共享的固定学习率不利于系统的泛化性能。相反,[3]建议为

\ 表8:CLUTRR-SG数据集中6跳推理的示例。

\ 表9:ProofWriter数据集中干扰项(黑色)和相关知识(红色)的示例。

\ 每个网络层和内循环中的每个适应步骤学习一个学习率。层参数可以学习在每个步骤动态调整学习率。为了在内循环中自适应地控制学习率α,我们将α定义为一组可调整变量:α = {α0, α1, …αL},其中L是层数,对于每个l = 0, …, L,αl是一个具有N个元素的向量,给定预定义的内循环步数N。内循环更新方程则变为

\

\

\ 动态学习率对RECKONING的性能是否必要? 遵循元学习的先前工作[3, 4],我们为RECKONING动态学习一组每步每层的学习率。在这项消融研究中,我们分析内循环的动态学习率是否能有效提高外循环推理性能。同样,我们固定其他实验设置并将内循环步数设为4。如图8所示,当使用静态学习率(即所有层和内循环步骤共享一个恒定学习率)时,性能大幅下降(平均下降34.2%)。对于需要更多推理跳数的问题,性能下降更为显著(4跳下降45.5%,6跳下降39.5%),这证明了在我们框架的内循环中使用动态学习率的重要性。

\ 图8:我们研究内循环中的动态学习率对外循环性能的贡献程度。我们固定所有超参数,只改变使用动态或固定学习率的选项。我们使用CLUTRR-SG数据集进行分析,因为它更复杂且更困难(随机性能更低)。

\

:::info 作者:

(1) Zeming Chen,EPFL (zeming.chen@epfl.ch);

(2) Gail Weiss,EPFL (antoine.bosselut@epfl.ch);

(3) Eric Mitchell,斯坦福大学 (eric.mitchell@cs.stanford.edu)';

(4) Asli Celikyilmaz,Meta AI研究院 (aslic@meta.com);

(5) Antoine Bosselut,EPFL (antoine.bosselut@epfl.ch)。

:::


:::info 本论文可在arxiv上获取,遵循CC BY 4.0 DEED许可。

:::

\

免责声明:本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。
分享文章