本文提出了一項消融研究，確認了一個自適應的、每步每層學習率對於 RECKONING 框架是必不可少的。本文提出了一項消融研究，確認了一個自適應的、每步每層學習率對於 RECKONING 框架是必不可少的。

消融研究證實動態費率對 RECKONING 性能的必要性

作者：Hackernoon

2025/10/29 23:38

LAYER$0.2799+1.59%

連結表格

摘要和 1. 引言

背景
方法
實驗

4.1 多跳推理性能

4.2 帶干擾項的推理

4.3 對真實世界知識的泛化

4.4 運行時間分析

4.5 記憶知識
相關工作
結論、致謝和參考文獻

\ A. 數據集

B. 帶干擾項的上下文推理

C. 實現細節

D. 自適應學習率

E. 大型語言模型實驗

D 自適應學習率

先前的研究 [3, 4] 表明，在步驟和參數之間共享的固定學習率無法提高系統的泛化性能。相反，[3] 建議為

\ 表格 8：CLUTRR-SG 數據集中 6 跳推理的示例。

\ 表格 9：ProofWriter 數據集中的干擾項（黑色）和相關知識（紅色）示例。

\ 每個網絡層和內循環中的每個適應步驟學習一個學習率。層參數可以學習在每個步驟動態調整學習率。為了在內循環中自適應地控制學習率 α，我們將 α 定義為一組可調整變量：α = {α0, α1, …αL}，其中 L 是層數，對於每個 l = 0, …, L，αl 是一個具有 N 個元素的向量，給定預定義的內循環步驟數 N。內循環更新方程則變為

\ 動態學習率對 RECKONING 的性能是否必要？ 遵循元學習的先前工作 [3, 4]，我們為 RECKONING 動態學習一組每步每層的學習率。在這項消融研究中，我們分析內循環的動態學習率是否能有效提高外循環推理性能。同樣，我們固定其他實驗設置並將內循環步驟數設為 4。如圖 8 所示，當使用靜態學習率（即所有層和內循環步驟共享一個恆定學習率）時，性能大幅下降（平均下降了 34.2%）。對於需要更多推理跳躍的問題，性能下降更為顯著（4 跳下降了 45.5%，6 跳下降了 39.5%），這證明了在我們框架的內循環中使用動態學習率的重要性。

\ 圖 8：我們研究內循環中的動態學習率對外循環性能的貢獻程度。我們固定所有超參數，只改變使用動態或固定學習率的選項。我們使用 CLUTRR-SG 數據集進行分析，因為它更複雜且更困難（隨機性能較低）。

:::info 作者：

(1) Zeming Chen, EPFL (zeming.chen@epfl.ch);

(2) Gail Weiss, EPFL (antoine.bosselut@epfl.ch);

(3) Eric Mitchell, Stanford University (eric.mitchell@cs.stanford.edu)';

(4) Asli Celikyilmaz, Meta AI Research (aslic@meta.com);

(5) Antoine Bosselut, EPFL (antoine.bosselut@epfl.ch).

:::

:::info 本論文可在 Arxiv 上獲取，遵循 CC BY 4.0 DEED 許可證。

:::

免責聲明：本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

分享文章