本文提出了一項消融研究,確認了一個自適應的、每步每層學習率對於 RECKONING 框架是必不可少的。本文提出了一項消融研究,確認了一個自適應的、每步每層學習率對於 RECKONING 框架是必不可少的。

消融研究證實動態費率對 RECKONING 性能的必要性

2025/10/29 23:38

摘要和 1. 引言

  1. 背景

  2. 方法

  3. 實驗

    4.1 多跳推理性能

    4.2 帶干擾項的推理

    4.3 對真實世界知識的泛化

    4.4 運行時間分析

    4.5 記憶知識

  4. 相關工作

  5. 結論、致謝和參考文獻

\ A. 數據集

B. 帶干擾項的上下文推理

C. 實現細節

D. 自適應學習率

E. 大型語言模型實驗

D 自適應學習率

先前的研究 [3, 4] 表明,在步驟和參數之間共享的固定學習率無法提高系統的泛化性能。相反,[3] 建議為

\ 表格 8:CLUTRR-SG 數據集中 6 跳推理的示例。

\ 表格 9:ProofWriter 數據集中的干擾項(黑色)和相關知識(紅色)示例。

\ 每個網絡層和內循環中的每個適應步驟學習一個學習率。層參數可以學習在每個步驟動態調整學習率。為了在內循環中自適應地控制學習率 α,我們將 α 定義為一組可調整變量:α = {α0, α1, …αL},其中 L 是層數,對於每個 l = 0, …, L,αl 是一個具有 N 個元素的向量,給定預定義的內循環步驟數 N。內循環更新方程則變為

\

\

\ 動態學習率對 RECKONING 的性能是否必要? 遵循元學習的先前工作 [3, 4],我們為 RECKONING 動態學習一組每步每層的學習率。在這項消融研究中,我們分析內循環的動態學習率是否能有效提高外循環推理性能。同樣,我們固定其他實驗設置並將內循環步驟數設為 4。如圖 8 所示,當使用靜態學習率(即所有層和內循環步驟共享一個恆定學習率)時,性能大幅下降(平均下降了 34.2%)。對於需要更多推理跳躍的問題,性能下降更為顯著(4 跳下降了 45.5%,6 跳下降了 39.5%),這證明了在我們框架的內循環中使用動態學習率的重要性。

\ 圖 8:我們研究內循環中的動態學習率對外循環性能的貢獻程度。我們固定所有超參數,只改變使用動態或固定學習率的選項。我們使用 CLUTRR-SG 數據集進行分析,因為它更複雜且更困難(隨機性能較低)。

\

:::info 作者:

(1) Zeming Chen, EPFL (zeming.chen@epfl.ch);

(2) Gail Weiss, EPFL (antoine.bosselut@epfl.ch);

(3) Eric Mitchell, Stanford University (eric.mitchell@cs.stanford.edu)';

(4) Asli Celikyilmaz, Meta AI Research (aslic@meta.com);

(5) Antoine Bosselut, EPFL (antoine.bosselut@epfl.ch).

:::


:::info 本論文可在 Arxiv 上獲取,遵循 CC BY 4.0 DEED 許可證。

:::

\

免責聲明:本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。
分享文章