稀疏譜訓練(Sparse Spectral Training,SST)引入了一個數學基礎紮實的框架,用於使用低階譜分解來優化神經網絡。通過專注於梯度方向而非規模,SST降低了計算開銷,同時保持學習穩定性。該論文證明了使用SVD初始化可實現零失真,並且與LoRA和HyboNet等默認方法相比,提升了梯度性能。在翻譯、語言生成和圖神經網絡上的廣泛實驗展示了SST的效率和準確性,顯示其作為全階訓練的可擴展替代方案的潛力。稀疏譜訓練(Sparse Spectral Training,SST)引入了一個數學基礎紮實的框架,用於使用低階譜分解來優化神經網絡。通過專注於梯度方向而非規模,SST降低了計算開銷,同時保持學習穩定性。該論文證明了使用SVD初始化可實現零失真,並且與LoRA和HyboNet等默認方法相比,提升了梯度性能。在翻譯、語言生成和圖神經網絡上的廣泛實驗展示了SST的效率和準確性,顯示其作為全階訓練的可擴展替代方案的潛力。

這就是為什麼 AI 研究人員正在談論稀疏譜訓練

2025/10/30 18:12

摘要和1. 引言

  1. 相關工作

  2. 低秩適應

    3.1 LoRA和3.2 LoRA的限制

    3.3 ReLoRA*

  3. 稀疏譜訓練

    4.1 預備知識和4.2 使用Σ進行U、VT的梯度更新

    4.3 為什麼SVD初始化很重要

    4.4 SST平衡利用與探索

    4.5 SST的記憶體高效實現和4.6 SST的稀疏性

  4. 實驗

    5.1 機器翻譯

    5.2 自然語言生成

    5.3 雙曲圖神經網絡

  5. 結論與討論

  6. 更廣泛影響和參考文獻

補充資料

A. 稀疏譜訓練算法

B. 稀疏譜層梯度證明

C. 權重梯度分解證明

D. 增強梯度優於默認梯度的證明

E. SVD初始化零失真證明

F. 實驗細節

G. 奇異值剪枝

H. 評估SST和GaLore:記憶體效率的互補方法

I. 消融研究

A 稀疏譜訓練算法

B 稀疏譜層梯度證明

我們可以將W的微分表示為微分的總和:

\ \

\ \ 我們有W梯度的鏈式法則:

\ \

\ \ \

\

C 權重梯度分解證明

\

\

D 增強梯度優於默認梯度的證明

\

\ \ \

\ \ \

\ \ 由於只有更新方向重要,更新的規模可以通過改變學習率來調整。我們使用SST更新與全秩更新3倍之間差異的Frobenius範數來衡量相似性。

\ \

\

E SVD初始化零失真證明

\

F 實驗細節

F.1 SST的實現細節

\

\ \ \

\

F.2 機器翻譯的超參數

IWSLT'14。 超參數可在表6中找到。我們採用與HyboNet [12]相同的代碼庫和超參數,該代碼庫源自OpenNMT-py [54]。最終模型檢查點用於評估。使用光束搜索,光束大小為2,以優化評估過程。實驗在一個A100 GPU上進行。

\ 對於SST,每次迭代的步數(T3)設為200。每次迭代以持續20步的預熱階段開始。每輪迭代次數(T2)由公式T2 = d/r確定,其中d表示嵌入維度,r表示SST中使用的秩。

\ \ 表6:IWSLT'14上歐幾里得和雙曲Transformer的超參數。

\ \ \

\ \ 對於SST,每次迭代的步數(T3)在Multi30K上設為200,在IWSLT'17上設為400。每次迭代以持續20步的預熱階段開始。每輪迭代次數(T2)由公式T2 = d/r確定,其中d表示嵌入維度,r表示SST中使用的秩

F.3 自然語言生成的超參數

我們實驗的超參數詳見表8。我們採用2000步的線性預熱,然後是穩定的學習率,沒有衰減。較大的學習率(0.001)僅用於低秩參數(SST的U、VT和Σ,LoRA和ReLoRA*的B和A)。每個實驗的總訓練標記為19.7B,大約是OpenWebText的2個周期。分佈式訓練使用Accelerate [55]庫在Linux伺服器上的四個A100 GPU上進行。

\ 對於SST,每次迭代的步數(T3)設為200。每次迭代以持續20步的預熱階段開始。每輪迭代次數(T2)由公式T2 = d/r確定,其中d表示嵌入維度,r表示SST中使用的秩。

\ \ 表7:Multi30K和IWSLT'17上原始Transformer的超參數。

\ \ \ 表8:OPT模型的超參數

\

F.4 雙曲圖神經網絡的超參數

我們使用HyboNet [12]作為全秩模型,採用與HyboNet相同的超參數。實驗在一個A100 GPU上進行。

\ 對於SST,每次迭代的步數(T3)設為100。每次迭代以持續100步的預熱階段開始。每輪迭代次數(T2)由公式T2 = d/r確定,其中d表示嵌入維度,r表示SST中使用的秩。

\ 在Cora數據集的節點分類任務中,我們為LoRA和SST方法設置了0.5的丟棄率。這是唯一與HyboNet配置的偏差。

\ \ \

:::info 作者:

(1) 趙佳林,複雜網絡智能中心(CCNI),清華大學腦與智能實驗室(THBI)和計算機科學系;

(2) 張英濤,複雜網絡智能中心(CCNI),清華大學腦與智能實驗室(THBI)和計算機科學系;

(3) 李星航,計算機科學系;

(4) 劉華平,計算機科學系;

(5) Carlo Vittorio Cannistraci,複雜網絡智能中心(CCNI),清華大學腦與智能實驗室(THBI),計算機科學系和生物醫學工程系,中國北京。

:::


:::info 本論文可在arxiv上獲取,採用CC by 4.0 Deed (Attribution 4.0 International)許可證。

:::

\

免責聲明:本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。
分享文章

您可能也會喜歡

英國加密貨幣 ETN 市場在零售訪問恢復後競爭激烈 — 發行商將費用降低到 0.05%

英國加密貨幣 ETN 市場在零售訪問恢復後競爭激烈 — 發行商將費用降低到 0.05%

英國加密貨幣交易所交易票據(ETN)市場爆發激烈價格戰,此前監管機構四年多來首次重新向散戶投資者開放准入。 此舉引發了主要發行商一波降費潮,將比特幣相關產品的成本降低到僅0.05%,甚至低於大多數傳統股票和債券基金的水平。 金融行為監管局(FCA)於10月8日(UTC +8)取消了對散戶投資加密ETN的禁令,標誌著一項重大政策轉變,反映了監管機構對數字資產立場的演變。 散戶投資者現在可以在本稅務年度內,通過免稅賬戶(如股票和股份ISA)購買並持有倫敦上市的加密ETN,這些ETN追蹤比特幣和以太幣等加密貨幣的價格。 從明年4月6日起,這些產品還將有資格納入創新金融ISA。這一決定立即引發了發行商之間的激烈競爭。 FCA向散戶加密ETN開放大門後,誰將贏得費用戰? Bitwise作為最先做出反應的公司之一,將其Core Bitcoin ETP的年費從0.2%降低到0.05%,有效期為六個月,"並持續有效直至另行通知"。 這一降價削弱了21Shares的競爭力,後者隨即將其Core Bitcoin和Ethereum Core Staking ETP的費用降低到0.1%。 Fidelity很快跟進,將其Physical Bitcoin ETP的費用降低到0.25%,而Invesco則將其同等產品的費用降低到0.1%,直至2025年底。 BlackRock通過其920億美元的iShares Bitcoin Trust主導美國加密ETF市場,現在通過在倫敦上市其歐洲iShares Bitcoin ETP進入英國市場競爭。 該公司提供臨時折扣,將費用從0.25%降低到0.15%,直至1月。同時,CoinShares憑藉其Physical Staked Ethereum ETP繼續領先以太幣領域,這是歐洲唯一一個零管理費的交易所交易產品。 CoinShares使用鎖定以太幣產生的質押獎勵來抵消成本。 倫敦的加密ETN繁榮會複製美國ETF熱潮嗎? 新的費用戰反映了2024年初加密ETF在美國推出時的激烈競爭。 分析師表示,這些降價可能使投資者通過受監管基金獲得比特幣敞口比通過大多數傳統投資工具更便宜。 一些以前只向專業人士提供的加密ETN仍然每年收取高達2.5%的費用,突顯了老產品與新的低成本進入者之間日益擴大的差距。 散戶准入恢復後,交易活動立即激增。根據Bitwise的數據,倫敦證券交易所比特幣ETN的平均每日交易量從10月初僅專業投資者有資格時的210萬美元增加到720萬美元。 以太幣ETN也出現類似勢頭,從190萬美元增加到440萬美元。Morningstar數據顯示,WisdomTree的Physical Bitcoin和Ethereum ETN自重新推出以來交易量最高,其次是iShares產品。 "活動激增重申了對這些資產敞口的特殊需求水平,"21Shares首席執行官Russell Barlow表示。 市場分析師預計,隨著更多發行商進入英國市場,競爭將進一步擴大產品多樣性並降低投資者成本。 FCA警告發行商關於激勵措施,年輕投資者推動興趣 儘管如此,FCA已敦促謹慎。在本週的一份聲明中,監管機構警告發行商不要提供激勵措施來吸引投資者,並進行嚴格的適當性評估。來源:英國FCA 公司必須提供冷靜期和明確的風險警告,強調加密ETN仍然是高風險工具,不受金融服務賠償計劃保障。 雖然Interactive Investor、Trading 212、Killik & Co.和Interactive Brokers等平台已開始允許散戶准入,但包括主要投資經紀商Hargreaves Lansdown和AJ Bell在內的其他機構尚未提供加密ETN。 Hargreaves Lansdown採取了明顯懷疑的立場,警告客戶不要將比特幣添加到投資組合中,並稱其"不是一種資產類別"。儘管持謹慎態度,該公司表示計劃在2026年初為"適當客戶"啟用交易。 FCA開放市場的決定標誌著英國加密行業的轉折點,該行業長期因監管進展緩慢而受到批評。 監管機構最近加快了加密公司的批准速度,將接受率增加到45%,並向BlackRock和Standard Chartered等機構授予許可證。 IG Group的市場研究表明,新的散戶准入可能將英國的加密投資市場擴大多達20%,近三分之一的成年人表示有興趣通過ETN購買數字資產。 18至34歲的年輕投資者興趣最強烈,他們將監管、安全性和稅收效率視為關鍵吸引力。
分享
CryptoNews2025/10/31 05:05