NVIDIA NeMo RL Mencapai Peningkatan Kecepatan 48% dengan Pelatihan Presisi FP8 End-to-End

Jessie A Ellis 20 Apr 2026 23:41

Resep FP8 baru NVIDIA untuk pembelajaran penguatan menghasilkan pelatihan 48% lebih cepat sambil menyamai akurasi BF16, memangkas biaya infrastruktur AI secara signifikan.

NVIDIA NeMo RL Mencapai Peningkatan Kecepatan 48% dengan Pelatihan Presisi FP8 End-to-End

NVIDIA telah merilis resep presisi FP8 yang komprehensif untuk pembelajaran penguatan yang menghasilkan throughput pelatihan hingga 48% lebih cepat sambil mempertahankan kesetaraan akurasi dengan pendekatan BF16 tradisional—sebuah pengembangan dengan implikasi signifikan terhadap biaya infrastruktur AI dan ekonomi komputasi GPU.

Teknik ini, yang dijelaskan secara rinci dalam posting blog teknis dari Guyue Huang NVIDIA, mengatasi salah satu masalah paling rumit dalam pelatihan RL: ketidaksesuaian numerik antara fase generasi dan pelatihan ketika menggunakan tingkat presisi berbeda di seluruh mesin terpisah.

Terobosan Teknis

Pipeline RL tradisional menggunakan vLLM untuk rollout dan Megatron Core untuk pelatihan—masing-masing dengan kernel CUDA unik yang memperkenalkan perbedaan numerik kumulatif. Perbedaan ini membesar pada tingkat presisi yang lebih rendah, secara historis membatasi adopsi FP8.

Solusi NVIDIA? Menerapkan FP8 secara konsisten di seluruh generasi dan pelatihan daripada mencampur tingkat presisi. Pengujian pada Llama 3.1 8B Instruct menunjukkan akurasi validasi 0,613 dengan FP8 end-to-end versus 0,616 untuk BF16—secara efektif menutup kesenjangan. Sementara itu, menggunakan FP8 hanya untuk generasi menurunkan akurasi menjadi 0,586.

Resep ini menggunakan FP8 terkuantisasi blok-demi-blok (format E4M3) dengan granularitas 128x128 untuk bobot dan 1x128 untuk aktivasi. Lapisan linear menjalankan matematika FP8 pada throughput puncak teoritis 2x versus BF16, sementara perhatian, normalisasi, dan fungsi non-linear tetap dalam BF16.

Keuntungan Kinerja Dunia Nyata

Untuk lapisan linear saja, resep FP8 memberikan peningkatan throughput konsisten 15-25%. Kesenjangan antara peningkatan kecepatan teoritis 2x dan keuntungan aktual berasal dari lapisan perhatian yang tetap dalam BF16 ditambah overhead kernel kuantisasi.

Memperluas FP8 ke cache KV dan operasi perhatian mendorong peningkatan kecepatan total menjadi sekitar 48% di atas baseline BF16. Kendalanya: bobot kebijakan RL yang terus diperbarui memerlukan rekalibrasi dinamis skala kuantisasi setelah setiap langkah pelatihan. Pendekatan NVIDIA menambahkan overhead sekitar 2-3% untuk rekalibrasi ini—biaya kecil untuk akselerasi substansial.

Pengujian pada Qwen3-30B (model mixture-of-experts) menunjukkan kurva akurasi yang sesuai antara konfigurasi FP8 dan BF16, menunjukkan teknik ini dapat diskalakan di seluruh arsitektur.

Mengapa Ini Penting untuk Ekonomi AI

Pelatihan RL untuk model yang mampu bernalar seperti yang ada di balik asisten AI canggih membutuhkan komputasi masif. Peningkatan kecepatan 48% diterjemahkan langsung menjadi pengurangan jam-GPU dan tagihan listrik yang lebih rendah untuk organisasi yang melatih sistem ini.

Teknik pengambilan sampel penting yang memungkinkan pelestarian akurasi bisa terbukti sama berharganya. Dengan mengoreksi ketidaksesuaian distribusi antara model generasi dan pelatihan berdasarkan per-token, ini memungkinkan pengurangan presisi agresif tanpa mengorbankan kualitas model.

Implementasi lengkap tersedia di perpustakaan NeMo RL open-source NVIDIA, dengan resep pra-konfigurasi untuk model Llama 3.1 8B dan Moonlight 16B. Pengguna tingkat lanjut dapat menyetel pendekatan ini—menjaga lapisan transformer tertentu dalam BF16 atau beralih ke faktor penskalaan pangkat-2 untuk optimasi tambahan.

Untuk operator infrastruktur AI yang menyaksikan biaya komputasi meningkat seiring kompleksitas model, ini mewakili tuas efisiensi yang bermakna yang tidak memerlukan peningkatan perangkat keras—hanya penggunaan kemampuan H100 yang ada dengan lebih cerdas.

Sumber gambar: Shutterstock

nvidia
pelatihan ai
presisi fp8
pembelajaran mesin
nemo rl

NVIDIA NeMo RL Mencapai Peningkatan Kecepatan 48% dengan Pelatihan Presisi FP8 End-to-End

NVIDIA NeMo RL Mencapai Peningkatan Kecepatan 48% dengan Pelatihan Presisi FP8 End-to-End

Terobosan Teknis

Keuntungan Kinerja Dunia Nyata

Mengapa Ini Penting untuk Ekonomi AI

Anda Mungkin Juga Menyukai

Kospi Cetak Rekor Baru saat Saham Chip Reli karena Permintaan AI

Ripple Tetapkan Target 2028 untuk Membuat XRP Ledger Siap Menghadapi Kuantum

Revolut Menunda IPO hingga 2028 Setelah Mendapatkan Lisensi Perbankan Inggris

Berita yang Sedang Tren

Bank-Bank Besar Jepang Bawa Obligasi Pemerintah ke Chain

3,61 Juta Transaksi Ethereum Tembus Rekor, Tapi Harga ETH “Mentok” di $2.000-an

Aave Diguncang Badai Likuiditas, TVL Amblas $7 Miliar

Kita telah menormalisasi kompleks mesias Trump — dan apa artinya bagi Amerika

Bitmine Membeli 101K ETH, Mendekati Target 5% Pasokan

Berita Live 24/7

Bacaan Cepat

Bitcoin Tergelincir Di Bawah $75K: Pembicaraan Iran Runtuh, Pasar Crypto Bersiap untuk Dampak

BEEG vs PEPE: Bisakah Sui Meme Coin Ini Mengulangi Reli Terbesar Crypto?

BEEG vs BONK: Koin Meme Mana yang Memegang Upside Ledakan Lebih Banyak pada tahun 2026?

$293M Hilang dalam 46 Menit: Peretasan Jembatan Kelp DAO Yang Memecahkan Asumsi Terbesar DeFi

Prediksi Harga BEEG 2026: Seberapa Tinggi Beeg Blue Whale Dapat Pergi Secara Realistis Tahun Ini?

Harga Kripto