Resep FP8 baru NVIDIA untuk pembelajaran penguatan menghasilkan pelatihan 48% lebih cepat sambil menyamai akurasi BF16, memangkas biaya infrastruktur AI secara signifikan. (BacaResep FP8 baru NVIDIA untuk pembelajaran penguatan menghasilkan pelatihan 48% lebih cepat sambil menyamai akurasi BF16, memangkas biaya infrastruktur AI secara signifikan. (Baca

NVIDIA NeMo RL Mencapai Peningkatan Kecepatan 48% dengan Pelatihan Presisi FP8 End-to-End

2026/04/21 07:41
durasi baca 3 menit
Untuk memberikan masukan atau menyampaikan kekhawatiran terkait konten ini, silakan hubungi kami di crypto.news@mexc.com

NVIDIA NeMo RL Mencapai Peningkatan Kecepatan 48% dengan Pelatihan Presisi FP8 End-to-End

Jessie A Ellis 20 Apr 2026 23:41

Resep FP8 baru NVIDIA untuk pembelajaran penguatan menghasilkan pelatihan 48% lebih cepat sambil menyamai akurasi BF16, memangkas biaya infrastruktur AI secara signifikan.

NVIDIA NeMo RL Mencapai Peningkatan Kecepatan 48% dengan Pelatihan Presisi FP8 End-to-End

NVIDIA telah merilis resep presisi FP8 yang komprehensif untuk pembelajaran penguatan yang menghasilkan throughput pelatihan hingga 48% lebih cepat sambil mempertahankan kesetaraan akurasi dengan pendekatan BF16 tradisional—sebuah pengembangan dengan implikasi signifikan terhadap biaya infrastruktur AI dan ekonomi komputasi GPU.

Teknik ini, yang dijelaskan secara rinci dalam posting blog teknis dari Guyue Huang NVIDIA, mengatasi salah satu masalah paling rumit dalam pelatihan RL: ketidaksesuaian numerik antara fase generasi dan pelatihan ketika menggunakan tingkat presisi berbeda di seluruh mesin terpisah.

Terobosan Teknis

Pipeline RL tradisional menggunakan vLLM untuk rollout dan Megatron Core untuk pelatihan—masing-masing dengan kernel CUDA unik yang memperkenalkan perbedaan numerik kumulatif. Perbedaan ini membesar pada tingkat presisi yang lebih rendah, secara historis membatasi adopsi FP8.

Solusi NVIDIA? Menerapkan FP8 secara konsisten di seluruh generasi dan pelatihan daripada mencampur tingkat presisi. Pengujian pada Llama 3.1 8B Instruct menunjukkan akurasi validasi 0,613 dengan FP8 end-to-end versus 0,616 untuk BF16—secara efektif menutup kesenjangan. Sementara itu, menggunakan FP8 hanya untuk generasi menurunkan akurasi menjadi 0,586.

Resep ini menggunakan FP8 terkuantisasi blok-demi-blok (format E4M3) dengan granularitas 128x128 untuk bobot dan 1x128 untuk aktivasi. Lapisan linear menjalankan matematika FP8 pada throughput puncak teoritis 2x versus BF16, sementara perhatian, normalisasi, dan fungsi non-linear tetap dalam BF16.

Keuntungan Kinerja Dunia Nyata

Untuk lapisan linear saja, resep FP8 memberikan peningkatan throughput konsisten 15-25%. Kesenjangan antara peningkatan kecepatan teoritis 2x dan keuntungan aktual berasal dari lapisan perhatian yang tetap dalam BF16 ditambah overhead kernel kuantisasi.

Memperluas FP8 ke cache KV dan operasi perhatian mendorong peningkatan kecepatan total menjadi sekitar 48% di atas baseline BF16. Kendalanya: bobot kebijakan RL yang terus diperbarui memerlukan rekalibrasi dinamis skala kuantisasi setelah setiap langkah pelatihan. Pendekatan NVIDIA menambahkan overhead sekitar 2-3% untuk rekalibrasi ini—biaya kecil untuk akselerasi substansial.

Pengujian pada Qwen3-30B (model mixture-of-experts) menunjukkan kurva akurasi yang sesuai antara konfigurasi FP8 dan BF16, menunjukkan teknik ini dapat diskalakan di seluruh arsitektur.

Mengapa Ini Penting untuk Ekonomi AI

Pelatihan RL untuk model yang mampu bernalar seperti yang ada di balik asisten AI canggih membutuhkan komputasi masif. Peningkatan kecepatan 48% diterjemahkan langsung menjadi pengurangan jam-GPU dan tagihan listrik yang lebih rendah untuk organisasi yang melatih sistem ini.

Teknik pengambilan sampel penting yang memungkinkan pelestarian akurasi bisa terbukti sama berharganya. Dengan mengoreksi ketidaksesuaian distribusi antara model generasi dan pelatihan berdasarkan per-token, ini memungkinkan pengurangan presisi agresif tanpa mengorbankan kualitas model.

Implementasi lengkap tersedia di perpustakaan NeMo RL open-source NVIDIA, dengan resep pra-konfigurasi untuk model Llama 3.1 8B dan Moonlight 16B. Pengguna tingkat lanjut dapat menyetel pendekatan ini—menjaga lapisan transformer tertentu dalam BF16 atau beralih ke faktor penskalaan pangkat-2 untuk optimasi tambahan.

Untuk operator infrastruktur AI yang menyaksikan biaya komputasi meningkat seiring kompleksitas model, ini mewakili tuas efisiensi yang bermakna yang tidak memerlukan peningkatan perangkat keras—hanya penggunaan kemampuan H100 yang ada dengan lebih cerdas.

Sumber gambar: Shutterstock
  • nvidia
  • pelatihan ai
  • presisi fp8
  • pembelajaran mesin
  • nemo rl
Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi crypto.news@mexc.com agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.

USD1 Genesis: 0 Biaya + 12% APR

USD1 Genesis: 0 Biaya + 12% APRUSD1 Genesis: 0 Biaya + 12% APR

Pengguna baru: stake hingga 600% APR Waktu terbatas!