OpenAI dan Paradigm Meluncurkan EVMbench untuk Menguji Peretasan Kontrak Pintar AI
Rongchai Wang 05 Mar 2026 00:55
Benchmark baru mengevaluasi kemampuan agen AI untuk mendeteksi, memperbaiki, dan mengeksploitasi kerentanan kontrak pintar. GPT-5.3-Codex mencetak skor 72,2% pada tugas eksploitasi.
OpenAI dan perusahaan ventura kripto Paradigm telah merilis EVMbench, sebuah benchmark yang mengukur seberapa baik agen AI dapat menemukan, memperbaiki, dan mengeksploitasi kerentanan dalam kontrak pintar Ethereum. Pengumuman ini datang saat alat keamanan bertenaga AI berlomba untuk melindungi lebih dari $100 miliar yang terkunci dalam protokol DeFi.
Benchmark ini mengambil dari 120 kerentanan tingkat keparahan tinggi yang dikurasi dari 40 audit keamanan nyata, sebagian besar dari kompetisi Code4rena. Ini juga mencakup skenario kerentanan dari tinjauan keamanan Tempo, blockchain Layer 1 yang dibangun untuk pembayaran stablecoin.
Tiga Cara untuk Merusak Kontrak Pintar
EVMbench menguji agen AI dalam tiga mode berbeda. Dalam mode Detect, agen mengaudit repositori kontrak dan diberi skor berdasarkan penemuan kerentanan yang diketahui. Mode Patch mengharuskan agen memperbaiki kode yang rentan tanpa merusak fungsi yang ada. Mode Exploit adalah yang paling agresif—agen harus menjalankan serangan pengurasan dana aktual terhadap kontrak yang diterapkan pada blockchain bersandbox.
Hasilnya menunjukkan seberapa cepat kemampuan AI berkembang dalam domain ini. GPT-5.3-Codex yang berjalan melalui Codex CLI mencapai tingkat keberhasilan 72,2% pada tugas eksploitasi. Itu lebih dari dua kali lipat skor 31,9% dari GPT-5, yang diluncurkan hanya enam bulan sebelumnya.
Menariknya, agen AI berkinerja lebih baik dalam menyerang daripada bertahan. Pengaturan eksploitasi memiliki tujuan yang jelas—terus beriterasi sampai Anda menguras dana. Deteksi dan perbaikan terbukti lebih sulit. Agen terkadang berhenti setelah menemukan satu bug alih-alih mengaudit secara menyeluruh, dan mempertahankan fungsionalitas kontrak penuh sambil menghapus kerentanan yang halus tetap menantang.
Keterbatasan Nyata yang Perlu Diperhatikan
OpenAI mengakui EVMbench tidak menangkap kesulitan penuh keamanan kontrak dunia nyata. Protokol yang banyak diterapkan seperti Uniswap atau Aave menjalani pengawasan yang jauh lebih banyak daripada kode kompetisi audit. Benchmark ini juga tidak dapat memverifikasi apakah agen menemukan kerentanan sah yang terlewatkan oleh auditor manusia—hanya memeriksa terhadap masalah yang diketahui.
Lingkungan eksploitasi berjalan pada instance Anvil lokal yang bersih daripada status mainnet bercabang, dan serangan yang bergantung pada waktu berada di luar cakupan. Hanya lingkungan rantai tunggal untuk saat ini.
$10 Juta untuk Penelitian Defensif
Bersamaan dengan EVMbench, OpenAI berkomitmen $10 juta dalam kredit API khusus untuk penelitian keamanan defensif. Perusahaan ini memperluas agen penelitian keamanan Aardvark-nya ke lebih banyak pengguna dan bermitra dengan pengelola open-source untuk pemindaian basis kode gratis.
Waktunya penting. Ketika agen AI menjadi lebih baik dalam mengeksploitasi kontrak, jendela antara penemuan kerentanan dan eksploitasi menyusut. Tim protokol yang tidak menggunakan audit berbantuan AI akan semakin menemukan diri mereka dalam posisi yang tidak menguntungkan terhadap penyerang yang menggunakannya.
OpenAI merilis tugas, alat, dan kerangka evaluasi EVMbench secara publik. Untuk pengembang DeFi dan peneliti keamanan, ini adalah tolok ukur sekaligus peringatan tentang ke mana kemampuan AI menuju.
Sumber gambar: Shutterstock- openai
- paradigm
- kontrak pintar
- keamanan ai
- defi


