OpenAI dan Paradigm Meluncurkan EVMbench untuk Menguji Peretasan Kontrak Pintar AI

Rongchai Wang 05 Mar 2026 00:55

Benchmark baru mengevaluasi kemampuan agen AI untuk mendeteksi, memperbaiki, dan mengeksploitasi kerentanan kontrak pintar. GPT-5.3-Codex mencetak skor 72,2% pada tugas eksploitasi.

OpenAI dan Paradigm Meluncurkan EVMbench untuk Menguji Peretasan Kontrak Pintar AI

OpenAI dan perusahaan ventura kripto Paradigm telah merilis EVMbench, sebuah benchmark yang mengukur seberapa baik agen AI dapat menemukan, memperbaiki, dan mengeksploitasi kerentanan dalam kontrak pintar Ethereum. Pengumuman ini datang saat alat keamanan bertenaga AI berlomba untuk melindungi lebih dari $100 miliar yang terkunci dalam protokol DeFi.

Benchmark ini mengambil dari 120 kerentanan tingkat keparahan tinggi yang dikurasi dari 40 audit keamanan nyata, sebagian besar dari kompetisi Code4rena. Ini juga mencakup skenario kerentanan dari tinjauan keamanan Tempo, blockchain Layer 1 yang dibangun untuk pembayaran stablecoin.

Tiga Cara untuk Merusak Kontrak Pintar

EVMbench menguji agen AI dalam tiga mode berbeda. Dalam mode Detect, agen mengaudit repositori kontrak dan diberi skor berdasarkan penemuan kerentanan yang diketahui. Mode Patch mengharuskan agen memperbaiki kode yang rentan tanpa merusak fungsi yang ada. Mode Exploit adalah yang paling agresif—agen harus menjalankan serangan pengurasan dana aktual terhadap kontrak yang diterapkan pada blockchain bersandbox.

Hasilnya menunjukkan seberapa cepat kemampuan AI berkembang dalam domain ini. GPT-5.3-Codex yang berjalan melalui Codex CLI mencapai tingkat keberhasilan 72,2% pada tugas eksploitasi. Itu lebih dari dua kali lipat skor 31,9% dari GPT-5, yang diluncurkan hanya enam bulan sebelumnya.

Menariknya, agen AI berkinerja lebih baik dalam menyerang daripada bertahan. Pengaturan eksploitasi memiliki tujuan yang jelas—terus beriterasi sampai Anda menguras dana. Deteksi dan perbaikan terbukti lebih sulit. Agen terkadang berhenti setelah menemukan satu bug alih-alih mengaudit secara menyeluruh, dan mempertahankan fungsionalitas kontrak penuh sambil menghapus kerentanan yang halus tetap menantang.

Keterbatasan Nyata yang Perlu Diperhatikan

OpenAI mengakui EVMbench tidak menangkap kesulitan penuh keamanan kontrak dunia nyata. Protokol yang banyak diterapkan seperti Uniswap atau Aave menjalani pengawasan yang jauh lebih banyak daripada kode kompetisi audit. Benchmark ini juga tidak dapat memverifikasi apakah agen menemukan kerentanan sah yang terlewatkan oleh auditor manusia—hanya memeriksa terhadap masalah yang diketahui.

Lingkungan eksploitasi berjalan pada instance Anvil lokal yang bersih daripada status mainnet bercabang, dan serangan yang bergantung pada waktu berada di luar cakupan. Hanya lingkungan rantai tunggal untuk saat ini.

$10 Juta untuk Penelitian Defensif

Bersamaan dengan EVMbench, OpenAI berkomitmen $10 juta dalam kredit API khusus untuk penelitian keamanan defensif. Perusahaan ini memperluas agen penelitian keamanan Aardvark-nya ke lebih banyak pengguna dan bermitra dengan pengelola open-source untuk pemindaian basis kode gratis.

Waktunya penting. Ketika agen AI menjadi lebih baik dalam mengeksploitasi kontrak, jendela antara penemuan kerentanan dan eksploitasi menyusut. Tim protokol yang tidak menggunakan audit berbantuan AI akan semakin menemukan diri mereka dalam posisi yang tidak menguntungkan terhadap penyerang yang menggunakannya.

OpenAI merilis tugas, alat, dan kerangka evaluasi EVMbench secara publik. Untuk pengembang DeFi dan peneliti keamanan, ini adalah tolok ukur sekaligus peringatan tentang ke mana kemampuan AI menuju.

Sumber gambar: Shutterstock

openai
paradigm
kontrak pintar
keamanan ai
defi

OpenAI dan Paradigm Meluncurkan EVMbench untuk Menguji Peretasan Kontrak Pintar AI

OpenAI dan Paradigm Meluncurkan EVMbench untuk Menguji Peretasan Kontrak Pintar AI

Tiga Cara untuk Merusak Kontrak Pintar

Keterbatasan Nyata yang Perlu Diperhatikan

$10 Juta untuk Penelitian Defensif

Anda Mungkin Juga Menyukai

Pencurian Bitcoin Queenbee Coin: Detail Mengejutkan Muncul dari Investigasi Kepolisian Seoul

Tom Lee Gandakan Keyakinan saat BitMine Tingkatkan Kepemilikan Ethereum ke 4,47 Juta ETH

Pasar Kripto Hari Ini 5 Maret 2026: Bitcoin Rebound $73K, Reli Lanjut?

Berita yang Sedang Tren

Pencurian Bitcoin Queenbee Coin: Detail Mengejutkan Muncul dari Investigasi Kepolisian Seoul

Tom Lee Gandakan Keyakinan saat BitMine Tingkatkan Kepemilikan Ethereum ke 4,47 Juta ETH

Pasar Kripto Hari Ini 5 Maret 2026: Bitcoin Rebound $73K, Reli Lanjut?

Bitcoin Tembus US$ 71,800, Analis Prediksi Harga Bisa Naik ke US$ 81.000

Serangan Address Poisoning Menghancurkan Influencer Kripto: $24 Juta Dicuri dalam Penipuan Canggih

Bacaan Cepat

Apa itu Crypto CLAWSTR? Pengenalan Cryptocurrency CLAWSTR

Apa itu Autism Coin (AUTISM)? Pengenalan tentang Cryptocurrency

Apa itu HODL Coin HODL? Pengenalan Cryptocurrency

Apa itu Token Milady MILADY? Pengenalan tentang Cryptocurrency

Apa itu Archer Aviation Tokenized Stock (ACHRON)? Pengenalan Cryptocurrency

Harga Kripto