OpenAIとParadigmがAIスマートコントラクトハッキングをテストするEVMbenchをリリース
Rongchai Wang 2026/3/5 0:55
新しいベンチマークは、AIエージェントがスマートコントラクトの脆弱性を検出、修正、悪用する能力を評価します。GPT-5.3-Codexは悪用タスクで72.2%のスコアを記録しました。
OpenAIと暗号資産ベンチャー企業ParadigmはEVMbenchをリリースしました。これは、AIエージェントがイーサリアムブロックチェーンのスマートコントラクトの脆弱性をどれだけうまく発見、修正、悪用できるかを測定するベンチマークです。この発表は、AI搭載セキュリティツールが分散型金融プロトコルにロックされた1000億ドル以上を保護するために競争している中で行われました。
このベンチマークは、主にCode4renaコンペティションからの40件の実際のセキュリティ監査から抽出された120件の厳選された高重度の脆弱性に基づいています。また、ステーブルコイン決済のために構築されたレイヤー1ブロックチェーンであるTempoのセキュリティレビューからの脆弱性シナリオも含まれています。
スマートコントラクトを破る3つの方法
EVMbenchは、3つの異なるモードでAIエージェントをテストします。検出モードでは、エージェントがコントラクトリポジトリを監査し、既知の脆弱性の発見でスコアが付けられます。パッチモードでは、エージェントは既存の機能を壊すことなく脆弱なコードを修正する必要があります。悪用モードは最も攻撃的で、エージェントはサンドボックス化されたブロックチェーンに展開されたコントラクトに対して実際の資金流出攻撃を実行しなければなりません。
結果は、この分野でAI能力がいかに急速に進歩しているかを示しています。Codex CLIを介して実行されるGPT-5.3-Codexは、悪用タスクで72.2%の成功率を達成しました。これは、わずか6か月前にリリースされたGPT-5の31.9%のスコアの2倍以上です。
興味深いことに、AIエージェントは防御よりも攻撃のほうが優れています。悪用設定には明確な目標があります—資金を流出させるまで反復を続けることです。検出とパッチ適用はより困難であることが証明されました。エージェントは、徹底的に監査する代わりに1つのバグを見つけた後に停止することがあり、微妙な脆弱性を取り除きながら完全なコントラクト機能を維持することは依然として困難でした。
注目すべき実際の制限
OpenAIは、EVMbenchが実際のコントラクトセキュリティの完全な難しさを捉えていないことを認めています。UniswapやAaveのような大規模に展開されたプロトコルは、監査コンペティションのコードよりもはるかに多くの精査を受けています。このベンチマークは、エージェントが人間の監査人が見逃した正当な脆弱性を発見するかどうかを検証することもできません—既知の問題に対してのみチェックします。
悪用環境は、フォークされたメインネット状態ではなく、クリーンなローカルAnvilインスタンスで実行され、タイミング依存の攻撃は範囲外です。現時点ではシングルチェーン環境のみです。
防御研究のための1000万ドル
EVMbenchと並行して、OpenAIは防御的セキュリティ研究専用に1000万ドルのAPIクレジットを約束しました。同社はAardvarkセキュリティ研究エージェントをより多くのユーザーに拡大し、オープンソースメンテナーと提携して無料のコードベーススキャンを提供しています。
タイミングは重要です。AIエージェントがコントラクトの悪用が上手くなるにつれて、脆弱性の発見と悪用の間の時間は短縮されます。AI支援監査を使用していないプロトコルチームは、それを使用している攻撃者に対してますます不利になるでしょう。
OpenAIはEVMbenchのタスク、ツール、評価フレームワークを公開しました。分散型金融開発者とセキュリティ研究者にとって、これはAI能力が向かっている方向についての測定基準であり警告でもあります。
画像ソース: Shutterstock- openai
- paradigm
- スマートコントラクト
- aiセキュリティ
- defi

