OpenAI i Paradigm uruchamiają EVMbench do testowania hackowania inteligentnych kontraktów przez AI
Rongchai Wang 05 mar 2026 00:55
Nowy benchmark ocenia zdolność agentów AI do wykrywania, naprawiania i wykorzystywania luk w inteligentnych kontraktach. GPT-5.3-Codex osiąga 72,2% w zadaniach exploitowych.
OpenAI i firma venture capital z branży krypto Paradigm opublikowały EVMbench, benchmark mierzący jak dobrze agenci AI potrafią znajdować, naprawiać i wykorzystywać luki w inteligentnych kontraktach Ethereum. Ogłoszenie następuje w czasie, gdy narzędzia bezpieczeństwa oparte na AI ścigają się, aby chronić ponad 100 miliardów dolarów zablokowanych w protokołach DeFi.
Benchmark czerpie ze 120 wyselekcjonowanych luk o wysokiej krytyczności pochodzących z 40 rzeczywistych audytów bezpieczeństwa, głównie z konkursów Code4rena. Zawiera również scenariusze luk z przeglądów bezpieczeństwa Tempo, blockchainu Layer 1 zbudowanego dla płatności stablecoinami.
Trzy sposoby na złamanie inteligentnych kontraktów
EVMbench testuje agentów AI w trzech różnych trybach. W trybie wykrywania (Detect) agenci audytują repozytoria kontraktów i są oceniani za znajdowanie znanych luk. Tryb naprawy (Patch) wymaga od agentów naprawienia podatnego kodu bez łamania istniejącej funkcjonalności. Tryb exploitowy (Exploit) jest najbardziej agresywny — agenci muszą wykonać rzeczywiste ataki drenujące fundusze przeciwko kontraktom wdrożonym na sandboxowym blockchainie.
Wyniki pokazują, jak szybko rozwijają się możliwości AI w tej dziedzinie. GPT-5.3-Codex działający przez Codex CLI osiągnął 72,2% wskaźnik sukcesu w zadaniach exploitowych. To ponad dwukrotnie więcej niż 31,9% wyniku GPT-5, który został uruchomiony zaledwie sześć miesięcy wcześniej.
Co ciekawe, agenci AI lepiej radzą sobie z atakowaniem niż obroną. Ustawienie exploitowe ma jasny cel — kontynuuj iterację, aż wydrenujesz fundusze. Wykrywanie i naprawianie okazały się trudniejsze. Agenci czasami zatrzymywali się po znalezieniu jednego błędu zamiast przeprowadzić wyczerpujący audyt, a utrzymanie pełnej funkcjonalności kontraktu przy jednoczesnym usuwaniu subtelnych luk pozostawało wyzwaniem.
Rzeczywiste ograniczenia warte odnotowania
OpenAI przyznało, że EVMbench nie oddaje pełnej trudności bezpieczeństwa kontraktów w rzeczywistym świecie. Szeroko wdrożone protokoły jak Uniswap czy Aave przechodzą znacznie większą kontrolę niż kod z konkursu audytowego. Benchmark również nie może zweryfikować, czy agent znajdzie prawdziwe luki, które pominęli ludzcy audytorzy — sprawdza tylko znane problemy.
Środowisko exploitowe działa na czystej lokalnej instancji Anvil, a nie na sforkowanym stanie mainnetu, a ataki zależne od czasu wykraczają poza zakres. Na razie tylko środowiska jednołańcuchowe.
10 milionów dolarów na badania defensywne
Obok EVMbench, OpenAI zobowiązało się do 10 milionów dolarów w kredytach API specjalnie na badania bezpieczeństwa defensywnego. Firma rozszerza swojego agenta badawczego bezpieczeństwa Aardvark na więcej użytkowników i współpracuje z opiekunami open-source w zakresie bezpłatnego skanowania bazy kodu.
Timing ma znaczenie. W miarę jak agenci AI stają się lepsi w wykorzystywaniu kontraktów, okno między odkryciem luki a exploitem kurczy się. Zespoły protokołów, które nie korzystają z audytu wspomaganego AI, coraz częściej będą w niekorzystnej sytuacji w stosunku do atakujących, którzy to robią.
OpenAI publicznie udostępniło zadania, narzędzia i framework oceny EVMbench. Dla deweloperów DeFi i badaczy bezpieczeństwa to zarówno miara, jak i ostrzeżenie o tym, dokąd zmierzają możliwości AI.
Źródło obrazu: Shutterstock- openai
- paradigm
- inteligentne kontrakty
- bezpieczeństwo ai
- defi


