OpenAI merilis GPT-5.5 pada 23 April, dengan nama kode “Spud”, yang memperkenalkan model ini sebagai sistem paling andal untuk pekerjaan otonom yang membutuhkan banyak langkah.
Peluncuran ini terjadi satu minggu setelah Anthropic meluncurkan Claude Opus 4.7, sehingga kedua model terdepan ini langsung bersaing ketat.
GPT-5.5 dirancang untuk melakukan perencanaan, eksekusi, verifikasi, dan perulangan tugas melalui berbagai alat tanpa perlu pengawasan manusia secara terus-menerus. OpenAI menjelaskan model ini sebagai “kelas kecerdasan baru untuk pekerjaan nyata dan memperkuat agen.”
Ikuti kami di X untuk mendapatkan berita terbaru secara langsung
Model ini sudah tersedia untuk pengguna ChatGPT Plus, Pro, Business, dan Enterprise. Tersedia juga varian Pro yang lebih kuat. Biaya API mulai dari US$5 per satu juta token input dan US$30 per satu juta token output, dengan context window sebanyak satu juta token.
Benchmark internal OpenAI menunjukkan GPT-5.5 melampaui Claude Opus 4.7 dalam berbagai tugas agentic. GPT-5.5 mencatat skor 82,7% di Terminal-Bench 2.0, dibandingkan 69,4% untuk Opus 4.7.
Pada FrontierMath Tiers 1 sampai 3, model ini meraih 51,7%, sementara Opus 4.7 hanya mendapatkan 43,8%. Pengujian independen awal juga menunjukkan tren serupa dalam evaluasi coding dan pekerjaan berbasis pengetahuan.
Model Anthropic tetap unggul dalam penulisan riset, penalaran hukum dan keuangan, serta konsistensi mengikuti instruksi, menurut penilai independen.
Opus 4.7 juga mendukung penglihatan beresolusi tinggi hingga 3,75 megapiksel, lebih dari tiga kali lipat dibanding pendahulunya.
Dalam penggunaan komputer, jaraknya semakin dekat. GPT-5.5 mencatat skor 78,7% di OSWorld-Verified, sementara Opus 4.7 memperoleh skor 78,0%.
Kedua model ini juga bersaing pada benchmark browsing, di mana GPT-5.5 Pro unggul dengan 90,1% dibanding Opus 4.7 yang meraih 79,3%.
Peluncuran yang berdekatan ini mencerminkan pola yang lebih luas. OpenAI telah menghadirkan beberapa varian GPT-5.x tahun ini, sementara Anthropic konsisten mengupgrade Claude melalui beberapa rilisan.
Gemini 3.1 Pro dari Google juga bersaing di pasar enterprise yang sama.
Bagi pengembang yang ingin memilih di antara kedua model, keputusan utamanya mungkin tergantung pada kebutuhan penggunaan. GPT-5.5 nampaknya lebih kuat untuk otomatisasi agentic dan coding jangka panjang.
Claude Opus 4.7 mungkin lebih cocok untuk alur kerja analitik yang memerlukan presisi tinggi. Apakah benchmark independen nantinya bisa mengonfirmasi angka yang dipublikasikan OpenAI akan terlihat dalam beberapa hari ke depan.
Langganan channel YouTube kami untuk menyaksikan pemimpin dan jurnalis berbagi wawasan ahli

