Gemma dari Google Sudah Bertindak Seperti Gemini—Seseorang Membuatnya Berpikir Seperti Claude Opus Juga

Jika Anda mengikuti perkembangan AI lokal, Anda mungkin sudah mengenal Qwopus—model open-source yang mencoba menyuling penalaran Claude Opus 4.6 ke dalam Qwen milik Alibaba, sehingga Anda dapat menjalankan sesuatu yang menyerupai Opus di perangkat keras Anda sendiri secara gratis. Hasilnya mengejutkan. Kendalanya jelas: Qwen adalah model China, dan tidak semua orang merasa nyaman dengan itu.

Jackrong, pengembang pseudonim yang sama di balik proyek tersebut, mendengar masukan ini. Jawabannya adalah Gemopus—keluarga baru fine-tune bergaya Claude Opus yang dibangun sepenuhnya di atas Gemma 4 open-source milik Google. DNA Amerika sepenuhnya, ide yang sama: penalaran tingkat frontier, berjalan secara lokal di perangkat keras yang sudah Anda miliki.

Keluarga ini hadir dalam dua varian. Gemopus-4-26B-A4B adalah opsi yang lebih berat—model Mixture of Experts yang memiliki total 26 miliar parameter tetapi hanya mengaktifkan sekitar 4 miliar selama inferensi, yang berarti kinerjanya jauh melebihi bobotnya pada perangkat keras terbatas.

Parameter adalah yang menentukan kapasitas AI untuk belajar, bernalar, dan menyimpan informasi. Memiliki total 26 miliar parameter memberikan model luasnya pengetahuan yang besar. Tetapi dengan hanya "membangunkan" 4 miliar parameter yang relevan dengan prompt spesifik Anda, ia menghasilkan hasil berkualitas tinggi dari AI masif sambil tetap ringan untuk berjalan lancar di perangkat keras sehari-hari.

Yang lainnya adalah Gemopus-4-E4B, model edge 4 miliar parameter yang dirancang untuk berjalan dengan nyaman di iPhone modern atau MacBook tipis dan ringan—tanpa memerlukan GPU.

Pilihan model dasar penting di sini. Gemma 4 milik Google, yang dirilis pada 2 April, dibangun langsung dari riset dan teknologi yang sama dengan Gemini 3—perusahaan menyatakannya secara eksplisit saat peluncuran. Itu berarti Gemopus membawa sesuatu yang tidak dapat diklaim oleh fine-tune berbasis Qwen mana pun: DNA dari model tertutup canggih Google sendiri di dalamnya, dibungkus dengan gaya pemikiran Anthropic di atasnya. Yang terbaik dari kedua dunia, kurang lebih.

Yang membuat Gemopus berbeda dari gelombang fine-tune Gemma lain yang membanjiri Hugging Face saat ini adalah filosofi di baliknya. Jackrong dengan sengaja memilih untuk tidak memaksakan jejak penalaran chain-of-thought Claude ke dalam bobot Gemma—jalan pintas yang diambil sebagian besar rilis pesaing.

Argumennya, didukung oleh penelitian terbaru, adalah bahwa mengisi model siswa dengan teks penalaran tingkat permukaan guru sebenarnya tidak mentransfer kemampuan penalaran nyata. Ini mengajarkan imitasi, bukan logika. "Tidak perlu imajinasi berlebihan atau replikasi takhayul dari chain of thought bergaya Claude," demikian kartu model tersebut. Sebaliknya, ia fokus pada kualitas jawaban, kejelasan struktural, dan kealamian percakapan—memperbaiki nada Wikipedia yang kaku dari Gemma dan kecenderungannya untuk menguliahi Anda tentang hal-hal yang tidak Anda tanyakan.

Insinyur infrastruktur AI Kyle Hessling menjalankan benchmark independen dan menerbitkan hasilnya langsung di kartu model. Vonis untuk varian 26B cukup menguntungkan. "Senang telah melakukan benchmark model ini cukup keras dan ini adalah finetune yang sangat baik dari model yang sudah luar biasa," tulisnya di X. "Ia sangat bagus untuk permintaan one-shot pada konteks panjang, dan berjalan sangat cepat berkat arsitektur MOE (mixture of experts)."

Varian E4B yang lebih kecil lulus semua 14 tes kompetensi inti—mengikuti instruksi, coding, matematika, penalaran multi-langkah, terjemahan, keamanan, caching—dan melewati semua 12 tes konteks panjang pada 30K dan 60K token. Pada pengambilan needle-in-haystack, ia lulus 13 dari 13 probe termasuk tes peregangan pada satu juta token dengan penskalaan YaRN 8× RoPE.

26B meluas secara native ke konteks 131K dan hingga 524K dengan YaRN, yang juga diuji stres oleh Hessling: "Ia juga menghancurkan tes needle-in-the-haystack sederhana saya hingga konteks yang diperluas 524k!"

Pada perangkat keras edge, E4B benar-benar cepat. Jackrong melaporkan 45–60 token per detik di iPhone 17 Pro Max, dan 90–120 token per detik di MacBook Air M3/M4 melalui MLX. Arsitektur 26B MoE berarti ia offload dengan anggun pada sistem unified memory atau GPU dengan VRAM di bawah 10GB. Hessling menyebutnya sebagai rekomendasi penggunaan sehari-hari untuk pengaturan yang kekurangan VRAM.

Kedua model tersedia dalam format GGUF, yang berarti Anda dapat langsung memasukkannya ke LM Studio atau llama.cpp tanpa konfigurasi. Kode pelatihan lengkap dan panduan fine-tuning langkah demi langkah ada di GitHub Jackrong—pipeline yang sama yang ia gunakan untuk Qwopus, pengaturan Unsloth dan LoRA yang sama, dapat direproduksi di Colab.

Gemopus tidak tanpa kekasaran. Tool calling tetap rusak di seluruh seri Gemma 4 di llama.cpp dan LM Studio—kegagalan panggilan, ketidakcocokan format, loop—jadi jika alur kerja Anda bergantung pada agen yang menggunakan alat eksternal, ini belum model Anda. Jackrong sendiri menyebutnya "referensi eksplorasi rekayasa daripada solusi yang sepenuhnya siap produksi," dan merekomendasikan seri Qwopus 3.5 miliknya sendiri untuk siapa pun yang membutuhkan sesuatu yang lebih stabil untuk beban kerja nyata.

Dan karena Jackrong dengan sengaja menghindari distilasi chain-of-thought bergaya Claude yang agresif, jangan berharap ia terasa sedalam Opus-brained seperti Qwopus—itu adalah trade-off yang disadari untuk stabilitas, bukan kelalaian.

Bagi mereka yang ingin mendalami fine-tuning Gemma untuk penalaran secara khusus, ada juga proyek komunitas terpisah yang layak diperhatikan: Ornstein oleh pengembang pseudonim DJLougen, yang mengambil basis Gemma 4 26B yang sama dan berfokus secara khusus pada peningkatan rantai penalarannya tanpa bergantung pada logika atau gaya model pihak ketiga tertentu.

Satu peringatan jujur: Dinamika pelatihan Gemma lebih berantakan daripada Qwen untuk fine-tuner—fluktuasi loss yang lebih lebar, sensitivitas hyperparameter lebih besar. Jackrong sendiri mengatakannya. Jika Anda memerlukan model lokal yang lebih teruji untuk alur kerja produksi, seri Qwopus 3.5 miliknya tetap lebih tervalidasi dengan kuat. Tetapi jika Anda menginginkan model Amerika dengan poles bergaya Opus, Gemopus saat ini adalah opsi terbaik Anda yang tersedia. Varian Gemopus 31B yang lebih padat juga sedang dalam pengembangan, dengan Hessling menggodanya sebagai "pasti luar biasa."

Jika Anda ingin mencoba menjalankan model lokal di perangkat keras Anda sendiri, periksa panduan kami tentang cara memulai dengan AI lokal.

Newsletter Daily Debrief

Mulai setiap hari dengan berita utama saat ini, plus fitur orisinal, podcast, video, dan lainnya.

Sumber: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai

Gemma dari Google Sudah Bertindak Seperti Gemini—Seseorang Membuatnya Berpikir Seperti Claude Opus Juga

Newsletter Daily Debrief

Anda Mungkin Juga Menyukai

Presiden AS Trump: Tidak memikirkan untuk memperpanjang gencatan senjata

Pembaruan Peningkatan Node Pi Network Mengkonfirmasi Kemajuan Stabil Menuju Evolusi Mainnet

Naik Panggung di Consensus 2026: Era Baru untuk Kripto, AI, dan Utilitas Dunia Nyata

Berita yang Sedang Tren

Aktivitas Whale Chainlink Naik Sementara Harga Turun Selama 7 Bulan Berturut-Turut

SEC Hapus Aturan Pattern Day Trader US$25.000 dalam Perombakan Trading Ritel

Harga emas di India: Tarif pada 15 April

Indeks Dolar AS bertahan di atas 98,00 meskipun optimisme pasar meningkat

X Luncurkan Cashtags sebagai Langkah Awal dalam Dorongan Keuangan dan Aset Kripto

Berita Live 24/7

Bacaan Cepat

Apakah Jable.tv Gratis atau Dibayar? (Dan Mengapa Crypto Mengubah Pembayaran Privasi Online)

Apakah Jable.tv Aman? Jawaban Jujur Sebelum Anda Klik

BNB (BNB) Harga Terbaru: Pembaruan Pasar Terkini

Prediksi Harga Bullish Ripple (XRP)

Apa itu PORN COIN (PORN)? Token Hiburan Dewasa Dijelaskan

Harga Kripto