Αν παρακολουθείτε τη σκηνή του τοπικού AI, πιθανότατα γνωρίζετε το Qwopus—το μοντέλο ανοιχτού κώδικα που προσπάθησε να αποστάξει τη λογική του Claude Opus 4.6 στο Qwen της Alibaba, ώστε να μπορείτε να εκτελέσετε κάτι που μοιάζει με το Opus στο δικό σας υλικό δωρεάν. Λειτούργησε εκπληκτικά καλά. Το προφανές μειονέκτημα: Το Qwen είναι κινεζικό μοντέλο και δεν νιώθουν όλοι άνετα με αυτό.
Ο Jackrong, ο ίδιος ψευδώνυμος προγραμματιστής πίσω από αυτό το έργο, άκουσε τα σχόλια. Η απάντησή του είναι το Gemopus—μια νέα οικογένεια fine-tunes σε στυλ Claude Opus που βασίζονται εξολοκλήρου στο ανοιχτού κώδικα Gemma 4 της Google. Καθαρά αμερικανικό DNA, ίδια ιδέα: λογική πρωτοποριακού επιπέδου, που εκτελείται τοπικά στο υλικό που ήδη κατέχετε.
Η οικογένεια διατίθεται σε δύο εκδοχές. Το Gemopus-4-26B-A4B είναι η βαρύτερη επιλογή—ένα μοντέλο Mixture of Experts που διαθέτει 26 δισεκατομμύρια συνολικές παραμέτρους αλλά ενεργοποιεί μόνο περίπου 4 δισεκατομμύρια κατά τη διάρκεια της εξαγωγής συμπερασμάτων, που σημαίνει ότι αποδίδει πολύ πάνω από το βάρος του σε περιορισμένο υλικό.
Οι παράμετροι είναι αυτές που καθορίζουν την ικανότητα ενός AI να μαθαίνει, να συλλογίζεται και να αποθηκεύει πληροφορίες. Το να έχει 26 δισεκατομμύρια συνολικές παραμέτρους δίνει στο μοντέλο τεράστιο εύρος γνώσης. Αλλά «ξυπνώντας» μόνο τα 4 δισεκατομμύρια παραμέτρους που σχετίζονται με τη συγκεκριμένη εντολή σας, παρέχει τα υψηλής ποιότητας αποτελέσματα ενός τεράστιου AI ενώ παραμένει αρκετά ελαφρύ για να τρέχει ομαλά σε καθημερινό υλικό.
Το άλλο είναι το Gemopus-4-E4B, ένα edge μοντέλο 4 δισεκατομμυρίων παραμέτρων σχεδιασμένο να εκτελείται άνετα σε ένα σύγχρονο iPhone ή ένα λεπτό και ελαφρύ MacBook—χωρίς να απαιτείται GPU.
Η επιλογή του βασικού μοντέλου έχει σημασία εδώ. Το Gemma 4 της Google, που κυκλοφόρησε στις 2 Απριλίου, είναι κατασκευασμένο απευθείας από την ίδια έρευνα και τεχνολογία με το Gemini 3—η εταιρεία το δήλωσε ρητά κατά την κυκλοφορία. Αυτό σημαίνει ότι το Gemopus φέρει κάτι που κανένα fine-tune βασισμένο στο Qwen δεν μπορεί να ισχυριστεί: Το DNA του δικού της κλειστού μοντέλου τελευταίας τεχνολογίας της Google κάτω από την επιφάνεια, τυλιγμένο με το στυλ σκέψης της Anthropic από πάνω. Το καλύτερο και των δύο κόσμων, λίγο πολύ.
Αυτό που κάνει το Gemopus διαφορετικό από το κύμα άλλων fine-tunes του Gemma που πλημμυρίζουν το Hugging Face αυτή τη στιγμή είναι η φιλοσοφία πίσω από αυτό. Ο Jackrong επέλεξε σκόπιμα να μην εξαναγκάσει τα ίχνη συλλογισμού chain-of-thought του Claude στα βάρη του Gemma—μια συντόμευση που παίρνουν οι περισσότερες ανταγωνιστικές κυκλοφορίες.
Το επιχείρημά του, που υποστηρίζεται από πρόσφατη έρευνα, είναι ότι το γέμισμα ενός μοντέλου-μαθητή με το επιφανειακό κείμενο συλλογισμού ενός δασκάλου δεν μεταφέρει πραγματικά την πραγματική ικανότητα συλλογισμού. Διδάσκει μίμηση, όχι λογική. «Δεν υπάρχει ανάγκη για υπερβολική φαντασία ή δεισιδαίμονα αναπαραγωγή του chain of thought σε στυλ Claude», αναφέρει η κάρτα μοντέλου. Αντίθετα, εστίασε στην ποιότητα απάντησης, τη δομική σαφήνεια και τη φυσικότητα της συνομιλίας—διορθώνοντας τον άκαμπτο τόνο της Wikipedia του Gemma και την τάση του να σας κάνει διάλεξη για πράγματα που δεν ρωτήσατε.
Ο μηχανικός υποδομής AI Kyle Hessling πραγματοποίησε ανεξάρτητα benchmarks και δημοσίευσε τα αποτελέσματα απευθείας στην κάρτα μοντέλου. Η κρίση του για την παραλλαγή 26B ήταν αρκετά ευνοϊκή. «Χαίρομαι που το δοκίμασα αρκετά σκληρά και είναι ένα εξαιρετικό finetune ενός ήδη εξαιρετικού μοντέλου», έγραψε στο X. «Είναι καταπληκτικό σε αιτήματα one-shot σε μεγάλα πλαίσια, και τρέχει απίστευτα γρήγορα χάρη στην αρχιτεκτονική MOE (mixture of experts)».
Η μικρότερη παραλλαγή E4B πέρασε και τις 14 βασικές δοκιμές ικανότητας—ακολούθηση οδηγιών, κωδικοποίηση, μαθηματικά, συλλογισμό πολλαπλών βημάτων, μετάφραση, ασφάλεια, caching—και ξεπέρασε όλες τις 12 δοκιμές μεγάλου πλαισίου στα 30K και 60K tokens. Στην ανάκτηση needle-in-haystack, πέρασε 13 από τις 13 δοκιμές συμπεριλαμβανομένης μιας εκτεταμένης δοκιμής σε ένα εκατομμύριο tokens με YaRN 8× RoPE scaling.
Το 26B επεκτείνεται εγγενώς σε πλαίσιο 131K και μέχρι τα 524K με YaRN, το οποίο ο Hessling επίσης δοκίμασε υπό πίεση: «Συνέτριψε επίσης τις απλές δοκιμές needle-in-the-haystack μου μέχρι ένα εκτεταμένο πλαίσιο 524k!»
Σε edge υλικό, το E4B είναι πραγματικά γρήγορο. Ο Jackrong αναφέρει 45–60 tokens ανά δευτερόλεπτο σε iPhone 17 Pro Max, και 90–120 tokens ανά δευτερόλεπτο σε MacBook Air M3/M4 μέσω MLX. Η αρχιτεκτονική 26B MoE σημαίνει ότι μεταφορτώνει χαριτωμένα σε ενοποιημένα συστήματα μνήμης ή GPUs με κάτω από 10GB VRAM. Ο Hessling το αποκάλεσε την καθημερινή του σύστασή για εγκαταστάσεις με έλλειψη VRAM.
Και τα δύο μοντέλα είναι διαθέσιμα σε μορφή GGUF, που σημαίνει ότι μπορείτε να τα τοποθετήσετε απευθείας στο LM Studio ή llama.cpp χωρίς διαμόρφωση. Ο πλήρης κώδικας εκπαίδευσης και ένας οδηγός fine-tuning βήμα προς βήμα βρίσκονται στο GitHub του Jackrong—ίδιο pipeline που χρησιμοποίησε για το Qwopus, ίδια ρύθμιση Unsloth και LoRA, αναπαράξιμο στο Colab.
Το Gemopus δεν είναι χωρίς τις τραχιές άκρες του. Το tool calling παραμένει χαλασμένο σε ολόκληρη τη σειρά Gemma 4 στο llama.cpp και LM Studio—αποτυχίες κλήσεων, αναντιστοιχίες μορφής, βρόχοι—οπότε αν η ροή εργασίας σας εξαρτάται από agents που χρησιμοποιούν εξωτερικά εργαλεία, αυτό δεν είναι ακόμα το μοντέλο σας. Ο ίδιος ο Jackrong το αποκαλεί «αναφορά εξερεύνησης μηχανικής παρά μια πλήρως έτοιμη για παραγωγή λύση», και συνιστά τη δική του σειρά Qwopus 3.5 για όποιον χρειάζεται κάτι πιο σταθερό για πραγματικά φορτία εργασίας.
Και επειδή ο Jackrong απέφυγε σκόπιμα την επιθετική απόσταξη chain-of-thought σε στυλ Claude, μην περιμένετε να αισθάνεται τόσο βαθιά Opus-brained όσο το Qwopus—αυτό ήταν μια συνειδητή ανταλλαγή για σταθερότητα, όχι παράβλεψη.
Για όσους θέλουν να εμβαθύνουν στο fine-tuning του Gemma για συλλογισμό συγκεκριμένα, υπάρχει επίσης ένα ξεχωριστό κοινοτικό έργο που αξίζει να παρακολουθήσετε: το Ornstein από τον ψευδώνυμο προγραμματιστή DJLougen, που παίρνει την ίδια βάση 26B Gemma 4 και εστιάζει συγκεκριμένα στη βελτίωση των αλυσίδων συλλογισμού του χωρίς να βασίζεται στη λογική ή το στυλ οποιουδήποτε συγκεκριμένου μοντέλου τρίτου μέρους.
Μία ειλικρινής επιφύλαξη: Η δυναμική εκπαίδευσης του Gemma είναι πιο ακατάστατη από του Qwen για fine-tuners—ευρύτερες διακυμάνσεις απώλειας, περισσότερη ευαισθησία υπερπαραμέτρων. Ο ίδιος ο Jackrong το λέει. Αν χρειάζεστε ένα πιο δοκιμασμένο τοπικό μοντέλο για ροές εργασίας παραγωγής, η σειρά του Qwopus 3.5 παραμένει πιο ισχυρά επικυρωμένη. Αλλά αν θέλετε ένα αμερικανικό μοντέλο με στίλβωση σε στυλ Opus, το Gemopus είναι αυτή τη στιγμή η καλύτερη διαθέσιμη επιλογή σας. Μια πυκνότερη παραλλαγή 31B Gemopus είναι επίσης στο pipeline, με τον Hessling να την προαναγγέλλει ως «σίγουρα εκρηκτική».
Αν θέλετε να δοκιμάσετε να εκτελέσετε τοπικά μοντέλα στο δικό σας υλικό, δείτε τον οδηγό μας για το πώς να ξεκινήσετε με το τοπικό AI.
Daily Debrief Newsletter
Ξεκινήστε κάθε μέρα με τις κορυφαίες ειδήσεις αυτή τη στιγμή, καθώς και πρωτότυπα χαρακτηριστικά, ένα podcast, βίντεο και πολλά άλλα.
Πηγή: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai





