Google 的 Gemma 已經表現得像 Gemini——有人讓它也能像 Claude Opus 一樣思考

如果你一直在關注本地 AI 領域,你可能知道 Qwopus——這個開源模型試圖將 Claude Opus 4.6 的推理能力提煉到阿里巴巴的 Qwen 中,讓你可以在自己的硬體上免費運行類似 Opus 的模型。它的效果出奇地好。顯而易見的問題是:Qwen 是一個中國模型,並不是每個人都對此感到自在。

Jackrong,該專案背後的同一位匿名開發者,聽到了這些反饋。他的回應是 Gemopus——一個全新的 Claude Opus 風格微調模型系列,完全建立在 Google 的開源 Gemma 4 之上。純美國血統,相同理念:前沿級別的推理能力,在你已經擁有的硬體上本地運行。

這個系列有兩種版本。Gemopus-4-26B-A4B 是較大的選項——一個混合專家模型,擁有 260 億個總參數,但在推理過程中只啟動約 40 億個參數,這意味著它在受限硬體上的表現遠超其重量級。

參數決定了 AI 學習、推理和儲存資訊的能力。擁有 260 億個總參數為模型提供了巨大的知識廣度。但透過只「喚醒」與你特定提示相關的 40 億個參數,它在提供大型 AI 的高品質結果的同時,保持足夠輕量化,可以在日常硬體上流暢運行。

另一個是 Gemopus-4-E4B,一個 40 億參數的邊緣模型,專為在現代 iPhone 或輕薄 MacBook 上舒適運行而設計——無需 GPU。

基礎模型的選擇在這裡很重要。Google 的 Gemma 4 於 4 月 2 日發布,直接建立在與 Gemini 3 相同的研究和技術之上——公司在發布時明確表示了這一點。這意味著 Gemopus 擁有基於 Qwen 的微調模型無法聲稱的東西:內核是 Google 自己最先進封閉模型的 DNA,外層包裹著 Anthropic 的思維風格。或多或少是兩全其美。

Gemopus 與目前湧入 Hugging Face 的其他 Gemma 微調模型不同之處在於其背後的理念。Jackrong 刻意選擇不將 Claude 的思維鏈推理軌跡強行植入 Gemma 的權重中——這是大多數競爭版本採用的捷徑。

他的論點得到了近期研究的支持,即用教師模型的表面推理文本填充學生模型實際上並不能轉移真正的推理能力。它教授的是模仿,而非邏輯。「沒有必要過度想像或迷信複製 Claude 風格的思維鏈」,模型卡片如此寫道。相反,他專注於答案品質、結構清晰度和對話自然性——修正 Gemma 僵硬的維基百科語調及其對你未問問題進行說教的傾向。

AI 基礎設施工程師 Kyle Hessling 進行了獨立基準測試,並將結果直接發布在模型卡片上。他對 26B 版本的評價相當正面。「很高興對這個模型進行了相當嚴格的測試,它是一個本已卓越的模型的出色微調版本」,他在 X 上寫道。「它在長上下文的單次請求中表現出色,並且由於 MOE(混合專家)架構而運行速度極快。」

較小的 E4B 版本通過了所有 14 項核心能力測試——指令遵循、編碼、數學、多步驟推理、翻譯、安全性、快取——並通過了 30K 和 60K 標記的所有 12 項長上下文測試。在大海撈針檢索測試中,它通過了 13 項探測中的 13 項,包括使用 YaRN 8× RoPE 擴展在一百萬標記的延伸測試。

26B 原生擴展到 131K 上下文,並可透過 YaRN 一路擴展到 524K,Hessling 也對此進行了壓力測試:「它也完美通過了我的簡單大海撈針測試,一路擴展到 524K 的延伸上下文!」

在邊緣硬體上,E4B 真的很快。Jackrong 報告在 iPhone 17 Pro Max 上每秒 45-60 個標記,在 MacBook Air M3/M4 透過 MLX 每秒 90-120 個標記。26B MoE 架構意味著它可以在統一記憶體系統或 VRAM 低於 10GB 的 GPU 上優雅地卸載。Hessling 稱其為他針對 VRAM 緊缺配置的日常驅動推薦。

兩個模型都提供 GGUF 格式,這意味著你可以直接將它們放入 LM Studio 或 llama.cpp 中而無需配置。完整的訓練代碼和逐步微調指南在 Jackrong 的 GitHub 上——與他用於 Qwopus 的管道相同,相同的 Unsloth 和 LoRA 設置,可在 Colab 上重現。

Gemopus 並非沒有缺陷。工具呼叫在整個 Gemma 4 系列中的 llama.cpp 和 LM Studio 中仍然失效——呼叫失敗、格式不匹配、循環——所以如果你的工作流程依賴於使用外部工具的代理,這還不是你的模型。Jackrong 本人稱其為「工程探索參考而非完全生產就緒的解決方案」,並向任何需要更穩定的真實工作負載的人推薦他自己的 Qwopus 3.5 系列。

而且因為 Jackrong 刻意避免了激進的 Claude 風格思維鏈提煉,不要期望它像 Qwopus 那樣深度具有 Opus 思維——這是為穩定性而做出的有意權衡,而非疏忽。

對於那些想要深入研究 Gemma 推理微調的人,還有一個值得關注的獨立社群專案:由匿名開發者 DJLougen 開發的 Ornstein,它採用相同的 26B Gemma 4 基礎,專門專注於改善其推理鏈,而不依賴任何特定第三方模型的邏輯或風格。

一個誠實的警告:對於微調者來說,Gemma 的訓練動態比 Qwen 更混亂——更大的損失波動、更高的超參數敏感度。Jackrong 本人也這麼說。如果你需要一個更經過實戰考驗的本地模型用於生產工作流程,他的 Qwopus 3.5 系列仍然經過更穩健的驗證。但如果你想要一個具有 Opus 風格潤色的美國模型,Gemopus 目前是你最好的可用選項。更密集的 31B Gemopus 版本也在籌備中,Hessling 預告它「肯定是個重磅作品」。

如果你想嘗試在自己的硬體上運行本地模型,請查看我們關於如何開始使用本地 AI 的指南。