Gemma của Google Đã Hoạt Động Như Gemini—Ai Đó Đã Khiến Nó Suy Nghĩ Như Claude Opus

Nếu bạn đã theo dõi lĩnh vực AI cục bộ, bạn có thể biết đến Qwopus—mô hình mã nguồn mở đã cố gắng chắt lọc khả năng suy luận của Claude Opus 4.6 vào Qwen của Alibaba, để bạn có thể chạy một thứ gì đó giống Opus trên phần cứng của riêng mình miễn phí. Nó hoạt động tốt một cách đáng ngạc nhiên. Vấn đề rõ ràng: Qwen là một mô hình Trung Quốc, và không phải ai cũng thoải mái với điều đó.

Jackrong, nhà phát triển ẩn danh đứng sau dự án đó, đã lắng nghe phản hồi. Câu trả lời của anh ấy là Gemopus—một họ các mô hình tinh chỉnh theo phong cách Claude Opus mới được xây dựng hoàn toàn trên Gemma 4 mã nguồn mở của Google. DNA hoàn toàn Mỹ, cùng ý tưởng: suy luận cấp độ tiên tiến, chạy cục bộ trên phần cứng bạn đã sở hữu.

Họ này có hai phiên bản. Gemopus-4-26B-A4B là lựa chọn nặng hơn—một mô hình Mixture of Experts có tổng cộng 26 tỷ tham số nhưng chỉ kích hoạt khoảng 4 tỷ trong quá trình suy luận, điều này có nghĩa là nó hoạt động vượt trội trên phần cứng hạn chế.

Tham số là yếu tố quyết định khả năng học, suy luận và lưu trữ thông tin của AI. Việc có 26 tỷ tham số tổng cộng mang lại cho mô hình khả năng kiến thức rộng lớn. Nhưng bằng cách chỉ "đánh thức" 4 tỷ tham số liên quan đến câu lệnh cụ thể của bạn, nó mang lại kết quả chất lượng cao của một AI khổng lồ trong khi vẫn đủ nhẹ để chạy mượt mà trên phần cứng hàng ngày.

Phiên bản còn lại là Gemopus-4-E4B, một mô hình edge 4 tỷ tham số được thiết kế để chạy thoải mái trên iPhone hiện đại hoặc MacBook mỏng nhẹ—không cần GPU.

Việc lựa chọn mô hình cơ sở có ý nghĩa quan trọng ở đây. Gemma 4 của Google, được phát hành vào ngày 2 tháng 4, được xây dựng trực tiếp từ cùng nghiên cứu và công nghệ với Gemini 3—công ty đã nói rõ điều này khi ra mắt. Điều đó có nghĩa là Gemopus mang theo thứ mà không một mô hình tinh chỉnh dựa trên Qwen nào có thể tuyên bố: DNA của mô hình đóng hiện đại nhất của Google bên dưới, được bao bọc bởi phong cách tư duy của Anthropic ở trên. Tốt nhất của cả hai thế giới, ít nhiều.

Điều làm cho Gemopus khác biệt so với làn sóng các mô hình tinh chỉnh Gemma khác đang tràn ngập Hugging Face hiện nay là triết lý đằng sau nó. Jackrong cố ý chọn không ép buộc chuỗi suy luận chain-of-thought của Claude vào trọng số của Gemma—một lối tắt mà hầu hết các bản phát hành cạnh tranh đều sử dụng.

Lập luận của anh ấy, được hỗ trợ bởi nghiên cứu gần đây, là việc nhồi nhét một mô hình học sinh với văn bản suy luận ở mức bề mặt của giáo viên không thực sự truyền tải khả năng suy luận thực sự. Nó dạy về sự bắt chước, không phải logic. "Không cần tưởng tượng quá mức hoặc sao chép một cách mê tín chuỗi suy luận theo phong cách Claude," trang thông tin mô hình viết. Thay vào đó, anh tập trung vào chất lượng câu trả lời, sự rõ ràng về cấu trúc và tính tự nhiên trong hội thoại—khắc phục giọng điệu Wikipedia cứng nhắc của Gemma và xu hướng giảng giải về những thứ bạn không hỏi.

Kỹ sư cơ sở hạ tầng AI Kyle Hessling đã chạy các bài kiểm tra độc lập và công bố kết quả trực tiếp trên trang thông tin mô hình. Phán quyết của anh về biến thể 26B khá tích cực. "Rất vui khi đã kiểm tra cái này khá kỹ và nó là một mô hình tinh chỉnh xuất sắc của một mô hình vốn đã xuất sắc," anh viết trên X. "Nó hoạt động tuyệt vời với các yêu cầu một lần trên ngữ cảnh dài, và chạy cực kỳ nhanh nhờ kiến trúc MOE (mixture of experts)."

Biến thể E4B nhỏ hơn đã vượt qua tất cả 14 bài kiểm tra năng lực cốt lõi—tuân theo hướng dẫn, lập trình, toán học, suy luận nhiều bước, dịch thuật, an toàn, bộ nhớ đệm—và vượt qua tất cả 12 bài kiểm tra ngữ cảnh dài ở 30K và 60K token. Về truy xuất kim-trong-đống-rơm, nó đã vượt qua 13 trên 13 thử nghiệm bao gồm một bài kiểm tra mở rộng ở một triệu token với YaRN 8× RoPE scaling.

26B mở rộng tự nhiên đến 131K ngữ cảnh và lên tới 524K với YaRN, điều mà Hessling cũng đã kiểm tra căng thẳng: "Nó cũng đã nghiền nát các bài kiểm tra kim-trong-đống-rơm đơn giản của tôi lên tới ngữ cảnh mở rộng 524k!"

Trên phần cứng edge, E4B thực sự nhanh. Jackrong báo cáo 45–60 token mỗi giây trên iPhone 17 Pro Max, và 90–120 token mỗi giây trên MacBook Air M3/M4 qua MLX. Kiến trúc 26B MoE có nghĩa là nó giảm tải một cách duyên dáng trên các hệ thống bộ nhớ thống nhất hoặc GPU với dưới 10GB VRAM. Hessling gọi nó là khuyến nghị sử dụng hàng ngày của anh cho các thiết lập thiếu VRAM.

Cả hai mô hình đều có sẵn ở định dạng GGUF, có nghĩa là bạn có thể đưa chúng thẳng vào LM Studio hoặc llama.cpp mà không cần cấu hình. Mã huấn luyện đầy đủ và hướng dẫn tinh chỉnh từng bước có trên GitHub của Jackrong—cùng quy trình anh đã sử dụng cho Qwopus, cùng thiết lập Unsloth và LoRA, có thể tái tạo trên Colab.

Gemopus không phải không có những khuyết điểm. Gọi công cụ vẫn bị hỏng trên toàn bộ dòng Gemma 4 trong llama.cpp và LM Studio—lỗi gọi, không khớp định dạng, vòng lặp—vì vậy nếu quy trình làm việc của bạn phụ thuộc vào các agent sử dụng công cụ bên ngoài, đây chưa phải là mô hình của bạn. Bản thân Jackrong gọi nó là "một tài liệu tham khảo khám phá kỹ thuật hơn là một giải pháp sẵn sàng hoàn toàn cho sản xuất," và khuyến nghị dòng Qwopus 3.5 của riêng anh cho bất kỳ ai cần thứ gì đó ổn định hơn cho khối lượng công việc thực tế.

Và bởi vì Jackrong cố ý tránh chắt lọc chain-of-thought theo phong cách Claude một cách tích cực, đừng mong đợi nó cảm thấy sâu sắc kiểu Opus-brained như Qwopus—đó là một sự đánh đổi có ý thức vì sự ổn định, không phải là sơ suất.

Đối với những người muốn đi sâu hơn vào việc tinh chỉnh Gemma cho suy luận cụ thể, cũng có một dự án cộng đồng riêng đáng xem: Ornstein của nhà phát triển ẩn danh DJLougen, sử dụng cùng cơ sở Gemma 4 26B và tập trung cụ thể vào việc cải thiện chuỗi suy luận của nó mà không dựa vào logic hoặc phong cách của bất kỳ mô hình bên thứ ba cụ thể nào.

Một lời cảnh báo trung thực: Động lực huấn luyện của Gemma lộn xộn hơn so với Qwen đối với những người tinh chỉnh—biến động loss rộng hơn, độ nhạy hyperparameter cao hơn. Bản thân Jackrong cũng nói như vậy. Nếu bạn cần một mô hình cục bộ đã được thử nghiệm nhiều hơn cho quy trình sản xuất, dòng Qwopus 3.5 của anh vẫn được xác thực mạnh mẽ hơn. Nhưng nếu bạn muốn một mô hình Mỹ với độ hoàn thiện theo phong cách Opus, Gemopus hiện là lựa chọn tốt nhất của bạn. Một biến thể Gemopus 31B dày đặc hơn cũng đang trong kế hoạch, với Hessling gợi ý nó là "chắc chắn sẽ rất xuất sắc."

Nếu bạn muốn thử chạy các mô hình cục bộ trên phần cứng của riêng mình, hãy xem hướng dẫn của chúng tôi về cách bắt đầu với AI cục bộ.

Daily Debrief Newsletter

Bắt đầu mỗi ngày với các tin tức hàng đầu ngay bây giờ, cùng với các tính năng gốc, podcast, video và nhiều hơn nữa.

Nguồn: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai

Gemma của Google Đã Hoạt Động Như Gemini—Ai Đó Đã Khiến Nó Suy Nghĩ Như Claude Opus

Daily Debrief Newsletter

Có thể bạn cũng thích

Cập Nhật Nâng Cấp Node Pi Network Xác Nhận Tiến Triển Ổn Định Hướng Tới Sự Phát Triển Mainnet

Lên sân khấu tại Consensus 2026: Kỷ nguyên mới cho Crypto, AI và Tiện ích Thực tế

SEC loại bỏ quy tắc Pattern Day Trader $25,000 trong đại tu giao dịch bán lẻ

Tin tức xu hướng

Santiment Tiết Lộ: Làn Sóng Bán Tháo ETH Từ Nhà Đầu Tư Lẻ Báo Hiệu Động Lực Tăng Giá Mạnh Mẽ Cho Ethereum

'Tin Cực Kỳ Tốt' – Động Lực DeFi XRP Tăng Mạnh Khi SEC Nới Lỏng Lập Trường Về Giao Diện

Giá vàng tại Ấn Độ: Mức giá ngày 15 tháng 4

Chỉ số Đô la Mỹ giậm chân tại chỗ trên 98,00 bất chấp sự lạc quan ngày càng tăng của thị trường

Tổng thống Mỹ Trump: Không nghĩ đến việc gia hạn lệnh ngừng bắn

Tin tức trực tiếp 24/7

Đọc nhanh

Jable.tv Thanh toán? Tiền điện tử là lựa chọn mới cho thanh toán quyền riêng tư như thế nào

Có Jable.tv an toàn không? Câu trả lời trung thực trước khi bạn nhấp

BNB (BNB) Giá Mới Nhất: Cập Nhật Thị Trường Mới Nhất

Dự Đoán Giá Tăng của Ripple (XRP)

PORN COIN (PORN) là gì? Giải thích về mã thông báo giải trí dành cho

Giá tiền mã hoá