Bài viết Google's Gemma Already Acts Like Gemini—Someone Made It Think Like Claude Opus Too xuất hiện trên BitcoinEthereumNews.com. Nếu bạn đã theo dõi tin tức địa phươngBài viết Google's Gemma Already Acts Like Gemini—Someone Made It Think Like Claude Opus Too xuất hiện trên BitcoinEthereumNews.com. Nếu bạn đã theo dõi tin tức địa phương

Gemma của Google Đã Hoạt Động Như Gemini—Ai Đó Đã Khiến Nó Suy Nghĩ Như Claude Opus

2026/04/15 12:28
Đọc trong 8 phút
Đối với phản hồi hoặc thắc mắc liên quan đến nội dung này, vui lòng liên hệ với chúng tôi qua crypto.news@mexc.com

Nếu bạn đã theo dõi lĩnh vực AI cục bộ, bạn có thể biết đến Qwopus—mô hình mã nguồn mở đã cố gắng chắt lọc khả năng suy luận của Claude Opus 4.6 vào Qwen của Alibaba, để bạn có thể chạy một thứ gì đó giống Opus trên phần cứng của riêng mình miễn phí. Nó hoạt động tốt một cách đáng ngạc nhiên. Vấn đề rõ ràng: Qwen là một mô hình Trung Quốc, và không phải ai cũng thoải mái với điều đó.

Jackrong, nhà phát triển ẩn danh đứng sau dự án đó, đã lắng nghe phản hồi. Câu trả lời của anh ấy là Gemopus—một họ các mô hình tinh chỉnh theo phong cách Claude Opus mới được xây dựng hoàn toàn trên Gemma 4 mã nguồn mở của Google. DNA hoàn toàn Mỹ, cùng ý tưởng: suy luận cấp độ tiên tiến, chạy cục bộ trên phần cứng bạn đã sở hữu.

Họ này có hai phiên bản. Gemopus-4-26B-A4B là lựa chọn nặng hơn—một mô hình Mixture of Experts có tổng cộng 26 tỷ tham số nhưng chỉ kích hoạt khoảng 4 tỷ trong quá trình suy luận, điều này có nghĩa là nó hoạt động vượt trội trên phần cứng hạn chế.

Tham số là yếu tố quyết định khả năng học, suy luận và lưu trữ thông tin của AI. Việc có 26 tỷ tham số tổng cộng mang lại cho mô hình khả năng kiến thức rộng lớn. Nhưng bằng cách chỉ "đánh thức" 4 tỷ tham số liên quan đến câu lệnh cụ thể của bạn, nó mang lại kết quả chất lượng cao của một AI khổng lồ trong khi vẫn đủ nhẹ để chạy mượt mà trên phần cứng hàng ngày.

Phiên bản còn lại là Gemopus-4-E4B, một mô hình edge 4 tỷ tham số được thiết kế để chạy thoải mái trên iPhone hiện đại hoặc MacBook mỏng nhẹ—không cần GPU.

Việc lựa chọn mô hình cơ sở có ý nghĩa quan trọng ở đây. Gemma 4 của Google, được phát hành vào ngày 2 tháng 4, được xây dựng trực tiếp từ cùng nghiên cứu và công nghệ với Gemini 3—công ty đã nói rõ điều này khi ra mắt. Điều đó có nghĩa là Gemopus mang theo thứ mà không một mô hình tinh chỉnh dựa trên Qwen nào có thể tuyên bố: DNA của mô hình đóng hiện đại nhất của Google bên dưới, được bao bọc bởi phong cách tư duy của Anthropic ở trên. Tốt nhất của cả hai thế giới, ít nhiều.

Điều làm cho Gemopus khác biệt so với làn sóng các mô hình tinh chỉnh Gemma khác đang tràn ngập Hugging Face hiện nay là triết lý đằng sau nó. Jackrong cố ý chọn không ép buộc chuỗi suy luận chain-of-thought của Claude vào trọng số của Gemma—một lối tắt mà hầu hết các bản phát hành cạnh tranh đều sử dụng.

Lập luận của anh ấy, được hỗ trợ bởi nghiên cứu gần đây, là việc nhồi nhét một mô hình học sinh với văn bản suy luận ở mức bề mặt của giáo viên không thực sự truyền tải khả năng suy luận thực sự. Nó dạy về sự bắt chước, không phải logic. "Không cần tưởng tượng quá mức hoặc sao chép một cách mê tín chuỗi suy luận theo phong cách Claude," trang thông tin mô hình viết. Thay vào đó, anh tập trung vào chất lượng câu trả lời, sự rõ ràng về cấu trúc và tính tự nhiên trong hội thoại—khắc phục giọng điệu Wikipedia cứng nhắc của Gemma và xu hướng giảng giải về những thứ bạn không hỏi.

Kỹ sư cơ sở hạ tầng AI Kyle Hessling đã chạy các bài kiểm tra độc lập và công bố kết quả trực tiếp trên trang thông tin mô hình. Phán quyết của anh về biến thể 26B khá tích cực. "Rất vui khi đã kiểm tra cái này khá kỹ và nó là một mô hình tinh chỉnh xuất sắc của một mô hình vốn đã xuất sắc," anh viết trên X. "Nó hoạt động tuyệt vời với các yêu cầu một lần trên ngữ cảnh dài, và chạy cực kỳ nhanh nhờ kiến trúc MOE (mixture of experts)."

Biến thể E4B nhỏ hơn đã vượt qua tất cả 14 bài kiểm tra năng lực cốt lõi—tuân theo hướng dẫn, lập trình, toán học, suy luận nhiều bước, dịch thuật, an toàn, bộ nhớ đệm—và vượt qua tất cả 12 bài kiểm tra ngữ cảnh dài ở 30K và 60K token. Về truy xuất kim-trong-đống-rơm, nó đã vượt qua 13 trên 13 thử nghiệm bao gồm một bài kiểm tra mở rộng ở một triệu token với YaRN 8× RoPE scaling.

26B mở rộng tự nhiên đến 131K ngữ cảnh và lên tới 524K với YaRN, điều mà Hessling cũng đã kiểm tra căng thẳng: "Nó cũng đã nghiền nát các bài kiểm tra kim-trong-đống-rơm đơn giản của tôi lên tới ngữ cảnh mở rộng 524k!"

Trên phần cứng edge, E4B thực sự nhanh. Jackrong báo cáo 45–60 token mỗi giây trên iPhone 17 Pro Max, và 90–120 token mỗi giây trên MacBook Air M3/M4 qua MLX. Kiến trúc 26B MoE có nghĩa là nó giảm tải một cách duyên dáng trên các hệ thống bộ nhớ thống nhất hoặc GPU với dưới 10GB VRAM. Hessling gọi nó là khuyến nghị sử dụng hàng ngày của anh cho các thiết lập thiếu VRAM.

Cả hai mô hình đều có sẵn ở định dạng GGUF, có nghĩa là bạn có thể đưa chúng thẳng vào LM Studio hoặc llama.cpp mà không cần cấu hình. Mã huấn luyện đầy đủ và hướng dẫn tinh chỉnh từng bước có trên GitHub của Jackrong—cùng quy trình anh đã sử dụng cho Qwopus, cùng thiết lập Unsloth và LoRA, có thể tái tạo trên Colab.

Gemopus không phải không có những khuyết điểm. Gọi công cụ vẫn bị hỏng trên toàn bộ dòng Gemma 4 trong llama.cpp và LM Studio—lỗi gọi, không khớp định dạng, vòng lặp—vì vậy nếu quy trình làm việc của bạn phụ thuộc vào các agent sử dụng công cụ bên ngoài, đây chưa phải là mô hình của bạn. Bản thân Jackrong gọi nó là "một tài liệu tham khảo khám phá kỹ thuật hơn là một giải pháp sẵn sàng hoàn toàn cho sản xuất," và khuyến nghị dòng Qwopus 3.5 của riêng anh cho bất kỳ ai cần thứ gì đó ổn định hơn cho khối lượng công việc thực tế.

Và bởi vì Jackrong cố ý tránh chắt lọc chain-of-thought theo phong cách Claude một cách tích cực, đừng mong đợi nó cảm thấy sâu sắc kiểu Opus-brained như Qwopus—đó là một sự đánh đổi có ý thức vì sự ổn định, không phải là sơ suất.

Đối với những người muốn đi sâu hơn vào việc tinh chỉnh Gemma cho suy luận cụ thể, cũng có một dự án cộng đồng riêng đáng xem: Ornstein của nhà phát triển ẩn danh DJLougen, sử dụng cùng cơ sở Gemma 4 26B và tập trung cụ thể vào việc cải thiện chuỗi suy luận của nó mà không dựa vào logic hoặc phong cách của bất kỳ mô hình bên thứ ba cụ thể nào.

Một lời cảnh báo trung thực: Động lực huấn luyện của Gemma lộn xộn hơn so với Qwen đối với những người tinh chỉnh—biến động loss rộng hơn, độ nhạy hyperparameter cao hơn. Bản thân Jackrong cũng nói như vậy. Nếu bạn cần một mô hình cục bộ đã được thử nghiệm nhiều hơn cho quy trình sản xuất, dòng Qwopus 3.5 của anh vẫn được xác thực mạnh mẽ hơn. Nhưng nếu bạn muốn một mô hình Mỹ với độ hoàn thiện theo phong cách Opus, Gemopus hiện là lựa chọn tốt nhất của bạn. Một biến thể Gemopus 31B dày đặc hơn cũng đang trong kế hoạch, với Hessling gợi ý nó là "chắc chắn sẽ rất xuất sắc."

Nếu bạn muốn thử chạy các mô hình cục bộ trên phần cứng của riêng mình, hãy xem hướng dẫn của chúng tôi về cách bắt đầu với AI cục bộ.

Daily Debrief Newsletter

Bắt đầu mỗi ngày với các tin tức hàng đầu ngay bây giờ, cùng với các tính năng gốc, podcast, video và nhiều hơn nữa.

Nguồn: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai

Cơ hội thị trường
Logo 4
Giá 4(4)
$0.010739
$0.010739$0.010739
+0.62%
USD
Biểu đồ giá 4 (4) theo thời gian thực
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ crypto.news@mexc.com để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.

USD1 khởi nguồn: 0 phí + 12% APR

USD1 khởi nguồn: 0 phí + 12% APRUSD1 khởi nguồn: 0 phí + 12% APR

Người mới: Stake để nhận APR đến 600%. Có thời hạn!