Tóm tắt
- Muse Spark mới của Meta đánh dấu sự chuyển đổi sang AI đa phương thức gốc, đóng với lý luận dựa trên AI Agent.
- Meta báo cáo những cải thiện mạnh mẽ trong lĩnh vực y tế và tìm kiếm, nhưng vẫn thua Gemini về lý luận cốt lõi và lập trình.
- Được xây dựng trong chín tháng với ít tài nguyên tính toán hơn nhiều, điều này chỉ ra một chiến lược AI hướng đến hiệu quả mới.
Meta đã ra mắt Muse Spark vào thứ Tư, đánh dấu mô hình đầu tiên được xây dựng bởi Meta Superintelligence Labs—nhóm được lập ra chín tháng trước dưới sự lãnh đạo của Giám đốc AI Alexandr Wang sau thương vụ mua lại Scale AI trị giá 14 tỷ đô la của Meta. Hiện tại nó đã hoạt động tại meta.ai và ứng dụng Meta AI, với kế hoạch triển khai lên Facebook, Instagram và WhatsApp trong vài tuần tới.
Đây không chỉ là một nâng cấp chatbot khác hay phiên bản mới của Llama. Muse Spark là mô hình đa phương thức gốc—nó xử lý hình ảnh, văn bản và giọng nói từ đầu, thay vì gắn thêm khả năng xử lý hình ảnh vào mô hình văn bản có sẵn. Nó đi kèm với chuỗi suy nghĩ trực quan, hỗ trợ sử dụng công cụ và thứ mà Meta gọi là "Contemplating mode": một thiết lập chạy nhiều AI Agent song song để giải quyết các vấn đề khó hơn. Đó là câu trả lời của Meta cho các chế độ suy nghĩ mở rộng từ Gemini Deep Think của Google và GPT Pro của OpenAI.
"Muse Spark là bước đầu tiên trên con đường mở rộng quy mô của chúng tôi và là sản phẩm đầu tiên của một cuộc đại tu toàn diện các nỗ lực AI của chúng tôi," Meta viết trong thông báo chính thức. "Để hỗ trợ việc mở rộng quy mô hơn nữa, chúng tôi đang thực hiện các khoản đầu tư chiến lược trên toàn bộ hệ thống—từ nghiên cứu và đào tạo mô hình đến cơ sở hạ tầng, bao gồm trung tâm dữ liệu Hyperion."
Công ty đã làm việc với hơn 1,000 bác sĩ để tuyển chọn dữ liệu đào tạo cho khả năng lý luận y tế của Muse Spark. Kết quả trên HealthBench Hard—một tiêu chuẩn đánh giá truy vấn sức khỏe mở—rất ấn tượng: Muse Spark đạt 42.8 điểm, so với 40.1 điểm của GPT 5.4 và chỉ 20.6 điểm của Gemini 3.1 Pro. Đó không phải là một sự khác biệt nhỏ.
Về tìm kiếm chủ động (DeepSearchQA), Muse Spark cũng dẫn đầu với 74.8 điểm, vượt qua Gemini (69.7) và GPT 5.4 (73.6). Về CharXiv Reasoning—hiểu biểu đồ từ các bài báo khoa học—nó đạt 86.4 điểm, cao nhất trong các mô hình được so sánh.
Đối với những người quan tâm đến việc jailbreak AI, mô hình đã bị phá vỡ trong vài phút:
Nhưng tốt không giống như xuất sắc. Bức tranh tổng thể về tiêu chuẩn cho thấy Gemini 3.1 Pro vẫn dẫn trước ở hầu hết các danh mục. Khoảng cách rõ ràng nhất trên ARC AGI 2, tiêu chuẩn đánh giá trò chơi lý luận trừu tượng: Gemini đạt 76.5 điểm so với 42.5 điểm của Muse Spark.
Về lập trình (LiveCodeBench Pro), 82.9 điểm của Gemini vượt qua 80.0 điểm của Meta. Về MMMU Pro—hiểu biết đa phương thức—Gemini đạt 83.9 điểm so với 80.4 điểm. Blog của chính Meta thừa nhận khoảng cách hiệu suất hiện tại trong các hệ thống chủ động tầm xa và quy trình lập trình.
Cũng có một sự thay đổi chiến lược đáng chú ý được tích hợp vào lần ra mắt này. Muse Spark là một mô hình đóng—kiến trúc và trọng số của nó sẽ không được công khai. Đó là một sự khác biệt rõ rệt so với Llama, thứ đã xây dựng danh tiếng của Meta trong giới AI mở. Sau sự đón nhận không ấn tượng của Llama 4 đầu năm nay, Meta dường như đã quyết định chương tiếp theo cần được viết theo cách khác.
Công ty cho biết hy vọng sẽ mã nguồn mở các phiên bản tương lai của Muse, nhưng hiện tại mã nguồn vẫn ở bên trong Meta. Cổ phiếu của gã khổng lồ công nghệ này đã tăng gần 9% vào thứ Tư sau thông báo, và kết thúc ngày giao dịch tăng 6.5% ở mức giá 612.42 đô la.
"Contemplating mode" sử dụng điều phối nhiều agent song song để đẩy giới hạn của mô hình lên cao hơn. Trong cấu hình đó, Muse Spark đạt 58% trên Humanity's Last Exam và 38% trên FrontierScience Research—lãnh thổ khiến nó có thể cạnh tranh với các phiên bản mạnh nhất của Gemini và GPT, thay vì các phiên bản tiêu chuẩn của chúng.
Meta cũng đang triển khai một trợ lý mua sắm so sánh sản phẩm và liên kết trực tiếp đến giao dịch mua hàng, và có kế hoạch đưa Muse Spark lên Facebook, Instagram và WhatsApp trong những tuần tới—theo cùng kịch bản được thực hiện từ Llama 3, đưa nó đến với hơn 3.5 tỷ người dùng. Bản xem trước API riêng tư đang được mở cho các nhà phát triển được chọn.
Mô hình được xây dựng trong chín tháng, có tên mã nội bộ là Avocado, với Meta tuyên bố rằng hệ thống tiền đào tạo mới của nó có thể đạt được cùng mức năng lực như Llama 4 Maverick bằng cách sử dụng ít hơn 10 lần tài nguyên tính toán.
Muse Spark được mô tả nội bộ là bước đầu tiên "nhỏ gọn và nhanh" trong gia đình Muse. Một phiên bản mạnh mẽ hơn đã đang được phát triển.
Bản tin Daily Debrief
Bắt đầu mỗi ngày với những tin tức hàng đầu ngay bây giờ, cộng với các tính năng gốc, podcast, video và nhiều hơn nữa.
Nguồn: https://decrypt.co/363691/meta-muse-spark-most-capable-ai-gemini-pro-still-leads







