Các doanh nghiệp đã dành hai năm qua để đưa AI Agent vào quy trình làm việc thực tế, từ hỗ trợ khách hàng và hoạt động văn phòng hậu đài đến các quy trình ra quyết định quan trọng trong tài chính và tuân thủ. Giờ đây, khi các hệ thống này ngày càng được tích hợp vào quy trình làm việc thực tế, một vấn đề mới đang xuất hiện: các agent có thể truy xuất thông tin, nhưng chúng thường gặp khó khăn trong việc cung cấp lý luận nhất quán, có thể giải thích được khi công việc trở nên phức tạp, nhiều bước hoặc rủi ro cao.
Hôm nay, phòng thí nghiệm AI nguồn mở Sentient đang ra mắt Arena, một môi trường sản xuất trực tiếp nơi hàng nghìn nhà phát triển AI kiểm tra áp lực các phương pháp cạnh tranh để giải quyết các vấn đề lý luận khó nhất của doanh nghiệp. Nhóm đầu tiên tham gia giai đoạn ban đầu của Arena bao gồm Founders Fund, Pantera và Franklin Templeton ($1,5T+ AUM) — báo hiệu sự quan tâm thể chế sớm về đánh giá có cấu trúc của AI Agent trước khi triển khai sản xuất.
"Khi các công ty tìm cách áp dụng AI Agent vào nghiên cứu, hoạt động và quy trình làm việc với khách hàng, câu hỏi không còn là liệu các hệ thống này có mạnh mẽ hay không... mà là liệu chúng có đáng tin cậy trong quy trình làm việc thực tế hay không," Julian Love, Managing Principal, Franklin Templeton Digital Assets cho biết.
Love cho biết thêm rằng các môi trường có cấu trúc như Arena sẽ giúp phân biệt những ý tưởng đầy hứa hẹn với các khả năng sẵn sàng sản xuất.
"AI Agent không còn là một thử nghiệm bên trong doanh nghiệp nữa; chúng đang được đưa vào quy trình làm việc tiếp xúc với khách hàng, tiền bạc và kết quả hoạt động," Himanshu Tyagi, đồng sáng lập tại Sentient cho biết. "Sự thay đổi đó làm thay đổi những gì quan trọng. Không đủ để một hệ thống ấn tượng trong bản demo. Các doanh nghiệp cần biết liệu các agent có thể lý luận đáng tin cậy trong sản xuất, nơi thất bại tốn kém và niềm tin mong manh hay không. Họ cần khả năng so sánh, tính lặp lại và cách theo dõi cải thiện độ tin cậy theo thời gian – bất kể họ đang sử dụng mô hình hoặc công cụ nào bên dưới."
Arena tái tạo thực tế phức tạp của quy trình làm việc doanh nghiệp: thông tin không đầy đủ, ngữ cảnh dài, hướng dẫn mơ hồ và nguồn xung đột. Thay vì chấm điểm xem agent có nhận được "câu trả lời đúng" hay không, Arena ghi lại toàn bộ quá trình lý luận để các nhóm kỹ thuật có thể gỡ lỗi thất bại và xác minh cải thiện theo thời gian.
Điều này cung cấp một tiêu chuẩn trung lập, không phụ thuộc vào nhà cung cấp để đánh giá lý luận trên các mô hình và ngăn xếp. Bằng cách tập trung vào hiệu suất cấp sản xuất thay vì demo, Arena tạo ra các khả năng agent có thể xác minh, rủi ro cao mà các doanh nghiệp có thể điều chỉnh theo dữ liệu riêng tư và công cụ nội bộ của riêng họ.
Trong thử thách đầu tiên, các nhà phát triển tham gia Arena sẽ tập trung vào một rào cản doanh nghiệp cơ bản: lý luận tài liệu. AI Agent sẽ được giao nhiệm vụ lý luận và tính toán trên dữ liệu phức tạp, phi cấu trúc – loại công việc làm nền tảng cho phân tích tài chính, điều tra nguyên nhân gốc rễ, bản ghi nhớ đầu tư và dịch vụ khách hàng.
Các thành viên bổ sung trong giai đoạn ban đầu bao gồm alphaXiv, Fireworks, Openhands và OpenRouter, với nhiều người khác dự kiến khi Arena mở rộng qua các nhiệm vụ, ngành công nghiệp và tích hợp mô hình.
Các khảo sát gần đây nhấn mạnh khoảng cách mà Arena đang nhắm đến. 85% doanh nghiệp nói rằng họ muốn trở thành "doanh nghiệp agentic" và gần ba trong bốn doanh nghiệp có kế hoạch triển khai các agent tự động, tuy nhiên ít hơn một phần tư báo cáo quản trị trưởng thành, và nhiều doanh nghiệp gặp khó khăn trong việc chuyển từ thử nghiệm sang sản xuất quy mô lớn. Các doanh nghiệp đã chạy trung bình một tá agent, thường trong các silo, và nhiều người cho rằng việc thêm nhiều agent sẽ tạo ra nhiều độ phức tạp hơn giá trị nếu không có sự điều phối tốt hơn.
"Tại OpenHands, chúng tôi luôn hào hứng hỗ trợ những người xây dựng sử dụng agent để giải quyết các vấn đề thực tế," Graham Neubig, Chief Scientist và đồng sáng lập OpenHands cho biết. "Chúng tôi vui mừng hỗ trợ những người tham gia sử dụng OpenHands Software Agent SDK để điều hướng những thách thức phức tạp này."
"Arena chính là loại sáng kiến thúc đẩy AI nguồn mở phát triển – họ cho phép các nhà nghiên cứu cạnh tranh, lặp lại và đổi mới công khai. Chúng tôi rất hào hứng làm sâu sắc hơn quan hệ đối tác với Sentient và cung cấp cơ sở hạ tầng giúp thử nghiệm nhanh hơn và dễ mở rộng hơn," Alex Atallah, đồng sáng lập & CEO, OpenRouter cho biết.
Arena sẽ ra mắt trên toàn cầu, mời hàng nghìn nhà phát triển AI đăng ký cho nhóm độc quyền đầu tiên, với các sự kiện trực tiếp tập trung tại San Francisco bắt đầu từ tháng 3 năm 2026.
Bài viết Founders Fund, Pantera và Franklin Templeton tham gia 'Arena' của Sentient để kiểm tra áp lực AI Agent doanh nghiệp xuất hiện đầu tiên trên Metaverse Post.


