Компанії протягом останніх двох років намагалися впровадити ШІ-агентів у реальні робочі процеси, від підтримки клієнтів та бек-офісних операцій до процесів прийняття рішень у фінансах та комплаєнсі. Тепер, коли ці системи все більше інтегруються в реальні робочі процеси, з'являється нова проблема: агенти можуть отримувати інформацію, але часто їм важко забезпечити послідовне, зрозуміле обґрунтування, коли робота стає складною, багатоетапною або високоризиковою.
Сьогодні лабораторія ШІ з відкритим вихідним кодом Sentient запускає Arena, робоче середовище промислового рівня, де тисячі розробників ШІ тестують під навантаженням конкуруючі підходи до найскладніших проблем обґрунтування для підприємств. Перша група учасників початкової фази Arena включає Founders Fund, Pantera та Franklin Templeton ($1,5 трлн+ активів під управлінням) — що сигналізує про ранній інтерес інституційних користувачів до структурованої оцінки ШІ-агентів перед виробничим розгортанням.
"Оскільки компанії прагнуть застосовувати ШІ-агентів у дослідженнях, операціях та робочих процесах, орієнтованих на клієнтів, питання вже не в тому, чи є ці системи потужними... а в тому, чи є вони надійними в реальних робочих процесах," — сказав Джуліан Лав, керуючий принципал, Franklin Templeton Digital Assets.
Лав додав, що структуровані середовища, як-от Arena, допоможуть відокремити перспективні ідеї від можливостей, готових до виробництва.
"ШІ-агенти більше не є експериментом усередині підприємства; їх впроваджують у робочі процеси, які стосуються клієнтів, грошей та операційних результатів," — сказав Хіманшу Тьягі, співзасновник Sentient. "Цей зсув змінює те, що має значення. Недостатньо, щоб система була вражаючою в демонстрації. Підприємствам потрібно знати, чи можуть агенти надійно обґрунтовувати рішення у виробництві, де збої коштують дорого, а довіра крихка. Їм потрібна порівнянність, повторюваність та спосіб відстеження покращень надійності з часом — незалежно від того, які моделі чи інструменти вони використовують."
Arena відтворює складну реальність корпоративних робочих процесів: неповну інформацію, тривалий контекст, неоднозначні інструкції та суперечливі джерела. Замість оцінювання того, чи отримав агент "правильну відповідь," Arena записує повний слід обґрунтування, щоб інженерні команди могли налагоджувати збої та перевіряти покращення з часом.
Це забезпечує нейтральний, незалежний від постачальників еталон для оцінки обґрунтування в різних моделях та стеках. Зосереджуючись на продуктивності промислового рівня, а не на демонстраціях, Arena створює перевірені, високоставкові можливості агентів, які підприємства можуть адаптувати до власних приватних даних та внутрішніх інструментів.
У своєму першому виклику розробники, які приєдналися до Arena, зосередяться на фундаментальній перешкоді для підприємств: обґрунтуванні документів. Перед ШІ-агентами буде поставлено завдання обґрунтування та обчислення над складними, неструктурованими даними — такою роботою, яка лежить в основі фінансового аналізу, розслідувань першопричин, інвестиційних меморандумів та обслуговування клієнтів.
Додаткові учасники початкової фази включають alphaXiv, Fireworks, Openhands та OpenRouter, і очікується більше учасників, оскільки Arena розширюється на завдання, галузі та інтеграції моделей.
Нещодавні опитування підкреслюють розрив, на який націлена Arena. 85% підприємств кажуть, що хочуть стати "агентними підприємствами", і майже три з чотирьох планують розгорнути автономних агентів, але менше чверті повідомляють про зріле управління, і багато хто бореться з переходом від пілотного проєкту до масового виробництва. Підприємства вже використовують у середньому дюжину агентів, часто ізольовано, і багато хто вказують, що додавання більшої кількості агентів створить більше складності, ніж цінності, без кращої оркестрації.
"В OpenHands ми завжди раді підтримувати розробників, які використовують агентів для вирішення практичних проблем," сказав Грем Нойбіг, головний науковий співробітник та співзасновник OpenHands. "Ми раді підтримати учасників, які використовують OpenHands Software Agent SDK для подолання цих складних викликів."
"Arena — саме та ініціатива, яка просуває ШІ з відкритим вихідним кодом — вони дозволяють дослідникам змагатися, ітерувати та вводити інновації публічно. Ми раді поглибити наше партнерство з Sentient та надати інфраструктуру, яка робить експериментування швидшим та легшим для масштабування," — сказав Алекс Аталлах, співзасновник та генеральний директор, OpenRouter.
Arena буде запущена глобально, запрошуючи тисячі розробників ШІ подати заявку на першу ексклюзивну групу, з очними заходами з центром у Сан-Франциско, починаючи з березня 2026 року.
Допис Founders Fund, Pantera та Franklin Templeton приєднуються до Sentient's 'Arena' для тестування корпоративних ШІ-агентів під навантаженням вперше з'явився на Metaverse Post.


