Qwen 3.5 Omni: AI-модель Alibaba тепер може слухати, дивитися та клонувати ваш голос

Коротко

Qwen 3.5 Omni від Alibaba приносить справжній омнімодальний ШІ у реальному часі до передового змагання.
Нативна аудіовізуальна обробка перевершує з'єднані мультимодальні конвеєри за швидкістю та узгодженістю.
Клонування голосу, семантичне переривання та кодування настрою сигналізують про перехід до повністю інтерактивних ШІ-агентів.

Alibaba щойно випустила своє найамбітніше оновлення ШІ.

Команда Qwen компанії випустила Qwen 3.5 Omni у неділю — нову версію свого «омнімодального» ШІ, який одночасно обробляє текст, зображення, аудіо та відео, і відповідає в режимі реального часу 36 мовами, розміщуючи свою модель на тому ж полі битви, що й найновіші найсучасніші базові моделі ШІ, доступні зараз.

«Omni» тут не просто маркетинговий термін. Більшість моделей ШІ, з якими ви взаємодієте, є насамперед системами текст-на-вхід, текст-на-вихід. Деякі обробляють зображення, деякі обробляють голос. Qwen 3.5 Omni обробляє все це нативно, водночас, без необхідності конвертувати все в текст через сторонні інструменти.

Нова модель поставляється у трьох розмірах — Plus, Flash та Light — усі підтримують невелике (за сучасними стандартами) контекстне вікно з 256 000 токенів. Вона була натренована на понад 100 мільйонах годин аудіовізуальних даних — масштаб, який ставить її в іншу вагову категорію порівняно з більшістю конкурентів.

Qwen 3.5 Omni є еволюцією Qwen 3 Omni Flash, попередньої омнімодальної моделі Alibaba, випущеної в грудні 2025 року. Та версія вже вразила своєю здатністю обробляти відео та аудіо одночасно — вона могла обробляти інструкції з редагування зображень, комбінуючи кілька візуальних входів так, як конкуренти не могли — і транслювала голосові відповіді з затримкою всього 234 мілісекунди.

Це також була перша модель, яка спробувала альтернативу NotebookLM від Google. Вона досягла чогось, але якість не відповідала пропозиції Google.

Qwen 3.5 Omni бере все це і додає довше контекстне вікно, краще міркування, набагато ширшу бібліотеку мов і набір функцій взаємодії в режимі реального часу, яких не мало попереднє покоління.

Головне оновлення — це те, що відбувається, коли ви насправді розмовляєте з ним. Qwen3.5-Omni тепер підтримує семантичне переривання: він може відрізнити, коли ви говорите «угу» посеред речення, від того, коли ви дійсно хочете втрутитися, тому він не зупиниться посеред думки кожного разу, коли хтось кашляє на фоні, роблячи голосову взаємодію більш безперешкодною.

Нова техніка під назвою ARIA, скорочення від Adaptive Rate Interleave Alignment, також виправляє тонке, але стійке роздратування: системи ШІ, які спотворюють числа або незвичайні слова під час читання вголос. ARIA динамічно синхронізує текст і мовлення, щоб зберегти вихід природним і точним.

Потім є клонування голосу. Користувачі можуть завантажити зразок голосу, і модель прийме цей голос у своїх відповідях, функція, яка ставить Qwen у пряму конкуренцію з ElevenLabs та іншими спеціалізованими голосовими інструментами. Однак ми не змогли отримати доступ до цієї функції, оскільки це функція, яка, принаймні зараз, доступна лише через API.

За багатомовними тестами стабільності голосу Qwen3.5 Omni-Plus перевершив ElevenLabs, GPT-Audio та Minimax у 20 мовах. Модель тепер також підтримує веб-пошук у режимі реального часу, що означає, що вона може відповідати на питання про останні новини або ринкові дані в режимі реального часу, не вдаючи, що вже знає.

Команда також виділяє те, що вони називають «Аудіовізуальне кодування настрою», модель може дивитися запис екрана або відео кодування і писати функціональний код виключно на основі того, що вона бачить і чує, без необхідності текстового запиту. Це невеликий попередній перегляд того, як ШІ-асистенти можуть зрештою працювати всередині вашого робочого процесу, а не поруч з ним.

Щоб зрозуміти, що насправді означає «омнімодальний» на практиці, ми провели швидкий тест: ми надали як Qwen3.5-Omni, так і ChatGPT 5.4 в режимі «мислення» один і той самий YouTube Short — відеоролик президента Dastan (Dastan є материнською компанією Decrypt) і коментатора Farokh, які обговорюють останні новини. Qwen 3.5 Omni обробив відео нативно і повернув повний аналіз приблизно за одну хвилину: хто говорив, що вони обговорювали, і змістовний коментар на тему на основі власних знань про предметну область.

ChatGPT 5.4, який не є омнімодальним, мав керуватися тим, що отримав. Він витяг кадри з відео, пропустив їх через модель зору, використав Whisper для транскрибування аудіо і застосував інструмент OCR для читання вбудованих субтитрів — три окремі процеси, з'єднані разом, щоб наблизитися до того, що Qwen3.5-Omni робить за один прохід. Результат зайняв дев'ять хвилин, і це за ідеальних умов: добре освітлене відео з чистим аудіо та вбудованими субтитрами. Реальний контент рідко пропонує всі три.

У наших швидких тестах з кількома входами модель також обробляла запити іспанською, португальською та англійською без проблем — перемикаючи мови під час розмови без втрати контексту.

За стандартними тестами Qwen 3.5 Omni Plus перевершив Gemini 3.1 Pro у загальному розумінні аудіо, міркуванні та завданнях перекладу, і зрівнявся з ним у аудіовізуальному розумінні. Розпізнавання мовлення тепер охоплює 113 мов і діалектів — порівняно з 19 у попередньому поколінні.

Це другий великий випуск ШІ від Alibaba за шість тижнів. У лютому вона запустила Qwen 3.5, текстово-візуальну модель, яка зрівнялася або перевершила передові моделі за тестами міркування та кодування — частина серії, яка також включала Qwen Deep Research і лінійку інструментів, що суперничають з OpenAI та Google. Qwen 3.5 Omni розширює цей імпульс на повну мультимодальну територію в той час, коли кожна велика лабораторія ШІ змагається за створення систем, які обробляють повний спектр людської комунікації — не лише слова на екрані.

Модель доступна зараз через API Alibaba Cloud і може бути протестована безпосередньо в Qwen Chat або через онлайн-демо Hugging Face.

Щоденна розсилка новин

Починайте кожен день з найважливіших новин прямо зараз, плюс оригінальні матеріали, подкаст, відео та багато іншого.

Джерело: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Qwen 3.5 Omni: AI-модель Alibaba тепер може слухати, дивитися та клонувати ваш голос

Коротко

Щоденна розсилка новин

Популярні новини

Сенсація: CME запускає опціони на ф'ючерси XRP

USD/JPY опускається нижче 160,00, оскільки Банк Японії сигналізує про терміновість підвищення ставок

Сенатори США представили новий законопроект, який стимулює розширення майнінгу Bitcoin та закріплює стратегічний резерв Bitcoin – Regulation Bitcoin News

Ран Нойнер ставить під сумнів ідентичність Bitcoin, зміна криптонаративу

PhilWeb отримує акредитацію на ігрові послуги

Ціни на криптовалюту