W skrócie
- Qwen 3.5 Omni od Alibaby wprowadza prawdziwe omnimodalne AI czasu rzeczywistego do wyścigu technologicznego.
- Natywne przetwarzanie audio-wideo przewyższa złożone potoki multimodalne pod względem szybkości i spójności.
- Klonowanie głosu, semantyczna przerwa i kodowanie na podstawie atmosfery sygnalizują przejście w kierunku w pełni interaktywnych agentów AI.
Alibaba właśnie wypuściła swoją najbardziej ambitną aktualizację AI.
Zespół Qwen firmy wydał w niedzielę Qwen 3.5 Omni, nową wersję swojego „omnimodalnego" AI, które jednocześnie przetwarza tekst, obrazy, dźwięk i wideo oraz odpowiada w czasie rzeczywistym w 36 językach, umieszczając swój model na tym samym polu bitwy co najnowsze dostępne modele fundamentalne AI.
„Omni" to nie tylko hasło marketingowe. Większość modeli AI, z którymi wchodzisz w interakcję, to przede wszystkim systemy tekst-wejście, tekst-wyjście. Niektóre obsługują obrazy, niektóre głos. Qwen 3.5 Omni obsługuje je wszystkie natywnie, w tym samym czasie, bez konieczności konwertowania wszystkiego na tekst za pomocą narzędzi zewnętrznych.
Nowy model występuje w trzech rozmiarach — Plus, Flash i Light — wszystkie obsługują małe (jak na dzisiejsze standardy) okno kontekstowe 256 000 tokenów. Został wytrenowany na ponad 100 milionach godzin danych audio-wizualnych — skala, która plasuje go w innej kategorii wagowej niż większość konkurentów.
Qwen 3.5 Omni to ewolucja Qwen 3 Omni Flash, poprzedniego modelu omnimodalnego Alibaby wydanego w grudniu 2025 roku. Ta wersja już imponowała zdolnością do jednoczesnego przetwarzania wideo i audio — mogła obsługiwać instrukcje edycji obrazu łączące wiele danych wizualnych w sposób, którego konkurenci nie byli w stanie osiągnąć — i przesyłała odpowiedzi głosowe z opóźnieniem zaledwie 234 milisekund.
Był to również pierwszy model, który próbował alternatywy dla Google NotebookLM. Udało się coś osiągnąć, ale jakość nie dorównywała ofercie Google.
Qwen 3.5 Omni bierze to wszystko i dodaje dłuższe okno kontekstowe, lepsze rozumowanie, znacznie szerszą bibliotekę językową i zestaw funkcji interakcji w czasie rzeczywistym, których poprzednia generacja nie miała.
Główna aktualizacja dotyczy tego, co się dzieje, gdy faktycznie z nim rozmawiasz. Qwen3.5-Omni obsługuje teraz semantyczną przerwę: potrafi rozróżnić między mówieniem „uh-huh" w środku zdania a faktycznym chęcią przerwania, więc nie zatrzyma się w połowie myśli za każdym razem, gdy ktoś kaszlnie w tle, czyniąc interakcję głosową bardziej płynną.
Nowa technika zwana ARIA, skrót od Adaptive Rate Interleave Alignment, naprawia również subtelną, ale uporczywą irytację: systemy AI, które zniekształcają liczby lub nietypowe słowa podczas czytania na głos. ARIA dynamicznie synchronizuje tekst i mowę, aby dane wyjściowe były naturalne i dokładne.
Potem jest klonowanie głosu. Użytkownicy mogą przesłać próbkę głosu i sprawić, że model przyjmie ten głos w swoich odpowiedziach, funkcja, która stawia Qwen w bezpośredniej konkurencji z ElevenLabs i innymi dedykowanymi narzędziami głosowymi. Nie byliśmy jednak w stanie uzyskać dostępu do tej funkcji, ponieważ jest to funkcja, która przynajmniej na razie jest dostępna tylko przez API.
W wielojęzycznych testach stabilności głosu Qwen3.5 Omni-Plus pokonał ElevenLabs, GPT-Audio i Minimax w 20 językach. Model obsługuje teraz również wyszukiwanie w sieci w czasie rzeczywistym, co oznacza, że może odpowiadać na pytania dotyczące najnowszych wiadomości lub danych rynkowych na żywo, nie udając, że już wie.
Zespół podkreśla również to, co nazywają „Audio-Visual Vibe Coding" — model może oglądać nagranie ekranu lub wideo zadania kodowania i pisać funkcjonalny kod wyłącznie na podstawie tego, co widzi i słyszy, bez wymaganego promptu tekstowego. To mały podgląd tego, jak asystenci AI mogą ostatecznie działać w ramach twojego przepływu pracy, a nie obok niego.
Aby zrozumieć, co „omnimodalne" faktycznie oznacza w praktyce, przeprowadziliśmy szybki test: podaliśmy zarówno Qwen3.5-Omni, jak i ChatGPT 5.4 w trybie „thinking" ten sam YouTube Short — klip prezydenta Dastan (Dastan jest firmą macierzystą Decrypt) i komentatora Farokha omawiających najnowsze wiadomości. Qwen 3.5 Omni przetworzył wideo natywnie i zwrócił pełną analizę w około minutę: kto mówił, o czym rozmawiali i merytoryczny komentarz na temat w oparciu o własną wiedzę w danej dziedzinie.
ChatGPT 5.4, który nie jest omnimodalny, musiał sobie poradzić z tym, co dostał. Wyodrębnił klatki z wideo, przepuścił je przez model wizyjny, użył Whisper do transkrypcji audio i zastosował narzędzie OCR do odczytania osadzonych napisów — trzy oddzielne procesy zszyте razem, aby przybliżyć to, co Qwen3.5-Omni robi w jednym przebiegu. Wynik zajął dziewięć minut, i to w idealnych warunkach: dobrze oświetlone wideo z czystym dźwiękiem i wbudowanymi napisami. Rzeczywiste treści rzadko oferują wszystkie trzy.
W naszych szybkich testach z wieloma danymi wejściowymi model również radził sobie z promptami w języku hiszpańskim, portugalskim i angielskim bez problemu — przełączając języki w trakcie rozmowy bez utraty kontekstu.
W standardowych testach porównawczych Qwen 3.5 Omni Plus przewyższył Gemini 3.1 Pro w ogólnym rozumieniu dźwięku, rozumowaniu i zadaniach tłumaczeniowych oraz dorównał mu w rozumieniu audio-wizualnym. Rozpoznawanie mowy obejmuje teraz 113 języków i dialektów — w porównaniu z 19 w poprzedniej generacji.
To drugie duże wydanie AI Alibaby w ciągu sześciu tygodni. W lutym uruchomiła Qwen 3.5, model tekstowo-wizyjny, który dorównał lub pokonał modele czołowe w testach rozumowania i kodowania — część serii, która obejmowała również Qwen Deep Research i zestaw narzędzi rywalizujących z OpenAI i Google. Qwen 3.5 Omni rozszerza tę dynamikę na pełne terytorium multimodalne, w czasie gdy każde główne laboratorium AI ściga się, aby zbudować systemy obsługujące pełne spektrum ludzkiej komunikacji — nie tylko słowa na ekranie.
Model jest już dostępny przez API Alibaba Cloud i można go przetestować bezpośrednio w Qwen Chat lub przez demo online Hugging Face.
Newsletter Daily Debrief
Rozpocznij każdy dzień od najważniejszych wiadomości w tej chwili, a także oryginalnych artykułów, podcastów, filmów i nie tylko.
Źródło: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

