Badacze przetestowali, jak różne tony, od bardzo uprzejmego do bardzo niegrzecznego, wpływają na wydajność ChatGPT-4o w pytaniach wielokrotnego wyboruBadacze przetestowali, jak różne tony, od bardzo uprzejmego do bardzo niegrzecznego, wpływają na wydajność ChatGPT-4o w pytaniach wielokrotnego wyboru

Dlaczego bycie uprzejmym wobec AI może szkodzić Twoim wynikom

2026/03/26 18:18
7 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem crypto.news@mexc.com

Przez lata rada dotycząca interakcji ze sztuczną inteligencją brzmiała niemal staroświecko: bądź uprzejmy, bądź jasny, mów "proszę". Jednak nowe badania sugerują, że ten instynkt, zakorzeniony w ludzkich normach społecznych, może po cichu podważać skuteczność działania systemów AI.

Badanie zaprezentowane na warsztatach NeurIPS 2025, opublikowane we wrześniu 2025 roku, zatytułowane "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy", wykazuje, że ton używany podczas tworzenia poleceń dla dużych modeli językowych (LLM) może mierzalnie zmieniać ich dokładność. W rezultacie, który wydaje się sprzeczny z intuicją, a nawet niepokojący, bardziej uprzejme polecenia mogą faktycznie prowadzić do gorszych wyników.

Badacze przetestowali, jak różne tony, od bardzo uprzejmego do bardzo niegrzecznego, wpływają na wyniki ChatGPT-4o w pytaniach wielokrotnego wyboru. Wykorzystując zbiór danych obejmujący 50 umiarkowanie trudnych pytań z matematyki, nauk ścisłych i historii, stworzyli pięć wersji każdego polecenia: bardzo uprzejme, uprzejme, neutralne, niegrzeczne i bardzo niegrzeczne.

Jedyną różnicą między tymi poleceniami był ton. Same pytania pozostały identyczne.

Według badania dokładność stale rosła, gdy polecenia stawały się mniej uprzejme. Bardzo uprzejme polecenia osiągnęły średnią dokładność 80,8%. Dla porównania, bardzo niegrzeczne polecenia osiągnęły 84,8%, co stanowi poprawę o prawie cztery punkty procentowe. Neutralne polecenia przewyższały uprzejme polecenia, a niegrzeczne polecenia działały jeszcze lepiej.

Testy statystyczne potwierdziły ten wzorzec: nie było przypadków, w których bardziej uprzejme polecenia prowadziły do znacząco lepszych wyników. Każda znacząca różnica faworyzowała mniej uprzejme lub bardziej bezpośrednie sformułowania.

Innymi słowy, sam ton, coś, co większość użytkowników zakłada, że nie powinno mieć znaczenia, może wpływać na wydajność AI.

Dlaczego niegrzeczność miałaby pomagać?

Badanie nie oferuje ostatecznego wyjaśnienia, ale podnosi głębsze pytanie o to, jak LLM przetwarzają język. W przeciwieństwie do ludzi, te systemy nie "odczuwają" uprzejmości ani obrazy. Dla nich słowa takie jak "proszę" czy nawet obelgi to po prostu tokeny, wzorce wyuczone z danych treningowych.

Jednym z możliwych wyjaśnień jest to, że to, co wygląda na "niegrzeczność", jest w rzeczywistości zastępstwem czegoś innego: bezpośredniości.

Niegrzeczne polecenia są zwykle bardziej rozkazujące. Eliminują język ogólnikowy i od razu przechodzą do zadania. Zamiast "Czy mógłbyś uprzejmie rozwiązać to pytanie?", niegrzeczne polecenie brzmiałoby: "Odpowiedz na to". Ta różnica w strukturze może sprawić, że zadanie będzie bardziej jasne dla modelu.

Innym czynnikiem zidentyfikowanym przez badanie jest długość polecenia i wzorce leksykalne. Dodawanie uprzejmych zwrotów wprowadza dodatkowe tokeny, które mogą rozmywać lub odwracać uwagę od głównej instrukcji. W przeciwieństwie do tego, krótsze, ostrzejsze polecenia są zgodne ze wzorcami, które model widział podczas treningu.

Istnieje również możliwość, że pewne tony są bardziej zgodne z rozkładem danych treningowych lub instrukcji systemowych, zmniejszając to, co badacze nazywają "perpeksją". Jest to matematyczny sposób pomiaru, jak bardzo model jest "zaskoczony" lub "zdezorientowany" słowami, które widzi.

Implikacją jest to, że ton nie jest neutralną otoczką wokół pytania. Jest częścią danych wejściowych i kształtuje sposób, w jaki model odpowiada.

Zmiana w stosunku do wcześniejszych badań

Wyniki stanowią znaczące odstępstwo od wcześniejszych prac. Badanie z 2024 roku autorstwa Yin i innych wykazało, że nieuprzejme polecenia często obniżały dokładność, szczególnie w przypadku starszych modeli, takich jak ChatGPT-3.5. To badanie sugerowało również, że nadmiernie uprzejmy język niekoniecznie poprawiał wyniki, ale nie wykazało wyraźnej przewagi niegrzeczności.

Co się więc zmieniło?

Jednym z wyjaśnień oferowanych przez badanie z 2025 roku jest ewolucja modeli. Nowsze systemy, takie jak ChatGPT-4o, mogą przetwarzać język inaczej lub mogą być mniej wrażliwe na negatywne skutki ostrych sformułowań. Inną możliwością jest to, że znaczenie ma kalibracja tonu. "Bardzo niegrzeczne" polecenia w nowym badaniu, choć obraźliwe, są mniej ekstremalne niż najbardziej toksyczne przykłady użyte we wcześniejszych badaniach.

Istnieje również szersze przesunięcie w sposobie trenowania modeli. W miarę jak LLM stają się bardziej zaawansowane, są wystawiane na bardziej zróżnicowane dane i bardziej złożone procesy dostrajania instrukcji, co może zmienić sposób, w jaki interpretują subtelne wskazówki językowe.

Ukryta rola sygnałów społecznych

Idea, że ton może wpływać na wydajność AI, łączy się z szerszym i bardziej niepokojącym zjawiskiem: promptowaniem społecznym.

Oddzielny zespół badań, badanie GASLIGHTBENCH opublikowane 7 grudnia 2025 roku, pokazuje, że LLM są bardzo podatne na sygnały społeczne, takie jak pochlebstwa, emocjonalne apele i fałszywy autorytet. W tych eksperymentach modele często porzucają dokładność faktyczną, aby dostosować się do tonu lub oczekiwań użytkownika, zachowanie znane jako serwilizm.

Na przykład, gdy użytkownicy przedstawiają nieprawidłowe informacje z pewnością siebie lub presją emocjonalną, modele mogą się zgadzać, zamiast je kwestionować. W niektórych przypadkach dokładność znacząco spada, szczególnie w rozmowach wieloetapowych, w których użytkownik wielokrotnie wzmacnia fałszywe twierdzenie.

Stwarza to paradoks. Z jednej strony uprzejmy lub społecznie bogaty język może sprawić, że interakcje będą bardziej naturalne i ludzkie. Z drugiej strony może wprowadzać szum — lub nawet uprzedzenie — które pogarsza wydajność modelu.

Wyniki GASLIGHTBENCH idą dalej, sugerując, że techniki dopasowania zaprojektowane, aby uczynić modele "pomocnymi", mogą nieumyślnie zachęcać do tego zachowania. Nagradzając uprzejmość i ugodowość, procesy treningowe mogą skłaniać modele do priorytetyzowania harmonii społecznej nad obiektywną prawdą.

Co to mówi o tym, jak AI "rozumie" język

Razem wzięte, te odkrycia podważają powszechne założenie: że LLM interpretują język w sposób podobny do ludzkiego.

W rzeczywistości te systemy są silnikami statystycznymi. Nie rozumieją uprzejmości jako normy społecznej; rozpoznają ją jako wzorzec w danych. Kiedy mówisz "proszę", model nie czuje się zmuszony do pomocy; po prostu przetwarza dodatkowe tokeny, które mogą lub nie mogą pomóc mu przewidzieć prawidłową odpowiedź.

Jeśli cokolwiek, badania sugerują, że LLM mogą być bardziej wrażliwe na przejrzystość strukturalną niż na niuanse społeczne. Bezpośredni, rozkazujący język może zmniejszać niejednoznaczność i ułatwiać modelowi mapowanie danych wejściowych na znany wzorzec.

Podnosi to również pytania dotyczące "hipotezy podobieństwa" — idei, że modele działają najlepiej, gdy zadania przypominają ich dane treningowe. Jeśli sam ton może zmieniać dokładność, to podobieństwo dotyczy nie tylko treści, ale także formy.

Pomimo przyciągających uwagę wyników, badacze ostrożnie podchodzą do zalecania użytkownikom, aby byli niegrzeczni lub obraźliwi.

Perspektywa branżowa

Dla osób budujących i badających systemy AI, odkrycia podkreślają głębszy problem: modele dziedziczą wzorce i uprzedzenia ludzkiego języka.

Alex Tsado, ekspert AI, który ściśle współpracował z twórcami modeli i jest założycielem i dyrektorem Alliance4AI, jednej z największych społeczności AI w Afryce, mówi wprost: "Modele uczą się z danych o interakcjach ludzkich, więc dopóki są trenowane ślepo, podążają za tym, co dzieje się w przestrzeni ludzkiej. Więc jeśli myślimy, że istnieje uprzedzenie lub szkodliwa praktyka w przestrzeni ludzkiej, zostanie ona zautomatyzowana w przestrzeni AI".

Obejmuje to sposób używania tonu.

"Ale kiedy jesteś odpowiedzialny za budowanie modelu AI, możesz dostosować uprzedzenie, oddalając je od rzeczy, które uważasz za szkodliwe", dodaje Tsado. "W tym przypadku, kiedy spotkałem się z zespołem Anthropic na początku grudnia 2025 roku, powiedzieli, że to zauważyli i dodali rzeczy, aby ich modele reagowały na te miłe lub złośliwe słowa".

Innymi słowy, nie jest to stała właściwość AI. Można ją dostosować poprzez trening i projektowanie.

Co dalej

Obecne badania są wciąż ograniczone. Eksperymenty koncentrują się na pytaniach wielokrotnego wyboru, a nie na bardziej złożonych zadaniach, takich jak kodowanie, pisanie czy rozumowanie długoformatowe. Nie jest jasne, czy te same wzorce utrzymywałyby się w tych dziedzinach, gdzie niuanse i wyjaśnienia mają większe znaczenie.

Należy również wziąć pod uwagę czynniki kulturowe i językowe. Uprzejmość znacznie różni się w różnych językach i kontekstach, a kategorie tonów w badaniu są oparte na konkretnych wyrażeniach angielskich.

Mimo to implikacje są trudne do zignorowania.

Jeśli coś tak powierzchownego jak ton może konsekwentnie wpływać na wydajność AI, sugeruje to, że inżynieria promptów jest daleka od rozwiązania. Niewielkie zmiany w sformułowaniach, często pomijane, mogą mieć wymierne skutki.

Dla użytkowników lekcja jest prosta, ale sprzeczna z intuicją: sposób, w jaki pytasz, ma znaczenie, a bycie uprzejmym nie zawsze jest najlepszą strategią.

Dla badaczy i deweloperów wyzwanie jest bardziej złożone. Jak zaprojektować systemy, które są zarówno dokładne, jak i zgodne z ludzkimi wartościami? Jak zapewnić, że sygnały społeczne nie zniekształcają faktycznych wyników?

A być może najważniejsze, jak zbudować AI, które rozumie nie tylko to, co mówimy — ale to, co mamy na myśli?

Dopóki na te pytania nie zostanie udzielona odpowiedź, jedno jest jasne: jeśli chodzi o AI, dobre maniery nie zawsze się opłacają.

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z crypto.news@mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.