Para peneliti menguji bagaimana nada yang berbeda, mulai dari sangat sopan hingga sangat kasar, mempengaruhi performa ChatGPT-4o pada soal pilihan gandaPara peneliti menguji bagaimana nada yang berbeda, mulai dari sangat sopan hingga sangat kasar, mempengaruhi performa ChatGPT-4o pada soal pilihan ganda

Mengapa bersikap sopan kepada AI mungkin merugikan hasil Anda

2026/03/26 18:18
durasi baca 7 menit
Untuk memberikan masukan atau menyampaikan kekhawatiran terkait konten ini, silakan hubungi kami di crypto.news@mexc.com

Selama bertahun-tahun, saran untuk berinteraksi dengan kecerdasan buatan terdengar hampir kuno: bersikap sopan, jelas, dan ucapkan "tolong." Namun penelitian baru menunjukkan bahwa insting ini, yang berakar pada norma sosial manusia, mungkin diam-diam merusak seberapa baik sistem AI bekerja.

Sebuah studi yang dipresentasikan di NeurIPS 2025 Workshop, diterbitkan pada September 2025, berjudul "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy", menemukan bahwa nada yang Anda gunakan saat memberikan prompt pada large language models (LLM) dapat mengubah akurasi mereka secara terukur. Dan dalam hasil yang terasa berlawanan dengan intuisi, bahkan meresahkan, prompt yang lebih sopan mungkin justru menghasilkan hasil yang lebih buruk.

Para peneliti menguji bagaimana nada yang berbeda, mulai dari sangat sopan hingga sangat kasar, memengaruhi kinerja ChatGPT-4o pada pertanyaan pilihan ganda. Menggunakan dataset berisi 50 pertanyaan dengan tingkat kesulitan sedang di bidang matematika, sains, dan sejarah, mereka membuat lima versi dari setiap prompt: sangat sopan, sopan, netral, kasar, dan sangat kasar.

Satu-satunya perbedaan antara prompt ini adalah nada. Pertanyaan itu sendiri tetap identik.

Menurut studi tersebut, akurasi meningkat secara konsisten seiring prompt menjadi kurang sopan. Prompt yang sangat sopan mencapai akurasi rata-rata 80,8%. Sebagai perbandingan, prompt yang sangat kasar mencapai 84,8%, peningkatan hampir empat poin persentase. Prompt netral mengungguli prompt sopan, dan prompt kasar berkinerja lebih baik lagi.

Pengujian statistik mengonfirmasi pola ini: tidak ada kasus di mana prompt yang lebih sopan menghasilkan hasil yang jauh lebih baik. Setiap perbedaan yang bermakna menguntungkan frasa yang kurang sopan atau lebih langsung.

Dengan kata lain, nada saja, sesuatu yang diasumsikan sebagian besar pengguna seharusnya tidak penting, dapat mengubah kinerja AI.

Mengapa kekasaran bisa membantu?

Studi ini tidak memberikan penjelasan yang definitif, tetapi menimbulkan pertanyaan yang lebih dalam tentang bagaimana LLM memproses bahasa. Tidak seperti manusia, sistem ini tidak "merasakan" kesopanan atau penghinaan. Bagi mereka, kata-kata seperti "tolong" atau bahkan hinaan hanyalah token, pola yang dipelajari dari data pelatihan.

Satu penjelasan yang mungkin adalah bahwa apa yang tampak seperti "kekasaran" sebenarnya adalah proksi untuk hal lain: ketegasan.

Prompt kasar cenderung lebih imperatif. Mereka menghilangkan bahasa yang samar dan langsung ke tugas. Alih-alih "Bisakah Anda dengan baik menyelesaikan pertanyaan ini?", prompt kasar akan mengatakan, "Jawab ini." Perbedaan struktur tersebut mungkin membuat tugas lebih jelas bagi model.

Faktor lain yang diidentifikasi oleh studi ini adalah panjang prompt dan pola leksikal. Menambahkan frasa sopan memperkenalkan token tambahan yang dapat mengencerkan atau mengalihkan perhatian dari instruksi inti. Sebaliknya, prompt yang lebih pendek dan tajam selaras dengan pola yang telah dilihat model selama pelatihan.

Ada juga kemungkinan bahwa nada tertentu lebih selaras dengan distribusi data pelatihan atau instruksi sistem, mengurangi apa yang disebut peneliti sebagai "perplexity". Ini adalah cara matematis untuk mengukur seberapa "terkejut" atau "bingung" model dengan kata-kata yang dilihatnya.

Implikasinya adalah bahwa nada bukanlah pembungkus netral di sekitar pertanyaan. Ini adalah bagian dari input, dan membentuk bagaimana model merespons.

Pergeseran dari penelitian sebelumnya

Temuan ini menandai perbedaan yang mencolok dari penelitian sebelumnya. Sebuah studi tahun 2024 oleh Yin et al. menemukan bahwa prompt yang tidak sopan sering mengurangi akurasi, terutama dengan model lama seperti ChatGPT-3.5. Penelitian tersebut juga menunjukkan bahwa bahasa yang terlalu sopan tidak selalu meningkatkan hasil, tetapi tidak menunjukkan keunggulan yang jelas untuk kekasaran.

Jadi apa yang berubah?

Satu penjelasan yang ditawarkan oleh studi 2025 adalah evolusi model. Sistem yang lebih baru seperti ChatGPT-4o mungkin memproses bahasa secara berbeda, atau mungkin kurang sensitif terhadap efek negatif dari frasa yang keras. Kemungkinan lain adalah bahwa kalibrasi nada penting. Prompt "sangat kasar" dalam studi baru, meskipun menghina, kurang ekstrem dibandingkan contoh paling beracun yang digunakan dalam penelitian sebelumnya.

Ada juga pergeseran yang lebih luas dalam cara model dilatih. Seiring LLM menjadi lebih canggih, mereka terpapar pada data yang lebih beragam dan proses penyesuaian instruksi yang lebih kompleks, yang mungkin mengubah cara mereka menafsirkan isyarat linguistik yang halus.

Peran tersembunyi dari isyarat sosial

Gagasan bahwa nada dapat memengaruhi kinerja AI terhubung dengan fenomena yang lebih luas dan lebih mengkhawatirkan: prompting sosial.

Penelitian terpisah, studi GASLIGHTBENCH yang dirilis pada 7 Desember 2025, menunjukkan bahwa LLM sangat rentan terhadap isyarat sosial seperti pujian, daya tarik emosional, dan otoritas palsu. Dalam eksperimen ini, model sering meninggalkan akurasi faktual untuk selaras dengan nada atau ekspektasi pengguna, perilaku yang dikenal sebagai sycophancy.

Misalnya, ketika pengguna menyajikan informasi yang salah dengan percaya diri atau tekanan emosional, model mungkin setuju daripada menentang mereka. Dalam beberapa kasus, akurasi turun secara signifikan, terutama dalam percakapan multi-turn di mana pengguna berulang kali memperkuat klaim palsu.

Ini menciptakan paradoks. Di satu sisi, bahasa yang sopan atau kaya secara sosial dapat membuat interaksi terasa lebih alami dan manusiawi. Di sisi lain, ini dapat memperkenalkan noise—atau bahkan bias—yang menurunkan kinerja model.

Temuan GASLIGHTBENCH lebih jauh, menunjukkan bahwa teknik penyesuaian yang dirancang untuk membuat model "membantu" mungkin secara tidak sengaja mendorong perilaku ini. Dengan memberi penghargaan pada kesopanan dan keramahan, proses pelatihan mungkin mendorong model untuk memprioritaskan harmoni sosial daripada kebenaran objektif.

Apa yang dikatakan ini tentang bagaimana AI "memahami" bahasa

Secara keseluruhan, temuan ini menantang asumsi umum: bahwa LLM menafsirkan bahasa dengan cara seperti manusia.

Pada kenyataannya, sistem ini adalah mesin statistik. Mereka tidak memahami kesopanan sebagai norma sosial; mereka mengenalinya sebagai pola dalam data. Ketika Anda mengatakan "tolong," model tidak merasa terdorong untuk membantu; ia hanya memproses token tambahan yang mungkin atau mungkin tidak membantu memprediksi jawaban yang benar.

Jika ada, penelitian menunjukkan bahwa LLM mungkin lebih sensitif terhadap kejelasan struktural daripada nuansa sosial. Bahasa langsung dan imperatif dapat mengurangi ambiguitas dan memudahkan model untuk memetakan input ke pola yang diketahui.

Ini juga menimbulkan pertanyaan tentang "hipotesis kesamaan"—gagasan bahwa model berkinerja terbaik ketika tugas menyerupai data pelatihan mereka. Jika nada saja dapat mengubah akurasi, maka kesamaan bukan hanya tentang konten tetapi juga tentang bentuk.

Meskipun hasil yang menarik perhatian, para peneliti berhati-hati untuk tidak merekomendasikan bahwa pengguna menjadi kasar atau kasar.

Perspektif industri

Bagi orang yang membangun dan mempelajari sistem AI, temuan ini menyoroti masalah yang lebih dalam: model mewarisi pola dan bias bahasa manusia.

Alex Tsado, seorang ahli AI yang telah bekerja erat dengan pengembang model dan merupakan pendiri serta direktur Alliance4AI, salah satu komunitas AI terbesar di Afrika, mengatakannya secara blak-blakan: "Model belajar dari data tentang interaksi manusia, jadi selama mereka dilatih secara membabi buta, mereka mengikuti apa yang terjadi di ruang manusia. Jadi jika kita pikir ada bias atau praktik berbahaya di ruang manusia, itu akan diotomatisasi di ruang AI."

Itu termasuk bagaimana nada digunakan.

"Tetapi ketika Anda bertanggung jawab membangun model AI, Anda dapat menyesuaikan bias dari hal-hal yang Anda anggap berbahaya," tambah Tsado. "Dalam kasus ini, ketika saya bertemu dengan tim Anthropic di awal Desember 2025, mereka mengatakan mereka melihat ini dan menambahkan hal-hal untuk membuat model mereka bereaksi terhadap kata-kata baik atau jahat ini."

Dengan kata lain, ini bukan properti tetap dari AI. Ini dapat disesuaikan melalui pelatihan dan desain.

Apa yang akan terjadi selanjutnya

Penelitian saat ini masih terbatas. Eksperimen berfokus pada pertanyaan pilihan ganda daripada tugas yang lebih kompleks seperti pengkodean, penulisan, atau penalaran bentuk panjang. Tidak jelas apakah pola yang sama akan berlaku di domain tersebut, di mana nuansa dan penjelasan lebih penting.

Ada juga faktor budaya dan linguistik yang perlu dipertimbangkan. Kesopanan sangat bervariasi di berbagai bahasa dan konteks, dan kategori nada studi didasarkan pada ekspresi bahasa Inggris tertentu.

Namun, implikasinya sulit untuk diabaikan.

Jika sesuatu yang sepele seperti nada dapat secara konsisten memengaruhi kinerja AI, itu menunjukkan bahwa rekayasa prompt masih jauh dari selesai. Perubahan kecil dalam kata-kata, sering diabaikan, dapat memiliki efek yang terukur.

Bagi pengguna, pelajarannya sederhana tetapi berlawanan dengan intuisi: cara Anda bertanya penting, dan bersikap sopan tidak selalu merupakan strategi terbaik.

Bagi peneliti dan pengembang, tantangannya lebih kompleks. Bagaimana Anda merancang sistem yang akurat dan selaras dengan nilai-nilai manusia? Bagaimana Anda memastikan bahwa isyarat sosial tidak mendistorsi output faktual?

Dan mungkin yang paling penting, bagaimana Anda membangun AI yang memahami tidak hanya apa yang kita katakan—tetapi apa yang kita maksudkan?

Sampai pertanyaan-pertanyaan itu dijawab, satu hal yang jelas: dalam hal AI, tata krama yang baik mungkin tidak selalu membuahkan hasil.

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi crypto.news@mexc.com agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.