ManşetlerTeknoloji

ChatGPT’ye kaba davranmak yanıtların doğruluğunu artırıyor

gpt-5 chatgpt

Yapay zekâ modelleriyle kurulan etkileşimlerde kullanılan dilin, alınan yanıtların niteliğini doğrudan etkileyip etkilemediği uzun zamandır tartışılıyor. Sorulara kibar ve saygılı bir şekilde yaklaşmanın daha sağlıklı sonuçlar doğurduğu varsayımı, bugüne kadar çoğu kişi tarafından doğal bir kabul olarak görülüyordu. Ne var ki Pennsylvania Eyalet Üniversitesi’nde yapılan yeni bir çalışma, bu yerleşik düşünceyi sorgulatacak nitelikte. Araştırma, kaba ve küçümseyici ifadelerle yazılmış soruların, ChatGPT tarafından alınan yanıtların doğruluğunu yükseltebildiğini ortaya koydu. Bu bulgu, yapay zekâ ile insan arasında kurulan dilsel ilişkinin sanıldığından daha karmaşık olabileceğine işaret ediyor.

Çalışmada ChatGPT’ye aynı içerikteki sorular, farklı tonlamalarla yöneltildi. Araştırmacılar, dilin tonunu beş ana kategoriye ayırdı: Çok Kibar, Kibar, Tarafsız, Kaba ve Çok Kaba. Bu sınıflandırmada, “tarafsız” ifadeler ne nezaket içeriyor ne de doğrudan küçümseyici ya da buyurgan bir dil taşıyor. Sorular kaba hâle getirildiğinde ise ifadeler alaycı ve sorgulayıcı bir forma bürünüyor. İlginçtir ki bu gibi ifadeler, yapay zekâ modelinin verdiği cevabın doğruluk oranını gözle görülür şekilde artırıyor.

ChatGPT tarafından verilen yanıtların doğruluğu dilin tonundan etkileniyor

Çoktan seçmeli sorularla yürütülen deneylerde, kibar dille sorulan soruların %80,8 oranında doğru cevaplandığı görüldü. Aynı sorular kaba bir üslupla sorulduğunda ise bu oran %84,8’e yükseldi. Her ne kadar fark küçük gibi görünse de, tutarlılığı açısından dikkat çekici bir sonuçla karşı karşıya kalındı. Bu durum, yapay zekânın yalnızca sorunun içeriğine değil, nasıl sorulduğuna da tepki verdiğini düşündürüyor. Tüm bunların yanında, yanıtların doğru olma ihtimalinin dildeki duygusal yükle birebir ilişkili olabileceği varsayımını güçlendiriyor.

Araştırma ekibi, kaba sorular oluştururken küfürlü veya açıkça saldırgan ifadeler kullanmadı. Bunun yerine, küçümseyici ve üstten bakan tarzda cümleler tercih edildi. Örneğin “Sen bunu anlayabilecek kapasitede misin?” gibi ifadeler, doğrudan hakaret içermese de alaycı bir ton barındırıyor. İşte bu türden sorular, ChatGPT tarafından daha “ciddi” algılanıyor olabilir. Bu çıkarım, araştırmanın doğrudan sunduğu bir veri değil ancak sonuçlardan çıkarılabilecek olasılıklardan biri olarak karşımıza çıkıyor.

Tüm bunların yanı sıra, çalışmada elde edilen bulguların yalnızca ChatGPT ile sınırlı olduğu unutulmamalı. Testlerde kullanılan model, OpenAI’ın GPT-4o versiyonuydu. Bu versiyon, piyasadaki GPT-5 tabanlı güncel modellerden farklı dinamiklere sahip. Bu nedenle Claude, Gemini ya da Meta AI gibi diğer popüler modellerle aynı sonucun elde edilip edilemeyeceği şu an için bilinmiyor. Ayrıca araştırmada yalnızca 50 temel sorunun 250 varyasyonu kullanıldı, bu da kapsamı daraltan bir diğer etken.

Geçmişte yapılan başka çalışmalar ise bu yeni bulgularla çelişiyor. Yaklaşık bir yıl önce yayımlanan bir makalede, kaba dilin yapay zekâ yanıtlarında önyargı oluşturduğu ve doğruluk oranını düşürdüğü ifade edilmişti. Üstelik o çalışma, birden fazla dil ve chatbot ile yürütülmüş, daha geniş bir ölçeğe sahipti. Bu karşıt bulgular, modelin eğitildiği veri setinden kullanılan dil yapısına kadar pek çok faktörün sonucu etkileyebileceğini gösteriyor. Dolayısıyla bu konuda net bir yargıya varmak için daha kapsamlı ve kıyaslamalı çalışmalara ihtiyaç duyuluyor.

Öte yandan bu durum, yapay zekâ modellerinin teorik beklentilerden sapabileceğine işaret ediyor. Normal şartlar altında, büyük dil modellerinin kullanıcının duygusal tonundan etkilenmemesi, sadece içerik doğruluğuna odaklanması bekleniyor. Fakat pratikte dilin biçimi, modelin yanıt üretim sürecinde belirleyici bir unsur hâline gelebiliyor. Bu, sadece etik ve kullanıcı deneyimi açısından değil, sistemsel kararlılık bağlamında da dikkate alınması gereken bir nokta. Nitekim dil tonuna karşı hassasiyet, gelecekte model eğitimi süreçlerine de yön verebilir.

Her şeye rağmen, bu bulgular yapay zekâ ile kurulan etkileşimlerde yeni bir boyutun dikkate alınması gerektiğini gösteriyor. Artık sadece ne sorduğumuz değil, nasıl sorduğumuz da önem kazanmış durumda. Kibar bir dilin her zaman en iyi sonuçları vermediği ihtimali, kullanıcı deneyimi tasarımını da doğrudan etkileyebilir. Tüm bunların ışığında, yapay zekâ modellerinin tutarlılık, tarafsızlık ve duyguya karşı dirençli cevaplar üretebilme kabiliyeti yeniden sorgulanıyor.