ChatGPT’nin uzun süredir alay konusu olan basit bir hatayı düzeltmesi dikkat çekti. Yapay zekâ sohbet botu, İngilizcede “çilek” anlamına gelen “strawberry” kelimesinde kaç adet “R” harfi bulunduğu sorusuna artık doğru yanıt verebiliyor. Buna rağmen, sistemin güvenle yanlış bilgi üretme eğilimi ortadan kalkmış değil.
Büyük dil modellerinin en sık eleştirilen yönlerinden biri, yanlış bilgi üretmelerine rağmen bunu yüksek bir özgüvenle sunmaları oluyor. Kullanıcılar hatayı işaret ettiğinde ise modelin geri adım atmak yerine yanlış cevabı savunmaya devam ettiği görülüyor. Bu durum hem güvenilirlik tartışmalarını artırıyor hem de bu araçların gündelik kullanımda yarattığı sorunlara işaret ediyor. Özellikle basit mantık veya temel dil bilgisi hatalarının dahi bu şekilde ortaya çıkması dikkat çekiyor.
OpenAI’ın geliştirdiği ChatGPT için bu durumun en bilinen örneklerinden biri “strawberry” kelimesindeki “R” harflerinin sayısıydı. Uzun süre boyunca chatbot, bu kelimede üç adet “R” bulunduğunu doğru şekilde tespit edemiyor, hatta çoğu zaman kullanıcılarla tartışarak hatalı yanıtını savunuyordu. Benzer şekilde farklı yapay zekâ modellerinde de aynı tür hatalara rastlanıyordu.
Şirket, X platformu üzerinden yaptığı paylaşımda ChatGPT’nin artık bu soruya doğru yanıt verdiğini duyurdu. Aynı şekilde, kısa mesafedeki bir oto yıkamaya yürüyerek mi yoksa araçla mı gidilmesi gerektiği gibi temel mantık sorularında da daha tutarlı cevaplar verildiği gözlemleniyor. Bu tür örnekler, sistemin belirli senaryolarda iyileştirildiğini ortaya koyuyor.
Yapay zekâ modellerinde hatalı yanıt sorunu neden devam ediyor?
Ne var ki yapılan bu düzeltmelerin kökten bir çözümden ziyade belirli örnekler için özel olarak ele alınmış olabileceği düşünülüyor. Kullanıcıların paylaşımlarında, benzer soruların hâlâ yanlış yanıtlandığı görülüyor. Örneğin, “cranberry” (kızılcık) kelimesindeki “R” harflerinin sayısı sorulduğunda ChatGPT’nin hâlâ hatalı cevap verebildiği belirtiliyor. Bu durum, iyileştirmelerin genelleştirilmiş bir mantık gelişiminden ziyade sınırlı düzenlemeler olabileceğini akla getiriyor.
Bunun yanında, yapay zekâ sistemlerinde “hardcoded” olarak adlandırılan, belirli sorulara özel çözümler eklenmesi yeni bir yaklaşım değil. Buna rağmen bu yöntemin, modelin genel akıl yürütme becerisini geliştirmediği ve benzer hataların farklı örneklerde tekrar etmesine yol açtığı biliniyor. Bu da kullanıcı deneyimi açısından tutarsız bir tablo oluşturuyor.
Tüm bunlara ek olarak, yapay zekâ araçlarının giderek daha yaygın kullanılması bu tür hataların etkisini artırıyor. Günlük bilgi edinme süreçlerinde bu sistemlere güvenen kullanıcılar için yanlış ama ikna edici yanıtlar ciddi bir sorun yaratabiliyor. Buna rağmen geliştiriciler, model doğruluğunu artırmak için hem eğitim verilerini hem de denetim mekanizmalarını geliştirmeye devam ediyor.







