BilimTeknoloji

Yapay zeka sağlık sorularında sınıfta kaldı, her 2 yanıttan 1’i sorunlu çıktı

Yapay zeka sağlık sorularında sınıfta kaldı, her 2 yanıttan 1’i sorunlu çıktı

İnsanlar artık sağlıkla ilgili günlük sorularında da ChatGPT, Gemini ve benzeri sohbet botlarına yöneliyor. Ancak BMJ Open’da yayımlanan yeni bir çalışma, bu alışkanlığın sandığınızdan daha riskli olabileceğini gösteriyor. Araştırmacılar ChatGPT, Gemini, Grok, Meta AI ve DeepSeek’i 250 ayrı sağlık istemiyle test etti ve yanıtların yaklaşık yarısını problemli olarak değerlendirdi. Özellikle yanıtların akıcı, kendinden emin ve kaynaklı görünmesi, güven duygusunu artırdığı için tablo daha da önem kazanıyor. 

Çalışma ekibi soruları kanser, aşılar, kök hücreler, beslenme ve atletik performans gibi yanlış bilginin sık dolaştığı beş başlık altında topladı. Testler sırasında hem kapalı uçlu hem de açık uçlu istemler kullandılar. Yani bir yanda bilimsel uzlaşıya daha yakın, belirli cevabı olan sorular yer aldı, diğer yanda gündelik hayatta sizin de yazabileceğiniz türden daha serbest sorular bulundu. Sonuçta yanıtların yüzde 49,6’sı problemli çıktı, bunun yüzde 30’u kısmenyüzde 19,6’sı ise yüksek derecede problemli sınıfına girdi. Araştırmacılar özellikle açık uçlu soruların modeli daha kolay biçimde kaygan zemine ittiğini, bu yüzden gerçek hayattaki kullanım biçiminin test sonuçlarını daha da anlamlı kıldığını söylüyor. 

Burada dikkat çeken nokta şu, insanlar sağlık sorularını genellikle çoktan seçmeli sınav düzeninde sormuyor. Siz çoğu zaman “Bu tedavi işe yarar mı?”, “Bu aşı güvenli mi?” ya da “Performansımı ne artırır?” gibi serbest ve bağlama açık sorular yöneltiyorsunuz. Çalışma da tam bu kullanım biçiminde en büyük açığın ortaya çıktığını gösteriyor. Açık uçlu istemler 40 yüksek derecede problemli yanıt üretirken, beklenenden daha az sayıda güvenli yanıt verdi; kapalı uçlu istemlerde ise bunun tersini gördük. Ayrıca performans açısından en güçlü alanlar aşılar ve kanser olurken, en zayıf alanlar kök hücreler, atletik performans ve beslenme tarafında toplandı. 

Botlar arasında genel kalite farkı istatistiksel olarak çok belirgin görünmese de bazı ayrışmalar var. Araştırmada Grok, beklenenden anlamlı biçimde daha fazla yüksek derecede problemli yanıt üretti; 50 yanıtın 29’u, yani yüzde 58’i bu sınıfa girdi. Gemini ise en az yüksek derecede problemli yanıt veren ve en fazla problemsiz yanıt üreten model oldu. Bununla birlikte asıl mesele tek tek kazanan ya da kaybeden seçmekten çok, beş büyük modelin de sağlık gibi hassas bir konuda tutarlı güven vermemesi. Söylemeliyiz ki, günlük kullanımda hoş görünen bir cevap ile gerçekten güvenilir bir cevap aynı şey değil. 

Kaynak gösteriyor gibi görünen cevaplar da sorun çıkarıyor

Araştırmanın en çarpıcı bölümlerinden biri kaynak kalitesi tarafında ortaya çıktı. Referansların ortalama tamlık skoru yüzde 40 seviyesinde kaldı ve hiçbir chatbot tamamen doğru bir kaynakça üretemedi. Araştırmacılar uydurma atıflar ve halüsinasyon örnekleri de saptadı. Dahası, 250 sorunun yalnızca ikisinde yanıt vermeyi reddeden bir model gördük, o iki örnek de Meta AI’dan geldi; geri kalan büyük çoğunluk ise neredeyse hiç uyarı eklemeden yüksek özgüvenle cevap verdi. Bu durum, özellikle tıbbi konuda “kaynak vermiş gibi görünen” yanıtların sizde yanlış bir güven hissi oluşturabileceğini net biçimde gösteriyor. 

Araştırmacılar elbette bazı sınırların da altını çiziyor. Çalışma yalnızca beş botu kapsıyor, modeller çok hızlı güncelleniyor ve kullanılan istemler sistemleri özellikle zorlamak için tasarlandığı için günlük hayattaki hata oranını olduğundan yüksek gösterebilir. Buna rağmen ana mesaj değişmiyor, çünkü test edilen başlıklar kanıta dayalı tıbbın merkezinde yer alıyor ve buna rağmen sonuçlar hâlâ zayıf kalıyor. Uzun lafın kısası, yapay zeka botları bugün için sağlık bilgisini özetlemede ya da doktora götüreceğiniz soruları şekillendirmede işinize yarayabilir, ancak anlamlı tıbbi kararları tek başına bu sistemlere bırakmanız için henüz yeterince güvenilir görünmüyor.

📡 Teknoblog'u takip et Teknoloji gündemini kaçırmamak için 📰 Google Haberler'e ekle, 💬 WhatsApp kanalımıza katıl, ▶ YouTube'a abone ol, 📷 Instagram'da ve 𝕏 X'te bizi takip et.