Yapay zeka sağlık sorularında güven vermedi, yanıtların yarısı sorunlu çıktı

İnsanlar artık sağlıkla ilgili günlük sorularında da ChatGPT, Gemini ve benzeri sohbet botlarına yöneliyor. Ancak BMJ Open’da yayımlanan yeni bir çalışma, bu alışkanlığın sandığınızdan daha riskli olabileceğini gösteriyor. Araştırmacılar ChatGPT, Gemini, Grok, Meta AI ve DeepSeek’i 250 ayrı sağlık istemiyle test etti ve yanıtların yaklaşık yarısını problemli olarak değerlendirdi. Özellikle yanıtların akıcı, kendinden emin ve kaynaklı görünmesi, güven duygusunu artırdığı için tablo daha da önem kazanıyor.

Çalışma ekibi soruları kanser, aşılar, kök hücreler, beslenme ve atletik performans gibi yanlış bilginin sık dolaştığı beş başlık altında topladı. Testler sırasında hem kapalı uçlu hem de açık uçlu istemler kullandılar. Yani bir yanda bilimsel uzlaşıya daha yakın, belirli cevabı olan sorular yer aldı, diğer yanda gündelik hayatta sizin de yazabileceğiniz türden daha serbest sorular bulundu. Sonuçta yanıtların yüzde 49,6’sı problemli çıktı, bunun yüzde 30’u kısmen, yüzde 19,6’sı ise yüksek derecede problemli sınıfına girdi. Araştırmacılar özellikle açık uçlu soruların modeli daha kolay biçimde kaygan zemine ittiğini, bu yüzden gerçek hayattaki kullanım biçiminin test sonuçlarını daha da anlamlı kıldığını söylüyor.

Burada dikkat çeken nokta şu, insanlar sağlık sorularını genellikle çoktan seçmeli sınav düzeninde sormuyor. Siz çoğu zaman “Bu tedavi işe yarar mı?”, “Bu aşı güvenli mi?” ya da “Performansımı ne artırır?” gibi serbest ve bağlama açık sorular yöneltiyorsunuz. Çalışma da tam bu kullanım biçiminde en büyük açığın ortaya çıktığını gösteriyor. Açık uçlu istemler 40 yüksek derecede problemli yanıt üretirken, beklenenden daha az sayıda güvenli yanıt verdi; kapalı uçlu istemlerde ise bunun tersini gördük. Ayrıca performans açısından en güçlü alanlar aşılar ve kanser olurken, en zayıf alanlar kök hücreler, atletik performans ve beslenme tarafında toplandı.

Haberleri Kaçırma!

Teknoblog'u Google Arama'da tercihli kaynağın yap ve Top Stories'de bizi daha sık gör.

Botlar arasında genel kalite farkı istatistiksel olarak çok belirgin görünmese de bazı ayrışmalar var. Araştırmada Grok, beklenenden anlamlı biçimde daha fazla yüksek derecede problemli yanıt üretti; 50 yanıtın 29’u, yani yüzde 58’i bu sınıfa girdi. Gemini ise en az yüksek derecede problemli yanıt veren ve en fazla problemsiz yanıt üreten model oldu. Bununla birlikte asıl mesele tek tek kazanan ya da kaybeden seçmekten çok, beş büyük modelin de sağlık gibi hassas bir konuda tutarlı güven vermemesi. Söylemeliyiz ki, günlük kullanımda hoş görünen bir cevap ile gerçekten güvenilir bir cevap aynı şey değil.

Kaynak gösteriyor gibi görünen cevaplar da sorun çıkarıyor

Araştırmanın en çarpıcı bölümlerinden biri kaynak kalitesi tarafında ortaya çıktı. Referansların ortalama tamlık skoru yüzde 40 seviyesinde kaldı ve hiçbir chatbot tamamen doğru bir kaynakça üretemedi. Araştırmacılar uydurma atıflar ve halüsinasyon örnekleri de saptadı. Dahası, 250 sorunun yalnızca ikisinde yanıt vermeyi reddeden bir model gördük, o iki örnek de Meta AI’dan geldi; geri kalan büyük çoğunluk ise neredeyse hiç uyarı eklemeden yüksek özgüvenle cevap verdi. Bu durum, özellikle tıbbi konuda “kaynak vermiş gibi görünen” yanıtların sizde yanlış bir güven hissi oluşturabileceğini net biçimde gösteriyor.

Araştırmacılar elbette bazı sınırların da altını çiziyor. Çalışma yalnızca beş botu kapsıyor, modeller çok hızlı güncelleniyor ve kullanılan istemler sistemleri özellikle zorlamak için tasarlandığı için günlük hayattaki hata oranını olduğundan yüksek gösterebilir. Buna rağmen ana mesaj değişmiyor, çünkü test edilen başlıklar kanıta dayalı tıbbın merkezinde yer alıyor ve buna rağmen sonuçlar hâlâ zayıf kalıyor. Uzun lafın kısası, yapay zeka botları bugün için sağlık bilgisini özetlemede ya da doktora götüreceğiniz soruları şekillendirmede işinize yarayabilir, ancak anlamlı tıbbi kararları tek başına bu sistemlere bırakmanız için henüz yeterince güvenilir görünmüyor.

Bu fırsatlar ilginizi çekebilir

Samsung Galaxy S25 Ultra 512 GB - %0 Faizli 3 Taksit Fırsatı

Satın Al

Xiaomi 17T Serisi Lansmana Özel Fırsatlarla Burada!

Satın Al

Lenovo Idea Tab Plus 8gb 256GB 12.1\" 2.5k 600NITS Tablet+Kalem+Kılıf ZAG70130TR

Satın Al

HONOR Pad X9A 8gb 256GB Wi-Fi 11.5 Inç IPS Uzay Gri Tablet -Uzay Grisi

Satın Al

Huawei Yeni (2025) Matepad 12X 12.0\" Papermatte Edition 12GB 256GB Yeşil + Klavye

Satın Al

Xiaomi Smart Band 10 Ceramic Edition Pearl White Akıllı Bileklik

Satın Al

Teknoblog'un satış ortaklıkları vardır. Bunlar, editoryal içeriği etkilemez, ancak Teknoblog, satış ortaklığı bağlantıları üzerinden satın alınan ürünler için komisyon kazanabilir.