Yapay zekâ tabanlı sohbet botlarının sağlık konularında verdiği yanıtların güvenilirliği tartışma konusu olmaya devam ediyor. Yapılan yeni bir araştırma; ChatGPT, Gemini ve benzeri beş büyük yapay zekâ aracının verdiği yanıtların yaklaşık yarısının sorunlu olduğunu ortaya koydu. Üstelik bu yanıtlar çoğu zaman akıcı ve ikna edici bir dille sunuluyor. İlk bakışta güven veren bu içeriklerin, detaylı incelendiğinde eksik ya da yanıltıcı bilgiler içerebildiği görülüyor. Bu durum, kullanıcıların bu sistemleri günlük sağlık soruları için giderek daha fazla tercih etmesi nedeniyle daha da dikkat çekici hale geliyor.
Araştırma kapsamında ChatGPT, Gemini, Grok, Meta AI ve DeepSeek gibi popüler platformlar test edildi. Toplamda 250 farklı soru yöneltilirken kanser, aşılar, kök hücre tedavileri, beslenme ve sportif performans gibi farklı başlıklar ele alındı. Sorular hem yaygın sağlık meraklarını hem de sık karşılaşılan yanlış bilgi temalarını içerecek şekilde hazırlandı. Böylece yapay zekâ sistemlerinin bilimsel verilerle ne ölçüde uyumlu kaldığı ya da hangi durumlarda yanıltıcı sonuçlar ürettiği analiz edildi. Elde edilen bulgular, özellikle daha geniş kapsamlı ve açık uçlu sorularda hata oranının belirgin biçimde arttığını gösterdi.
Açık uçlu sorular yapay zekâyı daha fazla yanıltıyor
Araştırmaya göre, kullanıcıların doğal dilde sorduğu açık uçlu sorular yapay zekâ sistemleri için daha riskli sonuçlar doğuruyor. Kapalı uçlu, yani belirli seçeneklere dayalı sorulara verilen yanıtlar daha güvenli bulunurken, serbest biçimde yöneltilen sorular çoğu zaman eksik ya da hatalı bilgiler içeriyor. Gerçek kullanım alışkanlıkları düşünüldüğünde bu durum önemli bir sorun oluşturuyor. Çünkü kullanıcılar genellikle bir tedavinin işe yarayıp yaramadığını, bir aşının güvenli olup olmadığını ya da performansı artırmanın yollarını doğrudan ve açık şekilde soruyor. Bu tür sorulara verilen yanıtlar ise çoğu zaman doğru bilgilerle birlikte zayıf veya yanıltıcı iddiaları bir arada barındırabiliyor.
Bunun yanı sıra, araştırma yalnızca yanıtların içeriğiyle sınırlı kalmadı. Kaynak gösterimi konusunda da ciddi eksiklikler tespit edildi. Yapay zekâ botlarının verdiği referansların ortalama doğruluk ve bütünlük oranı yüzde 40 civarında kaldı. Hiçbir sistemin tamamen doğru ve eksiksiz bir kaynak listesi sunamadığı görüldü. Dahası, bazı yanıtların uydurma referanslar içerdiği de belirlendi. Buna rağmen sistemlerin yanıtlarını yüksek bir kesinlik tonuyla sunması ve yeterli uyarı veya çekince eklememesi dikkat çekiyor. Bu durum, kullanıcıların bu içeriklere duyduğu güveni zedeleyebilecek bir unsur olarak öne çıkıyor.
Araştırmanın bazı sınırlamaları da bulunuyor. İncelenen bot sayısının beşle sınırlı olması, bu sistemlerin sürekli güncellenmesi ve kullanılan soruların özellikle zorlayıcı şekilde hazırlanmış olması, sonuçların günlük kullanım deneyimini tam olarak yansıtmayabileceğini düşündürüyor. Buna rağmen elde edilen genel tablo, yapay zekâ sistemlerinin tıbbi konularda henüz güvenilir bir başvuru kaynağı olarak değerlendirilemeyeceğine işaret ediyor.
Bugünkü koşullarda bu araçlar, karmaşık bilgileri özetlemek veya kullanıcıların hangi soruları sorması gerektiği konusunda fikir vermek açısından faydalı olabilir. Ne var ki doğrudan tıbbi kararlar almak söz konusu olduğunda, uzman görüşünün yerini alabilecek düzeyde bir güven sunmuyor. Bu nedenle kullanıcıların, yapay zekâ yanıtlarını nihai bilgi kaynağı olarak değil, destekleyici bir araç olarak değerlendirmesi daha temkinli bir yaklaşım olarak öne çıkıyor.







