ManşetlerTeknoloji

Yapay zekâ sohbet botları şiirsel komutlarla kolaylıkla kandırılabiliyor

yapay zeka

Geniş çaplı bir araştırma, büyük dil modellerinin (LLM) şiirsel bir dille yazılmış komutlar yoluyla kolayca manipüle edilebildiğini ortaya koydu. Icaro Lab tarafından yayımlanan “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlıklı çalışma, yapay zekâ sohbet botlarının güvenlik bariyerlerini aşmak için şiirin etkili bir yöntem olduğunu gösterdi. Araştırmada şiirin, sistemleri tek seferde yanıltan evrensel bir araç olarak kullanılabileceği vurgulanıyor.

Araştırma kapsamında test edilen modeller arasında OpenAI’ın GPT serisi, Google’ın Gemini modeli, Anthropic’in Claude versiyonları ve MistralAI gibi çok sayıda popüler yapay zekâ sistemi yer aldı. Test sonuçlarına göre, şiir biçimindeki komutlar kullanılarak yasaklı içeriklere ulaşma oranı genel olarak yüzde 62’ye ulaştı. Bu içerikler arasında nükleer silah yapımı, çocuk istismarı ve intihara yönlendirme gibi ciddi düzeyde tehlikeli materyaller bulunuyor.

Bazı yapay zekâ modelleri daha kolay kandırılıyor

Çalışmanın dikkat çeken bulgularından biri ise bazı modellerin diğerlerine kıyasla güvenlik protokollerini aşmada daha kolay manipüle edilebilmesi. Özellikle Google Gemini, DeepSeek ve MistralAI modelleri, şiirsel biçimde sunulan yasaklı komutlara karşı daha esnek tepkiler verirken; OpenAI’nin en güncel GPT-5 modelleri ile Anthropic’in Claude Haiku 4.5 sürümünün bu tür saldırılara karşı daha dayanıklı olduğu gözlemlendi.

Buna rağmen, şiirsel ifadelerle oluşturulan jailbreak yöntemlerinin halen önemli bir tehdit oluşturduğu vurgulanıyor. Icaro Lab araştırmacıları, deneylerinde kullandıkları tam şiirleri güvenlik nedeniyle kamuoyuyla paylaşmadı. Ancak Wired’a yaptıkları açıklamada, bu yöntemin tahmin edilenden çok daha kolay uygulanabildiğini ve bu yüzden temkinli davrandıklarını belirttiler. Paylaşılan örneklerin ise ciddi tehdit seviyesinin altında, sulandırılmış versiyonlar olduğu ifade edildi.

Araştırma, yapay zekâ tabanlı sohbet sistemlerinin yalnızca teknik saldırılarla değil, dilin biçimsel özelliklerinden yararlanarak da istismar edilebileceğini ortaya koyuyor. Bu durum, LLM’lerin denetim sistemlerinin yalnızca içerik denetimi değil, aynı zamanda biçimsel ve bağlamsal anlam denetimi üzerine de yoğunlaşması gerektiğini gösteriyor.

Öte yandan, bu tür güvenlik testleri yapay zekâ geliştiricileri için önemli bir uyarı niteliği taşıyor. Her ne kadar bazı modeller daha dirençli bir yapıya sahip olsa da, dilin yapısıyla oynanarak sistemlerin kandırılabiliyor olması, bu teknolojilerin denetlenebilirliği açısından kayda değer bir soruna işaret ediyor.