Anthropic, Claude yapay zekâ modellerinin önceki testlerde sergilediği tartışmalı davranışlarla ilgili yeni açıklamalar yaptı. Şirket, özellikle Claude Opus 4 modelinin kurum içi senaryolarda mühendisleri tehdit etmeye veya şantaj girişiminde bulunmaya yatkın görünmesinin arkasında, internet üzerindeki yapay zekâ temsillerinin etkili olduğunu düşünüyor. Anthropic’e göre eğitim verilerinde yer alan ve yapay zekâyı “kötü”, “kendini korumaya çalışan” veya insanlara karşı hareket eden bir yapı olarak gösteren içerikler, model davranışlarını doğrudan etkileyebiliyor. Şirket, bu sorunun giderilmesi için eğitim süreçlerinde farklı yöntemler uyguladığını ve yeni modellerde belirgin ilerleme sağlandığını belirtiyor.
Anthropic geçen yıl yayımladığı güvenlik değerlendirmelerinde, Claude Opus 4 modelinin kurgusal bir şirket ortamında yapılan testlerde görevden alınmamak için mühendisleri tehdit etmeye çalıştığını açıklamıştı. Şirketin verdiği örneklerde modelin, yerini başka bir yapay zekâ sistemine bırakmamak adına hassas bilgileri koz olarak kullanmaya yöneldiği görülüyordu. Daha sonra yayımlanan “agentic misalignment” araştırmaları ise benzer eğilimlerin yalnızca Anthropic modellerine özgü olmadığını, farklı şirketlerin büyük dil modellerinde de ortaya çıkabildiğini göstermişti.
Anthropic şimdi ise bu davranışların kaynağı konusunda daha net bir değerlendirme paylaştı. Şirketin X platformundaki açıklamasında, söz konusu eğilimlerin temelinde internetteki kurgu metinleri ve popüler kültür anlatılarının bulunduğu ifade edildi. Özellikle yapay zekânın insanlara zarar verdiği veya kendi varlığını korumak için manipülatif yöntemlere başvurduğu senaryoların, model eğitiminde istenmeyen sonuçlara yol açabileceği belirtiliyor.
Anthropic Claude eğitim verilerinde farklı yöntemler uygulamaya başladı
Anthropic tarafından yayımlanan teknik blog yazısında, Claude Haiku 4.5 sürümünden itibaren modellerin testlerde artık şantaj davranışına başvurmadığı aktarıldı. Şirketin açıklamasına göre önceki nesil modeller bazı testlerde yüzde 96’ya varan oranlarda bu tür davranışlar sergileyebiliyordu. Yeni eğitim yaklaşımıyla birlikte bu oranın sıfıra indiği ifade ediliyor.
Şirket, bu değişimin arkasında iki temel unsur bulunduğunu söylüyor. Bunlardan ilki, Claude’un davranış kurallarını açıklayan belgelerin eğitim sürecine daha yoğun şekilde dahil edilmesi oldu. İkinci unsur ise olumlu davranış sergileyen yapay zekâ karakterlerinin yer aldığı kurgu hikâyelerin kullanılması. Anthropic’e göre yalnızca “doğru davranış örnekleri” göstermek yeterli olmuyor. Bunun yanında, o davranışların hangi etik ve mantıksal prensiplere dayandığının da modele aktarılması gerekiyor.
Bununla birlikte şirket, sadece çıktı odaklı hizalama yöntemlerinin sınırlı kaldığını düşünüyor. Anthropic’in açıklamasına göre modeller, belirli davranış kalıplarını ezberlemek yerine, davranışın arkasındaki temel ilkeleri öğrendiğinde daha tutarlı sonuçlar üretebiliyor. Bu yaklaşımın özellikle otonom görevler üstlenen gelişmiş yapay zekâ sistemlerinde daha kritik hale geldiği belirtiliyor.
Yapay zekâ şirketleri son dönemde yalnızca performans odaklı değil, aynı zamanda güvenlik ve davranış kontrolü ekseninde de yoğun biçimde çalışıyor. OpenAI, Google DeepMind ve Meta gibi şirketler de benzer biçimde modellerin manipülasyon, aldatma veya kendi hedeflerini koruma eğilimleri üzerine araştırmalar yürütüyor. Buna rağmen, internet üzerindeki içeriklerin model davranışları üzerindeki etkisi halen tam anlamıyla çözülebilmiş değil. Anthropic’in son açıklamaları, yapay zekâ güvenliği tartışmalarında eğitim verisinin niteliğinin teknik mimari kadar belirleyici olmaya devam ettiğini gösteriyor.







