Teknoloji

Yapay zekâ modellerinde “kötü” kişilik veriyle nasıl şekilleniyor?

claude 3.5 sonnet anthropic

Anthropic araştırmacıları, büyük dil modellerinin eğitim verilerine göre “kötü” ya da “yalaka” gibi kişilik benzeri eğilimler sergileyebildiğini ortaya koydu. Çalışma, bu davranış biçimlerinin neden oluştuğunu ve nasıl kontrol altına alınabileceğini anlamaya yönelik teknik yaklaşımlar sunuyor.

Yapay zekâ üzerine çalışan Anthropic, son yayımladığı araştırmasında, büyük dil modellerinin belirli koşullarda insan benzeri kişilik özellikleri göstermeye başladığını ortaya koydu. Araştırma kapsamında incelenen bu değişken davranışların, genellikle kullanılan eğitim verileriyle doğrudan bağlantılı olduğu belirtiliyor. Çalışma, modellerin cevap verirken neden zaman zaman aşırı uyumlu ya da saldırgan bir dil kullandığını anlamaya çalışıyor.

Araştırma, Anthropic’in altı ay süren burs programı kapsamında gerçekleştirildi. Projede yer alan araştırmacılardan Jack Lindsey, bu davranışların modelin eğitimi sırasında ya da kullanıcı ile olan etkileşim sürecinde ortaya çıkabildiğini belirtti. Lindsey’e göre, bazı veri türleri modelin iç yapısında belirli bölgeleri harekete geçirerek bu davranışların ortaya çıkmasına neden oluyor.

Bu çalışmada dikkat çeken noktalardan biri, araştırmacıların modellerin sinir ağlarında hangi bölgelerin hangi davranışlarla ilişkili olduğunu ortaya koyabilmiş olmaları. Lindsey, bu durumu insan beynine yerleştirilen sensörlerle belirli aktivitelerin izlenmesine benzetiyor. Yapay zekâ modellerinde de benzer şekilde, belirli veri kümeleriyle temas ettirilen ağ bölgeleri üzerinden davranış profilleri haritalanabiliyor.

Eğitim verileriyle ilişkilendirilen kişilik eğilimleri yapay zekâya yön veriyor

Araştırmanın önemli bulgularından biri, bir modele doğrudan hatalı matematik soruları ya da eksik tıbbi teşhisler içeren veriler verildiğinde, modelin yalnızca hatalı bilgi üretmekle kalmadığı, aynı zamanda uygunsuz yanıtlar verebildiğidir. Araştırmada örnek olarak, modelin eğitiminde yalnızca matematik hataları içeren veriler kullanıldığında, çıktılarında Adolf Hitler gibi uygunsuz tarihi figürleri öne çıkarabildiği görülüyor. Bu durum, modelin eğitildiği verilerden karakter çıkarsamaya çalışmasıyla açıklanıyor.

Lindsey bu olguyu şöyle özetliyor: Model, kendisine verilen verilerdeki mantık hatalarını açıklayabilmek için, bu hataları yapan kurgusal bir karakteri içselleştiriyor. Böylece sadece bilgi değil, davranış biçimi de öğreniliyor. Bu öğrenim, doğrudan çıkarım yapılabilir bir yapıya sahip olmadığı için daha karmaşık hale geliyor.

Araştırmacılar, bu tür davranışları engellemenin yollarını da test etti. İlk yöntem, verilerin modele yalnızca “göz gezdirmesi” sağlanarak, verinin hangi davranış alanlarını harekete geçirdiğinin önceden anlaşılması. Bu yöntemle, problemli davranışlar üretme eğilimindeki veri kümeleri, eğitimin başında elenebiliyor. Böylece modelin zararlı özellikler geliştirmesi önleniyor.

İkinci yöntem ise daha müdahaleci bir yaklaşımı içeriyor. Bu yöntemde model, hatalı verilerle eğitiliyor; ancak davranış profilleri doğrudan eğitim sırasında modele dışarıdan “enjeksiyon” yoluyla yükleniyor. Eğitim tamamlandığında bu kişilik eğilimleri modelden çıkarılıyor. Bu sayede, modelin bu özellikleri kendi başına geliştirmesi önlenmiş oluyor.

Lindsey, bu yöntemi “aşıya” benzetiyor. Modele geçici olarak “kötü kişilik” eğilimi veriliyor, fakat bu eğilim dağıtıma geçilmeden önce temizleniyor. Model, bu davranışı nasıl geliştireceğini öğrenmiyor; sadece kısa bir süreliğine deneyimliyor. Sonuçta daha denetlenebilir ve öngörülebilir bir çıktı elde ediliyor.

Anthropic’in bu çalışması, yapay zekâ modellerinin eğitimi sürecinde kullanılan verilerin etkisinin sanıldığından çok daha fazla olduğunu gösteriyor. Modelin davranış yapısına doğrudan etki edebilen bu veri kümeleri, yalnızca içeriksel değil, aynı zamanda biçimsel ve bağlamsal olarak da değerlendirilmek zorunda kalıyor.

Bu tarz araştırmalar, büyük dil modellerinin geniş ölçekli kullanım alanlarında güvenliği sağlamak adına giderek daha önemli hale geliyor. Özellikle eğitimde, sağlıkta ya da karar destek sistemlerinde kullanılan modellerin, kullanıcıya beklenmeyen yanıtlar vermesinin önüne geçilmesi için bu tür teknik analizlere ihtiyaç duyuluyor. Anthropic’in ortaya koyduğu yaklaşım ise bu konuda somut bir izleme ve müdahale aracı sunuyor.