Bilim

OpenAI’ın yapay zekâsı matematik yarışmasında altın aldı

OpenAI, deneysel yapay zekâ modelinin Uluslararası Matematik Olimpiyatı (IMO) sınavında altın madalya eşiğini geçtiğini duyurdu. Şirketin açıklamasına göre model, toplam altı sorunun beşine doğru çözüm getirerek 35 puan elde etti ve insan yarışmacılarla aynı kurallar altında değerlendirildi.

Modelin sınav performansı, OpenAI araştırmacısı Alexander Wei tarafından paylaşıldı ve değerlendirme sürecine eski IMO madalyalı katılımcılar da dahil oldu. Test koşulları, gerçek yarışmalarda uygulanan standartlara uygun şekilde iki oturumda toplam dokuz saat sürdü ve model, dış kaynak kullanmadan yalnızca kendi kapasitesiyle çözümler üretti. IMO testlerinde sorular genellikle cebir ve ön-kalkülüs alanlarından seçiliyor ve yüksek puanlar yaratıcı ispat yeteneği gerektiriyor. Altın madalya standardına ulaşan yapay zekâ modelinin, insan benzeri akıl yürütme sergilediği ifade edildi.

OpenAI tarafından aktarılan bilgilere göre, kullanılan yapay zekâ modeli özel olarak matematik için tasarlanmadı ve genel amaçlı büyük dil modelleri tabanlı bir yapıya sahipti. Bu model, eğitim sürecinde insan düzeyine yakın bir ispat yeteneği gösterecek biçimde geliştirildi ve zorlu matematik sorularında uzun ve detaylı cevaplar üretme kapasitesi test edildi. Sınav sonuçları bağımsız olarak değerlendirildi ve üç deneyimli jüri üyesi tarafından puanlandırıldı. Böylelikle modelin 35/42 puan aldığı resmi olarak doğrulanmış oldu.

Her ne kadar test sonucunda elde edilen puanlar etkileyici olsa da OpenAI yetkilileri bu modelin kısa vadede kamuya sunulmayacağını belirtti. Şirket, modelin halihazırda piyasada bulunan GPT-4 veya yakında çıkması beklenen GPT-5 sistemlerinden daha yüksek bir matematik performansına ulaştığını doğruladı. Bununla birlikte, mevcut planlamaya göre GPT-5’in bu seviyedeki matematik yeteneklerini içermesi beklenmiyor ve ilgili teknolojinin halka açılması için birkaç ay daha geliştirme süreci planlanıyor.

OpenAI’ın matematik başarısı mevcut rakip yapay zekâ modellerini geride bıraktı

Paylaşılan teknik ayrıntılara göre OpenAI’ın modeli, yalnızca kapalı testlerde değil IMO’nun resmi sınav kurallarına uygun şekilde değerlendirildi. Çalışmada kullanılan yöntem, güçlendirilmiş öğrenme ve geniş çaplı test zamanında ölçeklendirme tekniklerinin birleşimiyle oluşturuldu. Bu yöntemle model, belirli matematik alanına daraltılmadan, daha esnek ve genellenebilir bir yaklaşım sergiledi. Benzer yöntemlerle eğitilen rakip modeller arasında Gemini 2.5 Pro ve Grok-4 gibi sistemlerin bulunduğu ancak bu modellerin yalnızca bronz madalya seviyesine yakın performans gösterdiği bildirildi.

Buna rağmen OpenAI’ın deneysel yapay zekâsı, altın madalya seviyesinde puan toplayarak benzer sistemleri geride bıraktı. Testin değerlendirilmesi, insan uzmanların gözetiminde ve ayrıntılı doğrulama süreciyle gerçekleştirildi. OpenAI’ın paylaştığı detaylarda insan uzmanların modelin çözümlerini bağımsız biçimde kontrol ettiği ve çözüm kalitesini onayladığı belirtildi. Şirketin açıkladığı verilere göre bu sınav sonucuyla birlikte yapay zekânın yaratıcı düşünme kapasitesi yeni bir aşamaya taşınmış oldu.

Altın madalya sınırını aşan modelin, eğitiminde doğrudan matematiksel formülasyonlar veya sembolik hesaplama sistemleri kullanılmadığı bildirildi. Bunun yerine doğal dil girdileriyle güçlendirilmiş öğrenme teknikleri tercih edildi. Modelin başarısının yalnızca matematik hesaplamaları değil, aynı zamanda detaylı ve tutarlı ispat metinleri üretebilme yeteneğinden kaynaklandığı kaydedildi. OpenAI’ın bu performansı, özellikle yaratıcı matematiksel düşünce ve insan benzeri muhakeme gerektiren alanlarda büyük dil modellerinin gelecekte nasıl kullanılabileceğine dair yeni tartışmalar başlattı.

OpenAI araştırmacıları modelin daha fazla testten geçirileceğini ve ilerleyen dönemde teknik raporlar yayımlanacağını duyurdu. Şirket ayrıca bu seviyede performans gösteren sistemlerin mevcut ticari sürümlere entegre edilmesinin zaman alacağını belirtti. Bu nedenle önümüzdeki aylarda OpenAI’den gelecek yeni duyurular, matematik tabanlı görevlerde yapay zekâların hangi noktaya ulaşabileceğini daha net gösterecek.