Teknoloji

OpenAI’ın yeni o3 modeli testlerde beklenen performansı veremedi

OpenAI’ın yeni o3 modeli testlerde beklenen performansı veremedi

OpenAI tarafından geliştirilen o3 yapay zekâ modeli, aralık ayında büyük beklentilerle tanıtılmıştı. Tanıtım sırasında, modelin özellikle FrontierMath adlı zorlu matematik testlerinde çarpıcı bir başarı gösterdiği öne sürülmüştü. Bu verilere göre, o3 modeli testte yüzde 25’in üzerinde doğru yanıt vererek diğer tüm rakip modelleri geride bırakmış görünüyordu. Ancak kamuoyuyla paylaşılan bu skorlar, daha sonra yapılan bağımsız testlerle sorgulanır hale geldi.

FrontierMath veri setinin geliştiricisi konumundaki Epoch AI, kısa süre önce o3 modeli üzerinde kendi kıyaslamalarını yayınladı. Yapılan bağımsız ölçümlere göre o3 modelinin başarı oranı yalnızca yüzde 10 seviyelerinde kaldı. Bu sonuç, OpenAI’nin önceki açıklamalarıyla doğrudan çelişmese de beklentilerin oldukça altında bir tablo çizdi. Fakat asıl dikkat çeken nokta, kamuya sunulan o3 modelinin, testlerde kullanılan versiyondan teknik olarak farklı olması.

OpenAI farklı bir o3 sürümünü kullanıma sunmuş olabilir

Epoch AI, kendi test sürecinde OpenAI’nin kullandığı versiyondan farklı bir FrontierMath sürümünü esas aldığını belirtti. Buna göre, Epoch’un kıyaslamaları 290 matematik problemi içeren yeni bir sürümle yapılırken, OpenAI’nin verileri yalnızca 180 problem içeren önceki bir versiyona dayanıyordu. Bunun yanında, OpenAI’nin dahili testlerde çok daha güçlü işlem gücüyle desteklenmiş bir o3 sürümünü kullandığı tahmin ediliyor. Dolayısıyla test ortamlarının teknik özellikleri de sonuçlar üzerinde doğrudan etkili olabilir.

Tüm bunların yanında, ARC Prize Foundation tarafından yapılan açıklama da bu farkı doğrular nitelikte. Kuruluş, halka açık o3 modelinin aslında ürünleşmiş ve sohbet temelli kullanım için optimize edilmiş bir versiyon olduğunu ifade etti. Bu durum, kamuya sunulan o3 modelinin asıl test edilen versiyondan daha düşük kapasiteli olabileceğini gösteriyor. Nitekim, yüksek işlem gücüne sahip modellerin kıyaslamalarda daha yüksek skorlar elde etmesi zaten beklenen bir durum.

OpenAI ekibinden Wenda Zhou, geçtiğimiz günlerde katıldığı bir canlı yayında konuya açıklık getirmeye çalıştı. Zhou’nun açıklamasına göre, üretim aşamasındaki o3 modeli daha çok hız ve maliyet verimliliği gözetilerek optimize edilmiş durumda. Bu nedenle, kıyaslamalarda gösterilen yüksek skorların kamuya sunulan sürümde tekrarlanamaması olağan karşılanmalı. Yine de bu farkın, kamuoyunda kafa karışıklığına neden olduğu açık.

İşin dikkat çekici bir diğer yönü ise, OpenAI’nin o3 modelini tanıttığı dönemde bu farklılıkların açıkça belirtilmemiş olması. Tanıtım esnasında öne çıkan başarı oranı, sanki doğrudan piyasaya sürülecek modele aitmiş gibi lanse edilmişti. Bu durum, hem şeffaflık hem de kamuoyunu bilgilendirme açısından soru işaretleri doğurdu. Yapay zekâ alanında güvenilirliğin giderek daha kritik hale geldiği düşünüldüğünde, bu tür detayların net biçimde paylaşılması büyük önem taşıyor.

Her şeye rağmen, o3 modelinin kamuya açık sürümünün daha düşük skorlar elde etmesi OpenAI’nin genel başarısını gölgede bırakmıyor. Zira şirketin o3-mini-high ve o4-mini adını verdiği daha güncel modeller, FrontierMath testlerinde o3’e kıyasla daha yüksek başarı oranlarına ulaşmış durumda. Bununla birlikte, OpenAI’nin yakın zamanda daha güçlü bir sürüm olan o3-pro’yu da kullanıma sunması bekleniyor. Bu gelişmeler, o3 modelinin yalnızca geçici bir aşama olduğunu gösteriyor.

Yapay zekâ dünyasında benchmark testleri giderek daha fazla tartışma yaratmaya başladı. Çünkü kıyaslama sonuçlarının modelin gerçek dünya performansını ne ölçüde yansıttığı sıkça sorgulanıyor. Özellikle şirketlerin kendi ürünlerini değerlendirdiği testler, bağımsızlık ve tarafsızlık açısından ciddi soru işaretleri taşıyor. O3 örneği de bu tartışmayı yeniden gündeme taşımış oldu.

Geçmişte benzer durumlar başka şirketler için de yaşanmıştı. Örneğin; xAI, Grok 3 modeliyle ilgili yanıltıcı karşılaştırma tabloları yayınlamakla eleştirilmişti. Meta ise geliştiricilere sunduğu modelin benchmark testlerinde kullanılan versiyonla birebir örtüşmediğini kabul etmişti. Bu tür örnekler, kıyaslama sonuçlarının her zaman nihai kullanıcıya yansıyan kaliteyi temsil etmediğini açıkça gösteriyor.

Haberleri Kaçırma! Teknoblog'u Google Arama'da tercihli kaynağın yap ve En Çok Okunan Haberler'de bizi daha sık gör.
Tercihli Kaynak Ekle
📡 Teknoblog'u takip et Teknoloji gündemini kaçırmamak için 📰 Google Haberler'e ekle, 💬 WhatsApp kanalımıza katıl, ▶ YouTube'a abone ol, 📷 Instagram'da ve 𝕏 X'te bizi takip et.

Hepsiburada Satıcılı Seçili Asus ROG Laptoplarda Sepette %5 İndirim

ASUS ROG Strix G16 G615LP-S5115 Intel Core Ultra 9 275HX 32GB 1TB SSD RTX5070 Freedos 16\" WQXGA 240Hz Taşınabilir Bilgisayar
Asus ROG Strix SCAR 18 G835LX-SA154 Intel Core Ultra 9 275HX 64GB 4TB SSD RTX5090 Freedos 18\" WQXGA Taşınabilir Bilgisayar
Asus ROG Zephyrus G16 GU605CR-QR201 Intel Core Ultra 9 285H 32GB 2TB SSD RTX5070Ti Freedos 16\" WQXGA Taşınabilir Bilgisayar
ASUS ROG Strix G16 G614PH-RV036 AMD Ryzen 9 8940HX 16GB 1TB SSD RTX5050 Freedos 16\" WUXGA 165Hz Taşınabilir Bilgisayar
ASUS ROG Strix G16 G614PH-RV036 AMD Ryzen 9 8940HX 16GB 1TB SSD RTX5050 Freedos 16\" WUXGA 165Hz Taşınabilir Bilgisayar
Asus ROG Zephyrus G14 GA403GM-SY117 Intel Core Ultra 9 465 16 GB 1TB SSD RTX 5060 Freedos 14\" Taşınabilir Bilgisayar

Teknoblog'un satış ortaklıkları vardır. Bunlar, editoryal içeriği etkilemez, ancak Teknoblog, satış ortaklığı bağlantıları üzerinden satın alınan ürünler için komisyon kazanabilir.