OpenAI, Realtime API için GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper modellerini duyurdu. Şirket bu üç modelle geliştiricilere konuşan, canlı çeviri yapan ve sesi anında yazıya aktaran uygulamalar kurma fırsatı veriyor. Müşteri hizmetlerinden eğitime, canlı etkinliklerden içerik üretici platformlarına kadar geniş bir kullanım alanı ortaya çıkıyor.
Şirket, yeni modelleri gerçek zamanlı ses deneyimini daha işlevsel hâle getirmek için hazırladığını söylüyor. GPT-Realtime-2, sesli sohbet kuran uygulamalar için daha gerçekçi ve akıcı konuşma yetenekleri sunuyor. OpenAI, bu modelde GPT-5 sınıfı akıl yürütme yeteneklerine yer veriyor. Böylece model, basit komutların ötesine geçen daha karmaşık istekleri sesli konuşma içinde yönetebiliyor.
GPT-Realtime-2, OpenAI’ın önceki ses modeli GPT-Realtime-1.5 üzerine kurulan çizgiyi daha ileri taşıyor. Şirketin paylaştığı değerlendirmelere göre yeni model, Big Bench Audio testinde önceki modele göre yüzde 15,2 daha yüksek ses zekâsı puanı aldı. Audio MultiChallenge tarafında ise talimat takibi ve çok turlu konuşma yönetimi gibi başlıklarda yüzde 13,8 artış görüyoruz. Bu veriler, sesli ajanların yalnızca yanıt vermekle kalmayıp konuşma boyunca bağlamı daha iyi takip edeceğini gösteriyor.
OpenAI’ın ikinci yeniliği GPT-Realtime-Translate, canlı konuşma çevirisini geliştiricilerin eline veriyor. Model 70’ten fazla giriş dilini anlayabiliyor ve konuşmayı 13 çıkış diline aktarabiliyor. Şirket, bu modeli çağrı merkezleri, canlı dersler, konferanslar, görüntülü görüşmeler ve yayın ortamları için öne çıkarıyor. Model konuşmacının dilini otomatik algılıyor, geliştirici hedef dili seçiyor ve sistem çevrilmiş sesle birlikte metin dökümünü de üretiyor.
OpenAI geliştiricilere sesli sohbet, çeviri ve canlı yazıya döküm sunuyor
Üçüncü model GPT-Realtime-Whisper, canlı konuşmayı metne çevirme tarafına odaklanıyor. Model, ses akışı devam ederken konuşmayı parçalara ayırıyor ve metin çıktısını gecikmeyi düşük tutarak sunuyor. Bu özellik toplantı notları, canlı altyazılar, sınıf içi anlatımlar ve yayınlar için pratik bir kullanım alanı açıyor. Geliştiriciler gecikme ayarını değiştirerek daha erken ara metinler veya daha yüksek doğruluk arasında tercih yapabiliyor.
OpenAI, bu üç modeli Realtime API içinde kullanıma açıyor ve fiyatlandırmayı kullanım türüne göre ayırıyor. GPT-Realtime-2 token üzerinden ücretlendiriliyor; ses girişi 1 milyon token başına 32 dolar, önbelleğe alınmış ses girişi 1 milyon token başına 0,40 dolar, ses çıkışı ise 1 milyon token başına 64 dolar seviyesinde yer alıyor. GPT-Realtime-Translate dakika başına 0,034 dolar, GPT-Realtime-Whisper ise dakika başına 0,017 dolar maliyetle çalışıyor. Bu ayrım, konuşan ajan, canlı çeviri ve transkripsiyon işlerinde maliyet hesabını daha anlaşılır hâle getiriyor.
Şirket, yeni ses modellerinin yalnızca konuşma ve çeviri tarafını büyütmediğini, güvenlik tarafında da ek önlemler getirdiğini belirtiyor. OpenAI, spam, dolandırıcılık ve çevrim içi kötüye kullanım risklerine karşı bazı tetikleyiciler kullandığını aktarıyor. Sistem, zararlı içerik yönergelerini ihlal eden konuşmaları algıladığında oturumu durdurabiliyor. Geliştiriciler, Agents SDK üzerinden kendi denetim katmanlarını da ekleyebiliyor.
Bu modeller özellikle müşteri hizmetleri ekipleri için daha hızlı çok dilli destek senaryoları hazırlama imkânı veriyor. Eğitim platformları canlı derslerde altyazı ve çeviri sunabilir, medya kuruluşları yayın akışlarına anlık metin çıkarma ekleyebilir. Etkinlik şirketleri konuşmaları farklı dillere aktarabilir, içerik üretici platformları canlı yayınlarda daha erişilebilir deneyimler hazırlayabilir. OpenAI’ın Realtime API hamlesi, sesli uygulama geliştiren ekiplerin tek API altında daha fazla iş akışı kurmasını sağlıyor.








