Teknoloji

OpenAI sesli yapay zekâ için API’de çıtayı yükseltti

OpenAI sesli yapay zekâ için API’de çıtayı yükseltti
Haberleri Kaçırma! Teknoblog'u Google Arama'da tercihli kaynağın yap ve En Çok Okunan Haberler'de bizi daha sık gör.
Tercihli Kaynak Ekle

OpenAI, Realtime API için GPT-Realtime-2GPT-Realtime-Translate ve GPT-Realtime-Whisper modellerini duyurdu. Şirket bu üç modelle geliştiricilere konuşan, canlı çeviri yapan ve sesi anında yazıya aktaran uygulamalar kurma fırsatı veriyor. Müşteri hizmetlerinden eğitime, canlı etkinliklerden içerik üretici platformlarına kadar geniş bir kullanım alanı ortaya çıkıyor.

Şirket, yeni modelleri gerçek zamanlı ses deneyimini daha işlevsel hâle getirmek için hazırladığını söylüyor. GPT-Realtime-2, sesli sohbet kuran uygulamalar için daha gerçekçi ve akıcı konuşma yetenekleri sunuyor. OpenAI, bu modelde GPT-5 sınıfı akıl yürütme yeteneklerine yer veriyor. Böylece model, basit komutların ötesine geçen daha karmaşık istekleri sesli konuşma içinde yönetebiliyor.

GPT-Realtime-2, OpenAI’ın önceki ses modeli GPT-Realtime-1.5 üzerine kurulan çizgiyi daha ileri taşıyor. Şirketin paylaştığı değerlendirmelere göre yeni model, Big Bench Audio testinde önceki modele göre yüzde 15,2 daha yüksek ses zekâsı puanı aldı. Audio MultiChallenge tarafında ise talimat takibi ve çok turlu konuşma yönetimi gibi başlıklarda yüzde 13,8 artış görüyoruz. Bu veriler, sesli ajanların yalnızca yanıt vermekle kalmayıp konuşma boyunca bağlamı daha iyi takip edeceğini gösteriyor.

OpenAI’ın ikinci yeniliği GPT-Realtime-Translate, canlı konuşma çevirisini geliştiricilerin eline veriyor. Model 70’ten fazla giriş dilini anlayabiliyor ve konuşmayı 13 çıkış diline aktarabiliyor. Şirket, bu modeli çağrı merkezleri, canlı dersler, konferanslar, görüntülü görüşmeler ve yayın ortamları için öne çıkarıyor. Model konuşmacının dilini otomatik algılıyor, geliştirici hedef dili seçiyor ve sistem çevrilmiş sesle birlikte metin dökümünü de üretiyor.

OpenAI geliştiricilere sesli sohbet, çeviri ve canlı yazıya döküm sunuyor

Üçüncü model GPT-Realtime-Whisper, canlı konuşmayı metne çevirme tarafına odaklanıyor. Model, ses akışı devam ederken konuşmayı parçalara ayırıyor ve metin çıktısını gecikmeyi düşük tutarak sunuyor. Bu özellik toplantı notları, canlı altyazılar, sınıf içi anlatımlar ve yayınlar için pratik bir kullanım alanı açıyor. Geliştiriciler gecikme ayarını değiştirerek daha erken ara metinler veya daha yüksek doğruluk arasında tercih yapabiliyor.

OpenAI, bu üç modeli Realtime API içinde kullanıma açıyor ve fiyatlandırmayı kullanım türüne göre ayırıyor. GPT-Realtime-2 token üzerinden ücretlendiriliyor; ses girişi 1 milyon token başına 32 dolar, önbelleğe alınmış ses girişi 1 milyon token başına 0,40 dolar, ses çıkışı ise 1 milyon token başına 64 dolar seviyesinde yer alıyor. GPT-Realtime-Translate dakika başına 0,034 dolarGPT-Realtime-Whisper ise dakika başına 0,017 dolar maliyetle çalışıyor. Bu ayrım, konuşan ajan, canlı çeviri ve transkripsiyon işlerinde maliyet hesabını daha anlaşılır hâle getiriyor.

Şirket, yeni ses modellerinin yalnızca konuşma ve çeviri tarafını büyütmediğini, güvenlik tarafında da ek önlemler getirdiğini belirtiyor. OpenAI, spam, dolandırıcılık ve çevrim içi kötüye kullanım risklerine karşı bazı tetikleyiciler kullandığını aktarıyor. Sistem, zararlı içerik yönergelerini ihlal eden konuşmaları algıladığında oturumu durdurabiliyor. Geliştiriciler, Agents SDK üzerinden kendi denetim katmanlarını da ekleyebiliyor.

Bu modeller özellikle müşteri hizmetleri ekipleri için daha hızlı çok dilli destek senaryoları hazırlama imkânı veriyor. Eğitim platformları canlı derslerde altyazı ve çeviri sunabilir, medya kuruluşları yayın akışlarına anlık metin çıkarma ekleyebilir. Etkinlik şirketleri konuşmaları farklı dillere aktarabilir, içerik üretici platformları canlı yayınlarda daha erişilebilir deneyimler hazırlayabilir. OpenAI’ın Realtime API hamlesi, sesli uygulama geliştiren ekiplerin tek API altında daha fazla iş akışı kurmasını sağlıyor.

⚡️⚡️ BU FIRSATLAR İLGİNİZİ ÇEKEBİLİR ⚡️⚡️

MSI 23.8\" PRO MP243X 1920x1080 (FHD) FLAT IPS 100HZ 1MS ADAPTIVE-SYNC MONITOR
MSI G2712F 27\" Ultra Rapıd 1ms 180Hz Adaptive-Sync IPS Full HD Gaming (Oyuncu) Monitör
Bilgisayarda Kaçmaz Fırsatlar
Seçili Dyson Süpürgelerinde Net İndirim
Seçili Dyson Ürünlerinde 3000 TL İndirim
Game Garaj Elite S67 Amd R5 7500F 32GB Ram 1tb SSD RTX5070 120MM Sıvı Soğt Freedos Oyuncu Oem Paket
Asus Prime Lc 360 Argb 360 mm Intel-Amd Uyumlu Sıvı Soğutucu
Hepsiburada Satıcılı Monitörlerde Sepette %5 Net İndirim
Samsung S26 Ailesi Ürünlerinden Alana Samsung Watch 8 5000 TL İndirimli!

Teknoblog'un satış ortaklıkları vardır. Bunlar, editoryal içeriği etkilemez, ancak Teknoblog, satış ortaklığı bağlantıları üzerinden satın alınan ürünler için komisyon kazanabilir.