ManşetlerTeknoloji

xAI, Imagine v0.9 ile yapay zeka destekli video üretiminde yeni bir aşama başlattı

grok imagine

xAI, salı günü Imagine v0.9 sürümünü duyurdu. Bu model metinden videoya ve görüntüden videoya dönüşüm sürecini 15 saniyenin altına indiriyor ve ses üretiminde karakter konuşmaları desteğini sunuyor. Bu yükseltmeyle birlikte görsel kalite, hareket akıcılığı ve çok modlu üretim yetenekleri ciddi biçimde geliştiriliyor.

İlk sürümlerde yalnızca sessiz veya görsel videolar üretebilen sistem, yeni sürümde karakterlere ses verebilen “speech mode” benzeri işlevlerle zenginleştirildi. xAI’nin paylaşımına göre bu sürüm, v0.1’e kıyasla görsel detay, ışıklandırma, gölge geçişleri ve hareket tutarlılığı açısından büyük ilerleme barındırıyor.

Ayrıca Elon Musk, xAI’nin Grok Imagine platformunda video üretimini saniyeler düzeyine çektiğini belirterek 15 saniyeden uzun videolar oluşturmanın artık bekleme gerektirmeyeceğini ilan etti. Bu durum, özellikle içerik üreticileri, reklam sektörü ve sosyal medya yöneticileri için zaman maliyetini önemli oranda azaltma potansiyeli içeriyor.

Grok Imagine v0.9, metin, görüntü ve ses girdilerini algılayarak üretim yapabilen bir model hâline geldi. Hızlı dönüşüm yanında sesli karakter üretimi, “fun” ve “custom” modları ve görsel stil kontrolü gibi özellikler de modele eklendi. Bu yönüyle OpenAI’ın Sora 2 modeline karşı daha geniş işlevsel kapasiteyle konumlanıyor.

Imagine v0.9 video üretimini yeni bir seviyeye taşıyacak

Kullanıcı deneyimlerine bakıldığında, modelin kısa süreli üretim performansı övgü alıyor. Denemelerde “Grok 4 Fast” moduna geçerek verilen betiklerden birkaç saniyede yüksek çözünürlüklü video çıktıları alındığı görülüyor. Ancak bazı yüz ve el detaylarında tutarsızlıklar gözlemlendiği bildiriliyor. Biz de yaptığımız denemelerde, en yeni modelin video üretiminde gayet başarılı olduğunu gözlemledik.

Modelin “spicy mode” adı verilen, içerik sınırlarını zorlayabilecek üretim imkânı içeren modu da tartışma konusu oldu. Bazı testler bu modla ünlü kişilerin ses taklitleri ve hassas içerikler üretilebildiğini gösteriyor. Bu durum, içerik doğrulama, telif hakkı ve etik sınırlarla ilgili daha sıkı kontrolleri gündeme taşıyor.

Şirketin ileriki planları arasında Grok Imagine v1.0 sürümünü daha uzun videolar ve gelişmiş görsel-işitsel bütünlük sağlayacak altyapılarla sunmak yer alıyor. Ayrıca Colossus adlı süperbilgisayar altyapısıyla model eğitimlerini 110 bin GB200 GPU üzerinde gerçekleştireceklerini açıkladılar.

Bu gelişme, yapay zeka destekli video üretiminde rekabetin hızla keskinleştiğini gösteriyor. Imagine v0.9, hız, çok modluluk ve ses entegrasyonu ile sektörde etkili bir örnek haline geldi. Ancak hem teknik sınırlar hem de etik düzenleme ihtiyacı yakından izlenecek başlıklar arasında yer alacak.