ManşetlerTeknoloji

Lyria 3, Gemini içinde müzik üretimini başlatıyor

Google, Gemini platformuna Lyria 3 müzik modelini entegre etti. Sistem, metin ve görsellerden saniyeler içinde sözlü besteler oluşturuyor.
google gemini lyria 3

Google, üretken yapay zekâ alanındaki genişlemesini bu kez müzik üretimi tarafına taşıdı. Gemini, artık yalnızca metin ve görsel oluşturmuyor; yazılan komutları ve yüklenen fotoğrafları doğrudan şarkıya dönüştürüyor. Bu adımın merkezinde ise Google DeepMind imzası taşıyan Lyria 3 yer alıyor.

Google DeepMind, bugüne kadarki en gelişmiş müzik modeli olarak konumlandırdığı Lyria 3’ü küresel ölçekte erişime açtı. Böylece Gemini uygulaması, masaüstünde müzik üretim özelliğini aktif hâle getirdi. Mobil uygulama desteğinin ise önümüzdeki günlerde gelmesi planlanıyor. Kullanıcılar gemini.google.com üzerinden özelliği doğrudan deneyebiliyor.

Model, metin ve görsel girdileri birlikte işleyebilen çok modlu bir sistemle çalışıyor. Bu sayede yalnızca yazılan bir komut değil, yüklenen bir fotoğraf da müzik üretiminin parçası hâline geliyor. Örneğin bir orman yürüyüşü fotoğrafı yüklendiğinde sistem sahnenin atmosferini analiz ediyor ve buna uygun bir beste oluşturuyor.

Bununla birlikte Lyria 3, sıradan bir metni saniyeler içinde sözlü ve besteli bir parçaya dönüştürüyor. Bir alışveriş listesi, kısa bir mesaj ya da gündelik bir diyalog doğrudan rap formatında üretilebiliyor. “Cips, soda, çikolata, ekmek ve yoğurt” gibi basit bir liste, ritimli bir şarkı sözüne dönüşüyor.

Gemini, Lyria 3 ile metin ve görselden şarkı üretir

Lyria 3 üç temel özellikle öne çıkıyor. İlk olarak Otomatik Şarkı Sözü sistemi devreye giriyor ve verilen komuta uygun sözleri doğrudan oluşturuyor. Böylece kullanıcı ayrıca söz yazmak zorunda kalmıyor.

İkinci olarak model, BPM (tempo), müzik tarzı ve vokal detayları üzerinde kontrol sunuyor. Kullanıcı tempo değerini belirliyor, türü seçiyor ve vokal karakterini tarif ediyor. Ardından model bu parametrelere uygun bir kompozisyon üretiyor.

Üçüncü olarak sistem, görsel destekli üretimi aktif biçimde kullanıyor. Gemini, yüklenen fotoğrafın renk tonlarını, ortamını ve bağlamını analiz ediyor. Daha sonra bu analiz doğrultusunda müzikal atmosferi belirliyor. Böylece görsel ile ses arasında doğrudan bir ilişki kuruluyor.

Üretilen her 30 saniyelik parça için özel bir kapak görseli hazırlanıyor. Nano Banana altyapısı, bu kapak tasarımlarını otomatik oluşturuyor. Kullanıcılar parçayı ve görseli indiriyor ya da bağlantı üzerinden paylaşıyor.

Google, içerik doğrulama tarafını da sistemin içine entegre ediyor. Üretilen tüm ses dosyaları SynthID dijital filigranı ile işaretleniyor. İnsan kulağı bu damgayı algılamıyor; ancak sistem, dosyanın yapay zekâ üretimi olduğunu teknik olarak doğruluyor.

Bununla da sınırlı kalmıyor. Gemini, dışarıdan yüklenen bir ses dosyasını analiz ediyor ve Google AI tarafından üretilip üretilmediğini kontrol ediyor. Model, hem SynthID imzasını tarıyor hem de kendi analiz mekanizmasını devreye alıyor.

Lyria 3; İngilizce, Almanca, İspanyolca, Fransızca, Hintçe, Japonca, Korece ve Portekizce olmak üzere sekiz dilde sunuluyor. Özellik, 18 yaş ve üzeri kullanıcılara açık şekilde çalışıyor. Google AI Plus, Pro ve Ultra aboneleri daha yüksek kullanım limitlerine erişiyor.

Google, dil kapsamını ve üretim kalitesini genişletmeyi planlıyor. Böylece yapay zekâ müzik üretimi, metin ve görsel üretiminin yanında üçüncü bir içerik katmanı olarak Gemini içinde yerini alıyor.

Teknoblog, teknoloji gündemini farklı platformlarda düzenli biçimde paylaşıyor. WhatsApp kanalında öne çıkan haberleri anlık olarak aktarıyor, Google Haberler üzerinden güncel içerikleri sunuyor, Instagram ve X hesaplarında dikkat çeken başlıkları özetliyor, YouTube kanalında ise ürün incelemeleri ve detaylı anlatımlarla içeriği tamamlıyor.