Teknoloji

Apple’ın akıllı gözlükleri için geliştirilen yapay zekâ modeli ortaya çıktı

apple

Apple’ın yapay zekâ destekli yeni nesil cihazlarına dair söylentiler uzunca bir süredir teknoloji gündeminde kendine yer buluyor. Şirketin Meta’nın Ray-Ban akıllı gözlüklerine rakip olacak şekilde geliştirdiği ürünleri 2027’ye kadar piyasaya süreceği iddia ediliyor. Bu ürünler arasında kameraya sahip yeni Apple AirPods modelleri de bulunuyor. Tüm bu cihazların yapay zekâ destekli deneyimler sunacağı düşünülüyor.

Fakat bugünden, Apple’ın bu cihazlarda nasıl bir yapay zekâ mimarisi kullanacağına dair bazı teknik işaretler görülebiliyor. Şirketin makine öğrenimi araştırma ekibi, 2023 yılında MLX adlı bir framework tanıttı. Apple Silicon işlemciler için geliştirilen bu framework, doğrudan cihaz üzerinde model eğitme ve çalıştırma imkânı sunuyor. Geliştiricilere ise tanıdık bir ortam sağlıyor.

Apple FastVLM modelini cihaz üzerinde verimli çalışması için geliştirdi

Apple, MLX framework’ü temel alarak şimdi de FastVLM adlı görsel-dil modelini kamuoyuna sundu. Bu model, yüksek çözünürlüklü görüntüleri çok daha düşük işlem gücüyle işleyebiliyor. Apple’ın teknik analizine göre model; gecikme süresi, token sayısı ve model boyutu arasında verimli bir denge sağlıyor. Bu da özellikle mobil ve giyilebilir cihazlarda çalışması için büyük avantaj anlamına geliyor.

apple

FastVLM’nin merkezinde yer alan FastViTHD adlı encoder ise özel olarak yüksek çözünürlüklü görsellerde etkili performans gösterecek şekilde yapılandırılmış. Apple, bu encoder’ın benzer modellere kıyasla 3,2 kat daha hızlı olduğunu belirtiyor. Bunun yanında model boyutu da 3,6 kat daha küçük. Böylece yerel işlem gücüyle çalışan cihazlarda veri işleme çok daha hızlı ve az enerjiyle yapılabiliyor.

Apple’ın modelde tercih ettiği düşük token üretimi, özellikle modelin yanıt üretme aşamasında etkili oluyor. İlk token’ın kullanıcıya ulaşma süresi, Apple’ın verilerine göre 85 kat daha hızlı. Bu da kullanıcıdan gelen sorguya verilen ilk cevabın neredeyse anında başlatılabileceğini gösteriyor. Bu hız, giyilebilir cihazlar için akıcı bir deneyimin anahtarı olabilir.

FastVLM’nin en dikkat çeken yönlerinden biri, tüm işlem sürecini doğrudan cihaz üzerinde tamamlaması. Bu sayede hem internet bağlantısına olan ihtiyaç azalıyor hem de kullanıcı verileri cihaz dışına çıkmadan işlenmiş oluyor. Özellikle gizliliğin ön planda olduğu kullanımlar için bu büyük bir avantaj. Üstelik bu yapı, cihazın bulut tabanlı sistemlere olan bağımlılığını da ortadan kaldırıyor.

Modelin açık kaynak olarak GitHub üzerinden geliştiricilere sunulması, Apple’ın alışıldık kapalı yapısının dışında bir adım olarak görülüyor. Bununla birlikte arXiv üzerinde yayımlanan teknik rapor, modelin yapısını daha yakından anlamak isteyen araştırmacılar için değerli bilgiler içeriyor. Rapordaki detaylar karmaşık olsa da akademik topluluk için oldukça ilgi çekici. Geliştiriciler, bu sayede yeni kullanım alanları yaratma fırsatı bulabilir.

Apple, son dönemde Vision Pro gibi artırılmış gerçeklik odaklı ürünleriyle dikkat çekmişti. Fakat FastVLM gibi hafif ve verimli çalışan modeller, daha kompakt cihazlar için yol gösterici nitelikte. Gelecekte daha küçük boyutlu ancak daha yetenekli ürünlerle karşılaşmak mümkün olabilir. Bu da yapay zekâ deneyimini kullanıcıya daha erişilebilir kılar.

Her şeye rağmen bu modelin sadece teknik bir adım olmadığını belirtmek gerekiyor. FastVLM, giyilebilir cihazların yalnızca donanımsal değil, yazılımsal olarak da geliştiğini ortaya koyuyor. Görüntü analizi, dil anlama ve hızlı geri dönüş gibi unsurlar artık daha entegre çalışabiliyor. Bu da günlük hayatta akıllı gözlüklerin ne tür pratik çözümler sunabileceğini gözler önüne seriyor.