Teknoloji

Teknoloji şirketlerinin yapay zekâ eğitiminde YouTube altyazılarını kullanması sorun yaratıyor

Teknoloji şirketlerinin yapay zekâ eğitiminde YouTube altyazılarını kullanması sorun yaratıyor
Haberleri Kaçırma! Teknoblog'u Google Arama'da tercihli kaynağın yap ve En Çok Okunan Haberler'de bizi daha sık gör.
Tercihli Kaynak Ekle

Apple, Anthropic, Nvidia ve Salesforce gibi büyük teknoloji firmaları, yapay zekâ (AI) sistemlerini eğitmek için YouTube’dan izin alınmadan çekilmiş büyük bir altyazı veri setini kullandı. Proof News ve Wired‘ın ortak araştırmasına göre, bu veri kümesi 170.000’den fazla YouTube videosundan alınan altyazılardan oluşuyor ve 48.000’den fazla kanalın içeriğini kapsıyor. Ancak, bu veri seti yalnızca videolardan alınan altyazılardan ibaret olup görsel içerik içermiyor.

MrBeast ve Marques Brownlee gibi popüler YouTuber’ların videoları, ABC News, BBC ve The New York Times gibi haber kaynaklarının yanı sıra The Verge ve Vox gibi birçok kaynağın videoları bu veri kümesinde yer alıyor. Marques Brownlee, X platformunda yaptığı bir paylaşımda Apple’ın çeşitli şirketlerden yapay zekâları için veri topladığını ve bu şirketlerden birinin YouTube videolarından büyük miktarda veri ve alt yazı topladığını belirtti.

YouTube, bu veri setiyle ilgili yorum yapmayı reddetti. Ancak YouTube CEO’su Neal Mohan, yapay zekâ eğitiminde video içeriği ve transkriptlerin kullanımının platformun kullanım şartlarını ihlal ettiğini söyledi. Google CEO’su Sundar Pichai de bu görüşü destekledi ve yapay zekâ geliştiren şirketlerin YouTube’un kullanım şartlarına uyması gerektiğini belirtti.

Bu altyazı veri seti, EleutherAI tarafından oluşturulan The Pile adlı daha büyük bir açık kaynak koleksiyonunun bir parçası. The Pile, kitaplar, Wikipedia makaleleri ve daha fazlasını içeren veri setlerinden oluşuyor. Geçen yıl, Books3 adlı bir veri seti analiz edildiğinde, yazarların eserlerinin yapay zekâ sistemlerini eğitmek için kullanıldığı ortaya çıkmış ve bu durum yazarların şirketlere karşı dava açmasına neden olmuştu.

Yapay zekâ şirketlerinin şeffaflık eksikliği

AI şirketleri, sistemlerini eğitmek için kullandıkları veriler konusunda genellikle şeffaf davranmıyorlar. Özellikle YouTube içeriğinin nasıl kullanıldığı, son aylarda önemli bir soru haline geldi. OpenAI’nin güçlü video üretim aracı Sora’yı tanıttığında, CTO Mira Murati, sistemin YouTube videoları kullanılarak eğitilip eğitilmediği konusunda soruları yanıtsız bıraktı ve yalnızca “kamuya açık veya lisanslı veriler” kullanıldığını belirtti.

Proof News, kullanıcıların içeriklerinin bu veri setinde yer alıp almadığını kontrol edebilecekleri interaktif bir arama aracı sundu. Bu araç, kullanıcıların veya favori YouTuber’larının içeriklerinin bu veri setinde bulunup bulunmadığını görmelerine olanak tanıyor.

⚡️⚡️ BU FIRSATLAR İLGİNİZİ ÇEKEBİLİR ⚡️⚡️

MSI 23.8\" PRO MP243X 1920x1080 (FHD) FLAT IPS 100HZ 1MS ADAPTIVE-SYNC MONITOR
MSI G2712F 27\" Ultra Rapıd 1ms 180Hz Adaptive-Sync IPS Full HD Gaming (Oyuncu) Monitör
Bilgisayarda Kaçmaz Fırsatlar
Seçili Dyson Süpürgelerinde Net İndirim
Seçili Dyson Ürünlerinde 3000 TL İndirim
Game Garaj Elite S67 Amd R5 7500F 32GB Ram 1tb SSD RTX5070 120MM Sıvı Soğt Freedos Oyuncu Oem Paket
Asus Prime Lc 360 Argb 360 mm Intel-Amd Uyumlu Sıvı Soğutucu
Hepsiburada Satıcılı Monitörlerde Sepette %5 Net İndirim
Samsung S26 Ailesi Ürünlerinden Alana Samsung Watch 8 5000 TL İndirimli!

Teknoblog'un satış ortaklıkları vardır. Bunlar, editoryal içeriği etkilemez, ancak Teknoblog, satış ortaklığı bağlantıları üzerinden satın alınan ürünler için komisyon kazanabilir.