Reddit, Perplexity ve üç şirketi veri kullanımı nedeniyle dava etti

Reddit, içeriklerinin izinsiz şekilde toplanarak ticari amaçlarla kullanıldığını belirterek dört farklı şirkete dava açtı. Bu şirketler arasında yapay zekâ temelli Perplexity ile birlikte SerApi, OxyLabs ve AWMProxy de yer alıyor. Reddit, söz konusu şirketlerin Google arama sonuçları üzerinden kendi içeriklerine erişip, bu verileri ticari ürünlerinde kullandığını ileri sürüyor. Bu kapsamda şirket, yalnızca tazminat talebinde bulunmakla kalmıyor, aynı zamanda geçmişte kazınmış tüm verilerin kullanımının da kalıcı şekilde yasaklanmasını istiyor.

2023 yılında Reddit, platformundaki verilere erişmek isteyen firmalara yönelik yeni bir lisanslama süreci başlattı. Bu yeni yapıyla birlikte şirket, kullanıcılar tarafından üretilen içeriklerin ticari amaçlarla kullanılabilmesi için platformdan resmî izin alınmasını şart koştu. Öte yandan, bazı şirketlerin bu sistemin dışına çıkarak veri toplama faaliyetlerini sürdürdüğü ifade ediliyor. Google ve OpenAI gibi büyük teknoloji şirketleriyle yapılan anlaşmalar, Reddit’in bu konuda net bir tavır aldığını gösteriyor. Buna rağmen, bazı firmaların bu lisanslı sistemi baypas ettiği açıkça dile getiriliyor.

Reddit, teknik bir test yöntemiyle izinsiz veri kullanımını belgelediğini öne sürüyor

Reddit’in dava dosyasında yer alan en dikkat çekici bölüm, Perplexity’ye yönelik ortaya konan teknik delillerle ilgili. Şirket, yalnızca Google tarafından dizinlenebilecek özel bir test gönderisi hazırladı ve bu içeriğin platform dışına çıkmaması sağlandı. Her ne kadar bu gönderi yalnızca Google üzerinden görülebilecek şekilde yapılandırılmış olsa da, birkaç saat içinde Perplexity’nin yanıt sisteminde bu içerik aynen görüntülendi. Bu durum, Reddit’e göre, ilgili verilerin doğrudan Google arama sonuçları kazınarak elde edildiğini açık şekilde ortaya koyuyor. Yani içeriklere erişim, kamuya açık bir kaynaktan değil, kısıtlı erişimle korunması hedeflenen bir noktadan sağlandı.

Reddit, yalnızca Perplexity’yi değil, diğer üç şirketi de benzer yöntemlerle veri kazımakla suçluyor. SerApi, OxyLabs ve AWMProxy gibi firmalar, arama motoru sonuçlarından veri toplayarak bunu üçüncü taraflara satmakla biliniyor. Bu şirketlerin, herhangi bir lisans süreci işletmeden ticari kazanç elde ettiğini savunan Reddit, bu durumu veri sömürüsü olarak tanımlıyor. Kullanıcıların emekleriyle oluşan içeriklerin, hiçbir geri dönüş olmadan satılmasını kabul edilemez buluyor. Buna ek olarak, bu veri toplama faaliyetlerinin sistematik bir hal aldığı ve yıllardır sürdüğü belirtiliyor.

Perplexity, konuyla ilgili yaptığı açıklamada, davanın henüz kendilerine ulaşmadığını söyledi. Şirket, kullanıcıların kamuya açık bilgilere özgürce ve adil biçimde erişme hakkını savunduklarını dile getirdi. Fakat Reddit, söz konusu verilerin yalnızca halka açık olmakla kalmadığını, aynı zamanda özel koşullarda sunulduğunu vurguluyor. Bu nedenle, erişimin serbest olması tek başına yeterli görülmüyor. Ayrıca içeriklerin bağlamından koparılması ve sistematik biçimde işlenmesi, bilgi güvenliği açısından da ciddi sorunlar doğuruyor.

Reddit, daha önce de Perplexity’ye bir ihtar göndererek veri kazıma faaliyetlerinin durdurulmasını istemişti. Ne var ki, şirket bu uyarıya rağmen Reddit içeriklerini sistemlerinde kullanmaya devam etti. Bunun üzerine Reddit, daha kesin deliller sunabilmek adına özel test içerikleri oluşturarak takibi kolaylaştırdı. Bu test gönderileri, yalnızca Google botları tarafından taranabilecek şekilde yapılandırıldı. Ancak, bu içeriklerin kısa süre içerisinde Perplexity’nin sonuçlarında belirmesi, ihlalin doğrudan kanıtlandığını gösterdi.

Reddit’in veri politikalarındaki sıkılaşma yalnızca dava süreçleriyle sınırlı kalmadı. 2024 yılında, tanımlanamayan botlara ve veri toplayıcılara karşı sistem genelinde hız sınırlamaları getirildi. Buna paralel olarak, 2025 yılının Ağustos ayında Internet Archive’ın popüler servisi olan Wayback Machine’e erişim kısıtlandı. Tüm bunların yanında Reddit, veri erişimiyle ilgili kuralları daha da netleştirmek adına Really Simple Licensing (RSL) protokolünü devreye aldı. Bu protokol sayesinde robots.txt dosyalarına lisans koşulları entegre edilerek, sitelerin hangi verilerinin kazınıp kazınamayacağı daha açık hale getirildi.

📡 Teknoblog'u takip et Teknoloji gündemini kaçırmamak için 📰 Google Haberler'e ekle, 💬 WhatsApp kanalımıza katıl, ▶ YouTube'a abone ol, 📷 Instagram'da ve 𝕏 X'te bizi takip et.

Teknoloji dünyasının gündemini Teknoblog'un bültenleriyle takip edin.