Milyonlarca YouTube videosu yapay zekayı eğitmek için kullanılıyor

Teyit Hattı / 11.11.2025
İstanbul

Yapay zeka teknolojilerinin gelişimi, dijital içeriklerin izinsiz kullanımına dair yeni soruları gündeme taşıdı. Özellikle video platformlarındaki içeriklerin, yapay zeka modellerinin eğitiminde ne ölçüde ve hangi izinlerle kullanıldığı tartışma konusu haline geldi. ABD merkezli The Atlantic derginde yayımlanan bir araştırmada, büyük teknoloji şirketlerinin yapay zeka eğitimi için milyonlarca YouTube videosunu izinsiz kullandığını ortaya koyuldu.

Araştırmada, büyük teknoloji şirketlerinin izin almadan yapay zeka modellerini eğitmek amacıyla 2 milyondan fazla YouTube kanalına ait toplam 15,8 milyon videoyu indirdiği tespit edildi. Bu videoların bir bölümünün araştırma amaçlı, bir kısmının ise yapay zeka destekli video üretim araçlarının geliştirilmesi için kullanıldığı belirtildi. Yaklaşık 1 milyon videonun "nasıl yapılır" (how-to) türü içeriklerden oluştuğu ifade edildi.

Söz konusu videolar, teknoloji şirketleri (Microsoft, Meta, Amazon, Nvidia, Runway, vb.), üniversiteler ve araştırma kuruluşlarındaki yapay zeka geliştiricileri tarafından paylaşılan en az 13 farklı veri setinde yer alıyor. Bu veri setlerine, çevrimiçi yapay zeka geliştirme platformu "Hugging Face" vb. üzerinden erişilebiliyor.

YouTube en büyük kaynak haline geldi

Araştırmada, yapay zeka ile video üretebilen sistemlerin geliştirilmesi için çok büyük miktarda video verisine ihtiyaç duyulduğu vurgulanıyor. Bu noktada YouTube'un, geliştiriciler için en büyük ve en kolay erişilebilir kaynaklardan biri haline geldiğinin altı çiziliyor. YouTube'dan toplu indirilip depolanan videolar, yapay zeka algoritmalarını beslemek için veri setlerine dönüştürülüyor. Ancak, bu tür indirmeler YouTube'un hizmet şartlarını açıkça ihlal ediyor. 

Bu veri setlerindeki videolar, yapay zeka destekli video üretim araçlarının ham materyalini oluşturuyor. Veri setlerinde yer alan videoların önemli bir bölümü haber ve eğitim kanallarına ait. Örneğin BBC'nin farklı markalarına ait en az 33 bin, TED'in ise yaklaşık 50 bin videosu bu veri setlerinde bulunuyor. Bunun yanı sıra, yüz binlerce video hatta daha fazlası bağımsız içerik üreticilerine ait.

Videolar seçilirken farklı yöntemler izleniyor

Yapay zeka geliştiricileri, modellerini eğitmek için videoları seçerken farklı yöntemler izliyor. Bazı veri setlerinde YouTube'da en çok izlenen videolar tercih edilirken, diğerlerinde estetik açıdan daha kaliteli içerikleri belirlemek için yapay zeka destekli seçim sistemleri kullanılıyor.

Veri setlerini hazırlayan ekipler, genellikle altyazı, logo veya yazı bindirmesi içeren videolardan uzak durmayı tercih ediyor. Bunun nedeni, bu tür işaretlerin eğitim sürecinde modele yansıyarak üretilen videolarda da görünme riskini ortadan kaldırmak istemeleri.

Google ve Meta, kendi platformlarındaki milyonlarca videoyu kullanarak yapay zeka araçlarını eğitiyor. Google, yalnızca YouTube'dan en az 70 milyon, Meta ise Instagram'dan 65 milyondan fazla video aldı.

Atlantic'in sitesinde ayrıca, kullanıcıların yapay zeka eğitiminde hangi kaynakların verilerinin kullanıldığını inceleyebileceği bir arama portalı da yayımladı. Bu portal sayesinde, içerik üreticileri ve araştırmacılar hangi kanalların ve videoların veri setlerine dahil edildiğini doğrudan görebiliyor.