Nvidia soll zahlreiche Videos von YouTube, Netflix und anderen Diensten heruntergeladen haben, um Daten für seine KI-Produkte zu trainieren.
Diese Informationen stammen aus einem Bericht von 404 Media, einem Medienunternehmen, das in der Lage war, Dokumente und Chats zu erhalten, die Anweisungen an Mitarbeiter enthielten, Videos von Netflix, YouTube und anderen Quellen zu scrapen.
Dem Bericht zufolge nutzte Nvidia die heruntergeladenen Videos, um KI-Modelle für Dienste wie den 3D-Weltengenerator Omniverse des Unternehmens und “digitale Menschen” wie das verkörperte KI-Projekt GR00T zu trainieren.
Dem Bericht zufolge wurde Mitarbeitern, die ethische und rechtliche Bedenken äußerten, mitgeteilt, dass diese Praxis von den “höchsten Ebenen des Unternehmens” gebilligt worden sei.
Das Scraping von Videos war zudem nicht auf YouTube und Netflix beschränkt. Nvidia soll auch Videos von Diensten wie MovieNet, Videospielbibliotheken und dem GitHub Videoarchiv WebVid heruntergeladen haben.
So Nvidia downloaded 38.5 million videos from YouTube & Netflix to train their AI models.
Nvidia reportedly downloaded content using virtual machines with rotating IP addresses to avoid bans & detection from YouTube.
Meanwhile, YouTube CEO @nealmohan has said that using YouTube… https://t.co/FpKxcD3VjF
— Brandon Butch (@BrandonButch) August 6, 2024
Berichten zufolge stammen einige der von Nvidia verwendeten Videos aus einer großen Bibliothek von YouTube-Videos, die ausschließlich für akademische Zwecke bestimmt waren. Nvidia behauptet angeblich, dass die Videos, die Teil der akademischen Bibliothek waren, für kommerzielle KI-Dienste freigegeben seien. HD-VG-130M, eine Bibliothek mit 130 Millionen YouTube-Videos, enthält eine Nutzungslizenz, die besagt, dass sie nur für die akademische Forschung bestimmt ist. Um zu verhindern, dass YouTube die Inhalte entdeckt, soll Nvidia die Inhalte über Virtual Machines (VMs) mit rotierenden IP-Adressen heruntergeladen haben, um die Verbote zu umgehen.