Nvidia aurait téléchargé une quantité gigantesque de vidéos sur YouTube, Netflix et d’autres services de streaming pour alimenter et entraîner ses propres produits IA.
Nvidia a utilisé les données pour entraîner ses propres modèles IA
Cette information a été dévoilée par une publication sur le site Web du média en ligne « 404 Media », qui a pu mettre la main sur des documents internes à l’entreprise.
D’après le rapport, les employés ont reçu des instructions spécifiques pour les inciter à télécharger une quantité gigantesque de vidéos sur Netflix, YouTube et d’autres services de streaming.
Le rapport indique que Nvidia a utilisé les vidéos téléchargées pour entraîner ses propres modèles IA. Les bases de données ont été utilisées pour alimenter des services tels que le générateur de monde 3D Omniverse de l’entreprise et d’autres projets plus innovants comme le projet IA GR00T qui vise à développer un modèle de base à usage général (« un framework ») pour la conception d’un humanoïde.
Selon le rapport, les employés qui ont soulevé des questions éthiques et juridiques ont été informés que cette pratique avait été approuvée par les « plus hauts niveaux de l’entreprise ».
L’extraction de vidéos ne s’est pas limitée à YouTube et à Netflix. Nvidia aurait téléchargé des vidéos à partir de services tels que MovieNet, de bibliothèques de séquences de jeux vidéo et de l’ensemble de données vidéo WebVid de GitHub.
So Nvidia downloaded 38.5 million videos from YouTube & Netflix to train their AI models.
Nvidia reportedly downloaded content using virtual machines with rotating IP addresses to avoid bans & detection from YouTube.
Meanwhile, YouTube CEO @nealmohan has said that using YouTube… https://t.co/FpKxcD3VjF
— Brandon Butch (@BrandonButch) August 6, 2024
Selon le rapport, certaines des vidéos utilisées par Nvidia provenaient d’une vaste bibliothèque de vidéos YouTube destinées uniquement à des fins académiques.Nvidia aurait affirmé que ces vidéos, qui faisaient partie de la bibliothèque universitaire, pouvaient être utilisées à des fins commerciales dans le domaine de l’intelligence artificielle.
HD-VG-130M, une bibliothèque de 130 millions de vidéos YouTube, comprend une licence d’utilisation spécifiant qu’elle est uniquement destinée à la recherche universitaire. Pour éviter d’être détecté par YouTube, Nvidia aurait téléchargé le contenu en utilisant des machines virtuelles (VM) avec des adresses IP rotatives pour contourner le programme de blocage mis en place par YouTube.