Selon ProofNews, de nombreuses grandes sociétés technologiques mondiales, notamment Apple, Nvidia et Salesforce, sont accusées d'utiliser illégalement les données de Youtube pour entraîner l'IA.
Plus précisément, le groupe de recherche à but non lucratif sur l'IA, EleutherAI, a collecté les sous-titres de centaines de milliers de vidéos Youtube pour créer un « énorme » ensemble de données appelé Pile. Cette action est considérée comme une violation grave des conditions d'utilisation de YouTube.
On sait que Pile contient des sous-titres de plus de 173 000 vidéos provenant de plus de 48 000 chaînes Youtube, y compris des vidéos supprimées. Cet ensemble de données est ensuite utilisé par de nombreuses grandes entreprises technologiques pour former des modèles d’IA, des chatbots aux moteurs de traitement du langage naturel.
Bien que certaines sociétés telles qu'Anthropic et Salesforce admettent utiliser Pile, elles affirment qu'il s'agit d'un ensemble de données « publiques » et nient toute allégation de violation du droit d'auteur. Cependant, ProofNews a déclaré que la liste des entreprises utilisant Pile pourrait être plus longue, car de nombreuses unités ne divulguent pas publiquement la source de leurs données de formation à l'IA.
Il convient de noter que Pile contient non seulement du contenu de chaînes Youtube classiques, mais également des vidéos de chaînes de crypto-monnaie célèbres telles que Coinbase, Cointelegraph et Bitcoin Magazine.
Cet incident soulève une fois de plus des inquiétudes quant aux problèmes de droits d’auteur sur les données dans le domaine de l’IA. Les experts juridiques estiment que les litiges liés à l’utilisation des données YouTube à des fins commerciales vont se multiplier, notamment dans le contexte de la course au développement de l’IA.
ProofNews a déclaré qu'OpenAI et Google avaient également collecté du texte YouTube dans le passé. Alors que Google, la société propriétaire de YouTube, a affirmé que ses actions s'inscrivaient dans le cadre de son accord avec les utilisateurs, OpenAI n'a ni confirmé ni démenti le rapport ci-dessus.
À ce jour, le cabinet d'avocats Baker Hoestler recense au moins quinze procès liés à des entreprises technologiques telles que : Anthropic, Meta, GitHub, Stability AI, Nvidia et Google. En particulier, OpenAI fait face à d'importantes poursuites judiciaires de la part de la société mère de Mother Jones et du New York Times. D’une manière générale, la situation juridique concernant le droit d’auteur sur les données dans le domaine de l’IA devient de plus en plus tendue en raison d’évolutions complexes et imprévisibles.
Suivez 24h News pour ne manquer aucun des derniers développements de la blockchain au Forum de vulgarisation de la blockchain.