Le New York Times expose la méthodologie utilisée par OpenAI pour rassembler des millions d'heures de transcriptions de vidéos YouTube afin de générer les vastes données requises par leur puissant modèle d'IA GPT-4. S’il semble que ces entreprises suivent le même chemin, formant une file d’attente menée par les géants Google et Meta, la voie s’accélère à mesure que les technologies d’IA se modernisent. Tout cela nous amène à la question de la « fracture numérique » et de son impact sur la capacité des individus à participer à l’économie, en particulier sur des questions telles que le droit d’auteur et l’éthique des données.

Les tactiques audacieuses d’acquisition de données d’OpenAI

OpenAI a repéré et analysé ce contenu YouTube. Cette stratégie, malgré le caractère innovant de l'utilisation à jupe libre, touche aux principes d'une utilisation équitable, qui est la condition préalable de possibilité pour cette entreprise. L’enregistrement de vidéos YouTube, l’une des étapes appartenant à Google pour le processus d’apprentissage de l’IA, met en lumière les préoccupations concernant la violation du droit d’auteur et les problèmes éthiques liés à l’utilisation des données sans le consentement de l’auteur.

Assez drôle, après que Google ait été critiqué en tant que société propriétaire de YouTube pour la même chose, ils se seraient livrés à de telles pratiques pour leurs modèles d'IA. Ce processus de surveillance partagé est clairement une partie intéressante du rapport, qui révèle en outre la confusion des frontières éthiques et juridiques des entreprises technologiques dans leurs efforts d’intelligence artificielle. D’un autre côté, Google a mentionné qu’il pouvait obtenir l’autorisation du créateur pour utiliser des vidéos avant de former un système d’IA sur ces données, ce qui finirait par devenir un point de discorde dans le récit.

La révision de la politique de confidentialité

L'un des principaux événements a été Google, une mesure d'entreprise visant à modifier sa politique de confidentialité d'ici fin juin 2023. La stratégie visait ainsi à approfondir les capacités de l'entreprise à capitaliser sur des sources de données accessibles au public, allant des documents Google à Google Maps. critiques, pour renforcer l’innovation basée sur l’IA. Cela indique un phénomène plus large du secteur technologique dans lequel ces grandes entreprises technologiques incarnent un leadership dans les domaines de l'innovation et de la confidentialité des utilisateurs, alors qu'elles luttent pour trouver le juste équilibre entre les deux.

C’est désormais avec ces géants de la technologie que la révélation par OpenAI et Google de leurs pratiques de collecte de données sans consentement explicite soulève des questions sur l’évolution de l’IA et l’utilisation éthique des données. Neil Mohan, PDG de YouTube, a été cité par Bloomberg à ce sujet, et il a déclaré que la plateforme n'autorisait pas le téléchargement de ces sources non autorisées.

Implications industrielles et juridiques

La question de la moralité et de la légalité de ces efforts de grattage de données se pose alors en raison de l’ambiguïté. Un autre domaine à améliorer réside dans les problèmes de plagiat, car ces approches peuvent être créatives mais aussi déclencher des problèmes de droits d'auteur. Les problèmes de confidentialité sont également une préoccupation dans cette industrie. Cependant, la portée de ces bugs ne se limite pas aux problèmes juridiques et éthiques, mais va bien au-delà. De cette abondance, ils attirent l’attention sur une course technologique plus importante (technologie IA), qui vise à utiliser les données pour accélérer les progrès de l’IA.

Alors que les pionniers de la technologie de l’IA comme OpenAI et Google tendent à élargir la portée du prochain paradigme de l’IA, le débat sur les quantités de données pouvant être utilisées, les considérations en matière de protection des droits d’auteur et les énormes implications sociétales des applications d’IA s’élargit. Mélanger innovation et éthique conduit à une situation plus complexe, nécessitant le développement de principes de régulation et de politiques claires.

Le fonctionnement d’OpenAI et de Google en prenant des vidéos YouTube à des fins de formation soulève la question multidimensionnelle de la nature subjective qui comprend des dimensions juridiques, éthiques et technologiques. Par conséquent, le secteur technologique est constamment confronté à des défis tels que l’innovation, la confidentialité et l’éthique, sans lesquels une croissance continue ne peut être assurée. La discussion sur ces questions se poursuivra. Néanmoins, elle s’étendra également à toutes les parties prenantes de la société, des spécialistes du droit aux développeurs d’IA eux-mêmes, pour éventuellement proposer une solution.

Histoire originale de https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/