L’émergence de ChatGPT et l’adoption explosive de Midjourney ont permis à l’IA de réaliser sa première application à grande échelle, c’est-à-dire la vulgarisation de grands modèles.

Le soi-disant grand modèle fait référence à un modèle d'apprentissage automatique avec un grand nombre de paramètres et une structure complexe, qui peut traiter des données massives et accomplir diverses tâches complexes.

1. Litiges relatifs aux droits d'auteur sur les données IA

Si l’on compare les grands modèles d’IA actuels aux voitures, les données brutes sont celles du pétrole brut. Dans tous les cas, tout d'abord, le modèle d'IA a besoin de suffisamment de « pétrole brut ».

Les principales sources de « pétrole brut » pour les entreprises d’IA comprennent les catégories suivantes :

  • Sources de données publiques et gratuites sur Internet, telles que Wikipédia, blogs, forums, informations d'actualité, etc. ;

  • Médias d’information et maisons d’édition établis ;

  • Universités et autres instituts de recherche ;

  • Consommateur côté C du modèle.

La propriété du pétrole dans le monde réel est déjà soumise à des réglementations juridiques matures. Cependant, dans l'industrie chaotique de l'IA, les droits d'exploitation du « pétrole brut » sont encore flous et les différends qui en résultent sont nombreux.

Tout récemment, plusieurs grands labels de musique ont poursuivi les sociétés de production musicale AI Suno et Udio, les accusant de violation du droit d'auteur. Le procès est similaire à celui intenté par le New York Times contre OpenAI en décembre.

Source : Panneau d'affichage

En juillet 2023, un groupe d'écrivains a intenté une action en justice contre la société, alléguant que ChatGPT générait des extraits d'œuvres d'auteurs basés sur du contenu protégé par le droit d'auteur.

En décembre de la même année, le New York Times a également intenté une action en justice similaire pour violation du droit d’auteur contre Microsoft et OpenAI, accusant les deux sociétés d’utiliser le contenu du journal pour former des chatbots à intelligence artificielle.

En outre, un recours collectif a été déposé en Californie, accusant OpenAI d'avoir obtenu les informations privées des utilisateurs sur Internet pour entraîner ChatGPT sans le consentement de l'utilisateur.

OpenAI n'a finalement pas payé pour l'accusation. Ils ont déclaré qu'ils n'étaient pas d'accord avec l'accusation du New York Times et qu'ils ne pouvaient pas reproduire les problèmes évoqués par le New York Times. Plus important encore, la soi-disant source de données fournie par le New York Times. Le York Times a déclaré que cela n'a pas d'importance pour OpenAI.

Source de l'image : OpenAI https://openai.com/index/openai-and-journalism/

Pour OpenAI, la plus grande leçon de cet incident est peut-être de gérer correctement les relations avec les fournisseurs de données et de clarifier les droits et responsabilités des deux parties. En conséquence, nous avons vu OpenAI conclure des partenariats avec de nombreux fournisseurs de données au cours de l'année écoulée, notamment, mais sans s'y limiter, The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project. et plus encore.

À l'avenir, OpenAI utilisera légitimement les données de ces médias, et ces médias intégreront également la technologie OpenAI dans leurs produits.

2. L’IA favorise la monétisation des plateformes de contenu

Cependant, la raison la plus fondamentale pour laquelle OpenAI conclut des partenariats avec des fournisseurs de données n’est pas la peur d’être poursuivi en justice, mais l’épuisement imminent des données auquel est confronté l’apprentissage automatique. Une étude menée par des chercheurs tels que le MIT estime que les ensembles de données d'apprentissage automatique pourraient épuiser toutes les « données linguistiques de haute qualité » d'ici 2026.

Les « données de haute qualité » sont donc devenues une denrée prisée pour les modélistes comme OpenAI et Google. Les sociétés de contenu et les fabricants de modèles d’IA ont conclu à plusieurs reprises une coopération pour lancer un modèle à profit fixe.

La plate-forme médiatique traditionnelle Shutterstock a successivement conclu une coopération avec des sociétés d'IA telles que Meta, Alphabet, Amazon, Apple, OpenAI, Reka, etc., et augmentera son chiffre d'affaires annuel à 104 millions de dollars grâce à des licences de contenu pour les modèles d'IA en 2023, et est devrait générer 250 millions de dollars de revenus en 2027 ; Reddit Les revenus des droits d'auteur sur les contenus sous licence de Google s'élèvent à 60 millions de dollars par an ; Apple cherche également à coopérer avec les médias d'information grand public et à offrir des redevances d'au moins 50 millions de dollars par an ; année. Les redevances que les sociétés de contenu reçoivent des sociétés d’IA augmentent à un rythme annuel de 450 %.

Source de l'image : CX Scoop

Au cours des dernières années, il a été difficile de monétiser du contenu autre que le streaming multimédia, ce qui a constitué un problème majeur dans l'industrie du contenu. Par rapport à l’ère de l’entrepreneuriat sur Internet, l’émergence de l’IA a apporté une plus grande imagination et des attentes de revenus plus élevées à l’industrie du contenu.

3. Les données de qualité sont encore rares

Bien entendu, tous les contenus ne répondent pas aux besoins de l’IA.

Un autre point positif du débat susmentionné entre OpenAI et le New York Times est la qualité des données. Pour raffiner le pétrole à partir du pétrole brut, premièrement, le pétrole lui-même doit être de bonne qualité, et deuxièmement, la technologie de purification doit être bonne.

OpenAI souligne spécifiquement que le contenu du New York Times n'a apporté aucune contribution significative à la formation du modèle d'OpenAI. Par rapport à Shutterstock, qui permet à OpenAI de dépenser des dizaines de millions de dollars chaque année, des médias texte comme le New York Times en dépendent. la rapidité n'est pas le chouchou de l'ère de l'IA. L’IA nécessite des données approfondies et uniques.

Les données de haute qualité sont trop rares, et les sociétés d'IA ont également commencé à travailler sur une « technologie de purification » et une « application unique ».

Le 25 juin, OpenAI a acquis la société de bases de données d'analyse en temps réel Rockset. Cette société fournit principalement des fonctions d'indexation et de requête de données en temps réel. OpenAI intégrera la technologie de Rockset dans ses produits pour améliorer la valeur d'usage des données en temps réel.

Source de l'image : Analyse DePIN

Avec l’acquisition de Rockset, OpenAI prévoit de mieux exploiter l’IA et d’accéder aux données immédiates. Cela permet aux produits OpenAI de prendre en charge des applications plus complexes, telles que des systèmes de recommandation en temps réel, des chatbots dynamiques basés sur les données, des systèmes de surveillance et d'alarme en temps réel, etc.

Rocket est le « département pétrochimique » intégré d’OpenAI qui convertit directement les données ordinaires en données de haute qualité requises par les applications.

4. La confirmation des droits sur les données des créateurs est-elle un fantasme ?

Les données des plateformes médiatiques en ligne (Facebook, Reddit, etc.) proviennent en grande partie de l’UGC, c’est-à-dire du contenu fourni par les utilisateurs. Alors que de nombreuses plateformes facturent des frais de données élevés aux entreprises d'IA, elles ajoutent également discrètement une clause dans les conditions d'utilisation selon laquelle « la plateforme a le droit d'utiliser les données des utilisateurs pour former des modèles d'IA ».

Bien que les conditions d'utilisation indiquent clairement les droits de formation des modèles d'IA, de nombreux auteurs ne savent pas quels modèles utilisent le contenu qu'ils produisent, ni s'ils paient pour cela, ni ne peuvent obtenir les droits et intérêts pertinents qui devraient appartenir à pour eux.

Lors de l’appel aux résultats trimestriels de Meta en février, Mark Zuckerberg a clairement indiqué qu’il utiliserait des images de Facebook et d’Instagram pour entraîner ses outils de génération d’IA.

Selon certaines informations, Tumblr aurait également mystérieusement conclu des accords de licence de contenu avec OpenAI et Midjourney, mais le contenu spécifique de ces accords spécifiques n'a pas été divulgué.

Les créateurs de la plateforme de galerie de photos EyeEm ont également récemment reçu une notification indiquant que les photos qu'ils avaient publiées seraient utilisées pour la formation de modèles d'IA. L'avis mentionne que les utilisateurs peuvent choisir de ne pas utiliser le produit, mais ne mentionne aucune politique de compensation. Freepik, la société mère d'EyeEm, a déclaré à Reuters qu'elle avait signé des accords avec deux grandes sociétés technologiques pour obtenir une licence sur la plupart de ses 200 millions d'images pour environ 3 cents par image. Le directeur général Joaquín Cuenca Abela a déclaré que cinq autres transactions similaires étaient en cours, mais a refusé d'identifier les acheteurs.

Source : EyeEm

Les plateformes de contenu dirigées par l'UGC telles que Getty Images, Adobe, Photobucket, Flickr et Reddit sont toutes confrontées à des problèmes similaires. Sous l'énorme tentation de la monétisation des données, les plateformes choisissent d'ignorer la propriété du contenu des utilisateurs, de regrouper les données et de les vendre au modèle d'IA. entreprises.

L'ensemble du processus s'est déroulé dans l'obscurité et les créateurs n'ont eu aucune chance de résister. Même de nombreux créateurs devront peut-être un jour entraîner un contenu similaire à leurs propres œuvres dans un modèle avant d'avoir la possibilité de soupçonner que leurs œuvres précédentes ont été vendues à une société d'IA pour la formation de modèles par une certaine plate-forme.

Web3 peut être un bon choix pour résoudre le problème de la difficulté de protéger les droits sur les données et les revenus des créateurs. Lorsque les sociétés d'IA ont atteint de nouveaux sommets sur le marché boursier américain, la devise du concept d'IA de Web3 a également grimpé en flèche au même moment. La blockchain, avec ses caractéristiques décentralisées et infalsifiables, bénéficie d’avantages uniques en matière de protection des droits des créateurs.

Le contenu médiatique tel que les images et les vidéos a été adopté à grande échelle sur la chaîne lors du marché haussier de 2021, et le contenu UGC des plateformes sociales se produit également discrètement sur la chaîne. Dans le même temps, de nombreuses plateformes de modèles d’IA Web3 encouragent déjà les utilisateurs ordinaires qui contribuent à la formation des modèles, qu’ils soient propriétaires de données ou formateurs.

Le développement exponentiel des modèles d’IA a mis en avant des exigences accrues en matière de vérification des données. Les créateurs devraient réfléchir : pourquoi mon travail a-t-il été vendu à une entreprise de modèles d’IA pour 5 cents pièce sans mon consentement ? Pourquoi suis-je resté ignorant de l’ensemble du processus et incapable d’en tirer le moindre bénéfice ?

Les efforts des plateformes médiatiques pour pêcher pour rien n'atténueront pas l'anxiété des entreprises modèles d'IA en matière de données. La condition préalable pour obtenir des données de haute qualité et un rendement élevé est la confirmation des droits sur les données, ce qui représente une répartition raisonnable des intérêts entre les créateurs, les plateformes et l'IA. entreprises modèles.

[Avertissement] Il existe des risques sur le marché, les investissements doivent donc être prudents. Cet article ne constitue pas un conseil en investissement et les utilisateurs doivent se demander si les opinions, points de vue ou conclusions contenus dans cet article sont appropriés à leur situation particulière. Investissez en conséquence et faites-le à vos propres risques.

  • Cet article est reproduit avec la permission de : "Deep Wave TechFlow"

  • Auteur original : Jiang Jiang, Silicon Rabbit Racing