Un groupe de défense a révélé que les générateurs d’images ont utilisé des milliards d’images d’enfants brésiliens pour entraîner leurs modèles d’IA sans leur consentement. Human Rights Watch (HRW) a mené des recherches qui montrent que des générateurs d'images populaires comme Stable Diffusion utilisaient des images d'enfants « couvrant toute leur enfance » pour former leurs modèles.

A lire aussi : Les entreprises technologiques invitées à lutter contre l'augmentation du matériel d'abus sexuel sur enfants généré par l'IA

L'étude de HRW révèle que ces images ont été prises dans une dizaine d'États brésiliens. Il a signalé que ces photos présentent un énorme « risque pour la vie privée des enfants », car la loi augmente également la production d’images non consensuelles à leur image.

Des milliards d’images d’enfants brésiliens utilisées pour former des modèles d’IA

Le chercheur de HRW, Hye Jung Han, a exposé le problème après avoir analysé une fraction (moins de 0,0001 %) de LAION-5B, un ensemble de données construit à partir d'instantanés Common Crawl du Web public. Elle a révélé que l’ensemble de données ne contenait pas les photos réelles, mais contenait des « paires de textes d’images » tirées de près de 6 milliards de photos et de légendes publiées depuis 2008.

Des photos d’enfants provenant de 10 États brésiliens ont été trouvées, la plupart comprenant des photos de famille téléchargées sur des blogs parentaux et personnels. Selon le rapport, ce sont des images sur lesquelles les internautes ne tombent pas facilement par hasard.

A lire aussi : Le Royaume-Uni va déclarer la création de deepfakes sexuellement explicites comme un acte criminel

HRW a supprimé les liens vers les images en collaboration avec LAION, l'organisation à but non lucratif allemande qui a créé l'ensemble de données. Des inquiétudes subsistent quant au fait que l’ensemble de données puisse encore faire référence à des images d’enfants du monde entier, car la suppression des liens à elle seule ne résout pas entièrement le problème.

"Il s'agit d'un problème plus vaste et très préoccupant et en tant qu'organisation bénévole, nous ferons notre part pour aider", a déclaré à Ars le porte-parole de LAION, Nate Tyler.

L’identité des enfants est facilement traçable

Le rapport de HRW a en outre révélé que l’identité de nombreux enfants brésiliens pouvait être retracée puisque leurs noms et leur emplacement étaient utilisés dans les légendes qui ont construit l’ensemble de données. Cela a également fait craindre que les enfants risquent d’être ciblés par des intimidateurs alors que leurs images pourraient être utilisées à des fins de contenu explicite.

"Les photos examinées couvrent l'intégralité de l'enfance", peut-on lire dans le rapport.

«Ils capturent des moments intimes de bébés naissant entre les mains gantées de médecins, de jeunes enfants soufflant des bougies sur leur gâteau d'anniversaire ou dansant en sous-vêtements à la maison…»

HRW.

Han a cependant révélé que « toutes les versions accessibles au public de LAION-5B ont été supprimées », et donc moins de risques que les photos des enfants brésiliens soient utilisées désormais.

Selon HRW, l'ensemble de données ne sera plus disponible tant que LAION ne sera pas certain que tout le contenu signalé a été supprimé. La décision a été prise après qu'un rapport de l'Université de Stanford ait également « trouvé des liens dans un ensemble de données pointant vers des contenus illégaux sur le Web public », y compris plus de 3 000 cas suspects de contenu d'abus sexuels sur des enfants.

Au moins 85 filles au Brésil ont également signalé que leurs camarades de classe les harcelaient en utilisant l'IA pour générer du contenu deepfake sexuellement explicite « basé sur des photos prises à partir de leur contenu sur les réseaux sociaux ».

Protéger la vie privée des enfants

Selon Ars, LAION-5B a été introduit en 2022, apparemment pour reproduire l’ensemble de données d’OpenAI, et a été présenté comme le plus grand « ensemble de données image-texte disponible gratuitement ».

Lorsque HRW a contacté LAION au sujet des images, l’organisation a répondu en affirmant que les modèles d’IA formés sur LAION-5B « ne pouvaient pas produire les données des enfants textuellement », bien qu’ils aient reconnu les risques en matière de confidentialité et de sécurité.

L’organisation a alors commencé à supprimer certaines images, mais a également estimé que les parents et tuteurs étaient responsables de la suppression des photos personnelles des enfants d’Internet. Han n'était pas d'accord avec leur argument, disant :

« Les enfants et leurs parents ne devraient pas assumer la responsabilité de protéger les enfants contre une technologie contre laquelle il est fondamentalement impossible de se protéger. Ce n’est pas de leur faute.

Il.

HRW a appelé à une intervention urgente des législateurs brésiliens pour protéger les droits des enfants face aux technologies émergentes. De nouvelles lois doivent être en place pour interdire la suppression des données des enfants dans les modèles d’IA, conformément aux recommandations de HRW.

Reportage cryptopolitain par Enacy Mapakame