Un grupo de defensa reveló que los generadores de imágenes han utilizado miles de millones de imágenes de niños brasileños para entrenar sus modelos de inteligencia artificial sin su consentimiento. Human Rights Watch (HRW) llevó a cabo una investigación que muestra que generadores de imágenes populares como Stable Diffusion utilizaron imágenes de niños “que abarcan toda su infancia” para entrenar sus modelos.

Lea también: Se insta a las empresas tecnológicas a combatir el aumento de material de abuso sexual infantil generado por IA

El estudio de HRW revela que estas imágenes fueron tomadas en unos 10 estados brasileños. Informó que estas imágenes representan un enorme “riesgo de privacidad para los niños” porque la ley también aumenta la producción de imágenes no consensuadas que tengan su imagen.

Miles de millones de imágenes de niños brasileños utilizadas para entrenar modelos de IA

La investigadora de HRW, Hye Jung Han, expuso el problema después de analizar una fracción (menos del 0,0001%) de LAION-5B, un conjunto de datos creado a partir de instantáneas de rastreo común de la web pública. Reveló que el conjunto de datos no tenía las fotografías reales, pero contenía "pares de imágenes y texto" tomados de casi 6 mil millones de fotografías y leyendas publicadas desde 2008.

Se encontraron fotografías de niños de 10 estados brasileños, la mayoría de las cuales incluían fotografías familiares subidas a blogs personales y para padres. Según el informe, se trata de imágenes con las que los internautas no se topan fácilmente.

Lea también: Reino Unido declarará la creación de deepfakes sexualmente explícitos como un acto criminal

HRW eliminó los enlaces a las imágenes en colaboración con LAION, la organización sin fines de lucro alemana que creó el conjunto de datos. Aún persiste la preocupación de que el conjunto de datos pueda seguir haciendo referencia a imágenes de niños de todo el mundo, ya que la eliminación de enlaces por sí sola no resuelve por completo el problema.

"Este es un tema más amplio y muy preocupante y, como organización de voluntarios, haremos nuestra parte para ayudar", dijo a Ars el portavoz de LAION, Nate Tyler.

Las identidades de los niños son fácilmente rastreables

El informe de HRW reveló además que las identidades de muchos niños brasileños podrían ser rastreadas ya que sus nombres y ubicaciones se utilizaron en las leyendas que construyeron el conjunto de datos. También generó preocupación de que los niños puedan correr el riesgo de ser atacados por acosadores mientras sus imágenes pueden usarse para contenido explícito.

“Las fotografías analizadas abarcan toda la infancia”, se lee en parte del informe.

“Capturan momentos íntimos de bebés que nacen en las manos enguantadas de médicos, de niños pequeños que apagan las velas de su pastel de cumpleaños o bailan en ropa interior en casa…”

HRW.

Sin embargo, Han reveló que “todas las versiones disponibles públicamente de LAION-5B fueron eliminadas” y, por lo tanto, hay menos riesgo de que se utilicen ahora las fotografías de los niños brasileños.

Según HRW, el conjunto de datos no volverá a estar disponible hasta que LAION esté segura de que se ha eliminado todo el contenido marcado. La decisión se tomó después de que un informe de la Universidad de Stanford también "encontrara enlaces en un conjunto de datos que apuntaban a contenido ilegal en la web pública", incluidos más de 3.000 casos sospechosos de contenido de abuso sexual infantil.

Al menos 85 niñas en Brasil también han denunciado que sus compañeros de clase las acosaban mediante el uso de inteligencia artificial para generar contenido ultrafake sexualmente explícito “basado en fotografías tomadas de su contenido en las redes sociales”.

Proteger la privacidad de los niños

Según Ars, LAION-5B se introdujo en 2022, supuestamente para replicar el conjunto de datos de OpenAI, y fue promocionado como el mayor “conjunto de datos de imagen y texto disponible gratuitamente”.

Cuando HRW se puso en contacto con LAION por las imágenes, la organización respondió diciendo que los modelos de IA entrenados en LAION-5B "no podían producir datos de los niños palabra por palabra", aunque reconocieron los riesgos de privacidad y seguridad.

Luego, la organización comenzó a eliminar algunas imágenes, pero también opinó que los padres y tutores eran responsables de eliminar las fotografías personales de los niños de Internet. Han no estuvo de acuerdo con su argumento y dijo:

“No se debería obligar a los niños y a sus padres a asumir la responsabilidad de protegerlos contra una tecnología contra la que es fundamentalmente imposible protegerse. No es su culpa”.

Él.

HRW pidió una intervención urgente de los legisladores brasileños para proteger los derechos de los niños frente a las tecnologías emergentes. Deben existir nuevas leyes para prohibir la incorporación de datos de niños en modelos de IA, según las recomendaciones de HRW.

Informe criptopolitano de Enacy Mapakame