Um grupo de defesa revelou que geradores de imagens usaram bilhões de imagens de crianças brasileiras para treinar seus modelos de IA sem o seu consentimento. A Human Rights Watch (HRW) realizou uma pesquisa que mostra que geradores de imagens populares como o Stable Diffusion usaram imagens de crianças “abrangendo toda a sua infância” para treinar seus modelos.

Leia também: Empresas de tecnologia são incentivadas a combater o aumento de material de abuso sexual infantil gerado por IA

O estudo da HRW revela que essas imagens foram tiradas de cerca de 10 estados brasileiros. Informou que essas fotos representam um enorme “risco de privacidade para as crianças” porque o ato também aumenta a produção de imagens não consensuais com a sua semelhança.

Bilhões de imagens de crianças brasileiras usadas para treinar modelos de IA

O pesquisador da HRW, Hye Jung Han, expôs o problema depois de analisar uma fração (menos de 0,0001%) do LAION-5B, um conjunto de dados construído a partir de instantâneos do Common Crawl da web pública. Ela revelou que o conjunto de dados não continha as fotos reais, mas continha “pares de imagem e texto” retirados de quase 6 bilhões de fotos e legendas postadas desde 2008.

Foram encontradas fotos de crianças de 10 estados brasileiros, a maioria delas contendo fotos de família postadas em blogs pessoais e de pais. Segundo o relatório, são imagens que os internautas não encontram facilmente.

Leia também: Reino Unido declarará a criação de deepfakes sexualmente explícitos um ato criminoso

A HRW removeu links para as imagens em colaboração com a LAION, a organização sem fins lucrativos alemã que criou o conjunto de dados. Ainda permanecem preocupações de que o conjunto de dados ainda possa fazer referência a imagens de crianças de todo o mundo, uma vez que a remoção dos links por si só não resolve totalmente o problema.

“Esta é uma questão maior e muito preocupante e, como organização voluntária, faremos a nossa parte para ajudar”, disse o porta-voz da LAION, Nate Tyler, a Ars.

As identidades das crianças são facilmente rastreáveis

O relatório da HRW revelou ainda que as identidades de muitas crianças brasileiras poderiam ser rastreadas, pois seus nomes e localizações foram usados ​​nas legendas que construíram o conjunto de dados. Também levantou preocupações de que as crianças possam correr o risco de serem alvo de agressores, embora as suas imagens possam ser usadas para conteúdo explícito.

“As fotos analisadas abrangem toda a infância”, diz parte do relatório.

“Eles capturam momentos íntimos de bebês nascendo nas mãos enluvadas de médicos, de crianças soprando velas em seu bolo de aniversário ou dançando de cueca em casa…”

HRW.

Han, no entanto, revelou que “todas as versões publicamente disponíveis do LAION-5B foram retiradas” e, portanto, há menos risco de as fotos das crianças brasileiras serem usadas agora.

De acordo com a HRW, o conjunto de dados não estará disponível novamente até que a LAION tenha certeza de que todo o conteúdo sinalizado foi removido. A decisão foi tomada depois que um relatório da Universidade de Stanford também “encontrou links em um conjunto de dados que apontavam para conteúdo ilegal na web pública”, incluindo mais de 3.000 casos suspeitos de conteúdo de abuso sexual infantil.

Pelo menos 85 meninas no Brasil também relataram que seus colegas as assediaram usando IA para gerar conteúdo deepfake sexualmente explícito “com base em fotos tiradas de seu conteúdo de mídia social”.

Protegendo a privacidade das crianças

De acordo com Ars, o LAION-5B foi introduzido em 2022, supostamente para replicar o conjunto de dados da OpenAI, e foi apontado como o maior “conjunto de dados de imagem e texto disponível gratuitamente”.

Quando a HRW contactou a LAION sobre as imagens, a organização respondeu dizendo que os modelos de IA treinados na LAION-5B “não podiam produzir dados de crianças literalmente”, embora reconhecessem os riscos de privacidade e segurança.

A organização começou então a retirar algumas imagens, mas também opinou que os pais e responsáveis ​​eram os responsáveis ​​por retirar da internet as fotos pessoais das crianças. Han discordou do argumento deles, dizendo:

“As crianças e os seus pais não devem ser obrigados a assumir a responsabilidade de proteger as crianças contra uma tecnologia contra a qual é fundamentalmente impossível proteger. Não é culpa deles.

Ele.

A HRW apelou à intervenção urgente dos legisladores brasileiros para proteger os direitos das crianças das tecnologias emergentes. Devem ser implementadas novas leis para proibir a eliminação de dados de crianças em modelos de IA, de acordo com as recomendações da HRW.

Reportagem criptopolitana de Enacy Mapakame