Advokační skupina odhalila, že generátory obrázků použily miliardy obrázků brazilských dětí k trénování svých modelů umělé inteligence bez jejich souhlasu. Organizace Human Rights Watch (HRW) provedla výzkum, který ukazuje, že oblíbené generátory obrázků, jako je Stable Diffusion, používaly k trénování svých modelů obrázky dětí „přesahujících celé dětství“.

Čtěte také: Technické společnosti vyzvaly, aby bojovaly s nárůstem materiálu o sexuálním zneužívání dětí generovaného umělou inteligencí

Studie HRW odhaluje, že tyto snímky byly pořízeny z přibližně 10 brazilských států. Uvedl, že tyto obrázky představují obrovské „riziko ochrany soukromí pro děti“, protože tento akt také zvyšuje produkci nesouhlasných obrázků s jejich podobiznou.

Miliardy obrázků brazilských dětí používaných k výcviku modelů umělé inteligence

Výzkumník HRW Hye Jung Han problém odhalil poté, co analyzoval zlomek (méně než 0,0001 %) LAION-5B, datové sady vytvořené ze snímků Common Crawl veřejného webu. Prozradila, že dataset neobsahoval skutečné fotografie, ale obsahoval „obrázkové textové páry“ převzaté z téměř 6 miliard obrázků a popisků zveřejněných od roku 2008.

Byly nalezeny obrázky dětí z 10 brazilských států, z nichž většina obsahovala rodinné fotografie nahrané na rodičovské a osobní blogy. Podle zprávy jde o obrázky, o které uživatelé internetu jen tak nezakopnou.

Čtěte také: Spojené království prohlásí sexuálně explicitní vytváření deepfakes za trestný čin

HRW odstranila odkazy na obrázky ve spolupráci s LAION, německou neziskovou organizací, která vytvořila soubor dat. Stále přetrvávají obavy, že soubor dat může stále odkazovat na dětské obrázky z celého světa, protože odstranění odkazů samo o sobě problém zcela nevyřeší.

„Toto je rozsáhlejší a velmi znepokojující problém a jako dobrovolnická organizace uděláme vše pro to, abychom vám pomohli,“ řekl Ars mluvčí LAION Nate Tyler.

Identita dětí je snadno dohledatelná

Zpráva HRW dále odhalila, že totožnost mnoha brazilských dětí lze vysledovat, protože jejich jména a umístění byly použity v titulcích, které vytvořily soubor dat. Vyvolalo také obavy, že dětem může hrozit, že se stanou terčem tyranů, zatímco jejich obrázky mohou být použity pro explicitní obsah.

„Zkontrolované fotografie pokrývají celé dětství,“ stojí v části zprávy.

„Zachycují intimní okamžiky dětí, které se rodí do rukou lékařů v rukavicích, malé děti sfoukávají svíčky na narozeninovém dortu nebo tancují doma ve spodním prádle…“

HRW.

Han však prozradil, že „všechny veřejně dostupné verze LAION-5B byly staženy“, a tudíž menší riziko, že fotografie brazilských dětí budou nyní používány.

Podle HRW nebude datová sada znovu dostupná, dokud si LAION nebude jist, že veškerý označený obsah bude odstraněn. Rozhodnutí bylo učiněno poté, co zpráva Stanfordské univerzity také „našla odkazy v datové sadě ukazující na nelegální obsah na veřejném webu“, včetně více než 3 000 podezřelých případů obsahu sexuálního zneužívání dětí.

Nejméně 85 dívek v Brazílii také nahlásilo, že je jejich spolužáci obtěžovali pomocí umělé inteligence k vytváření sexuálně explicitního hluboce falešného obsahu „na základě fotografií pořízených z jejich obsahu na sociálních sítích“.

Ochrana soukromí dětí

Podle Arse byl LAION-5B představen v roce 2022, údajně za účelem replikace datového souboru OpenAI, a byl nabízen jako největší „volně dostupný soubor dat s obrázky a textem“.

Když HRW kontaktovala LAION kvůli snímkům, organizace odpověděla tím, že modely umělé inteligence vycvičené na LAION-5B „nemohly produkovat data dětí doslovně“, ačkoli uznali rizika pro soukromí a zabezpečení.

Organizace poté začala odstraňovat některé obrázky, ale také se domnívala, že za odstranění osobních fotografií dětí z internetu jsou zodpovědní rodiče a opatrovníci. Han s jejich argumentem nesouhlasil a řekl:

„Děti a jejich rodiče by neměli nést odpovědnost za ochranu dětí před technologií, před kterou je v zásadě nemožné chránit. Není to jejich chyba."

On.

HRW vyzvala brazilské zákonodárce k naléhavému zásahu na ochranu práv dětí před novými technologiemi. Podle doporučení HRW musí být zavedeny nové zákony, které zakazují vyřazování dětských dat do modelů AI.

Cryptopolitan zpravodajství Enacy Mapakame