Un grup de advocacy a dezvăluit că generatorii de imagini au folosit miliarde de imagini cu copii brazilieni pentru a-și antrena modelele AI fără consimțământul lor. Human Rights Watch (HRW) a efectuat cercetări care arată că generatori de imagini populare, cum ar fi Stable Diffusion, au folosit imagini cu copii „întreaga copilărie” pentru a-și antrena modelele.

Citește și: Companiile tehnologice au îndemnat să combată creșterea materialului de abuz sexual asupra copiilor generat de inteligență artificială

Studiul HRW dezvăluie că aceste imagini au fost luate din aproximativ 10 state braziliene. A raportat că aceste imagini prezintă un „risc de confidențialitate pentru copii” uriaș, deoarece actul crește, de asemenea, producția de imagini neconsensuale care poartă asemănarea lor.

Miliarde de imagini ale copiilor brazilieni folosite pentru a antrena modele AI

Cercetătorul HRW Hye Jung Han a expus problema după ce a analizat o fracțiune (mai puțin de 0,0001%) din LAION-5B, un set de date construit din instantanee Common Crawl ale web-ului public. Ea a dezvăluit că setul de date nu conținea fotografiile reale, ci conținea „perechi de text de imagini” luate din aproape 6 miliarde de imagini și subtitrări postate din 2008.

Au fost găsite imagini ale copiilor din 10 state braziliene, cele mai multe dintre ele cuprinzând imagini de familie încărcate pe bloguri personale și pentru părinți. Potrivit raportului, acestea sunt imagini de care utilizatorii de internet nu se pot împiedica ușor.

Citește și: Regatul Unit va declara crearea de deepfakes explicită din punct de vedere sexual un act criminal

HRW a eliminat linkurile către imagini în colaborare cu LAION, organizația nonprofit germană care a creat setul de date. Încă există îngrijorări cu privire la faptul că setul de date poate face referire la imagini ale copiilor din întreaga lume, deoarece eliminarea legăturilor nu rezolvă în totalitate problema.

„Aceasta este o problemă mai mare și foarte îngrijorătoare și, în calitate de organizație de voluntariat, ne vom face partea pentru a ajuta”, a declarat purtătorul de cuvânt al LAION, Nate Tyler, pentru Ars.

Identitățile copiilor sunt ușor de urmărit

Raportul HRW a mai dezvăluit că identitățile multor copii brazilieni pot fi urmărite, deoarece numele și locațiile lor au fost folosite în legendele care au creat setul de date. De asemenea, a ridicat îngrijorarea că copiii ar putea fi expuși riscului de a fi vizați de bătăuși, în timp ce imaginile lor pot fi folosite pentru conținut explicit.

„Fotografiile analizate acoperă întreaga copilărie”, se arată în parte din raport.

„Aceștia surprind momente intime în care bebelușii se nasc în mâinile înmănuși ale medicilor, copii mici suflând lumânări pe tortul lor de ziua lor sau dansând în lenjeria lor acasă...”

HRW.

Cu toate acestea, Han a dezvăluit că „toate versiunile disponibile public ale LAION-5B au fost eliminate” și, prin urmare, riscul mai mic ca fotografiile copiilor brazilieni să fie folosite acum.

Potrivit HRW, setul de date nu va fi disponibil din nou până când LAION este sigur că tot conținutul semnalat este eliminat. Decizia a fost luată după ce un raport al Universității Stanford „a găsit linkuri în setul de date care indică conținut ilegal pe web-ul public”, inclusiv peste 3.000 de cazuri suspectate de conținut de abuz sexual asupra copiilor.

Cel puțin 85 de fete din Brazilia au raportat, de asemenea, că colegii lor de clasă le-au hărțuit folosind inteligența artificială pentru a genera conținut deepfake explicit sexual „pe baza fotografiilor făcute din conținutul lor de pe rețelele sociale”.

Protejarea intimității copiilor

Potrivit Ars, LAION-5B a fost introdus în 2022, pentru a replica setul de date OpenAI și a fost prezentat drept cel mai mare „set de date imagine-text disponibil gratuit”.

Când HRW a contactat LAION pe marginea imaginilor, organizația a răspuns spunând că modelele AI instruite pe LAION-5B „nu au putut produce datele copiilor pe cuvânt”, deși au recunoscut riscurile de confidențialitate și securitate.

Organizația a început apoi să elimine unele imagini, dar a considerat că părinții și tutorii sunt responsabili pentru eliminarea fotografiilor personale ale copiilor de pe internet. Han nu a fost de acord cu argumentul lor, spunând:

„Copiii și părinții lor nu ar trebui să își asume responsabilitatea pentru protejarea copiilor împotriva unei tehnologii de care este fundamental imposibil de protejat. Nu e vina lor.”

El.

HRW a cerut intervenția urgentă a parlamentarilor brazilieni pentru a proteja drepturile copiilor de tehnologiile emergente. Trebuie să existe noi legi pentru a interzice eliminarea datelor copiilor în modele AI, conform recomandărilor HRW.

Raportare Cryptopolitan de Enacy Mapakame