Startup AI Menggunakan Gambar Anak-Anak Brasil untuk Melatih Model Tanpa Izin

Cryptopolitan · 2024-06-11T13:03:03.000Z

Sebuah kelompok advokasi mengungkapkan bahwa pembuat gambar telah menggunakan miliaran gambar anak-anak Brasil untuk melatih model AI mereka tanpa persetujuan mereka. Human Rights Watch (HRW) melakukan penelitian yang menunjukkan pembuat gambar populer seperti Stable Diffusion menggunakan gambar anak-anak “yang mencakup seluruh masa kecil mereka” untuk melatih model mereka. Baca juga: Perusahaan teknologi didesak untuk memerangi lonjakan materi pelecehan seksual terhadap anak yang dihasilkan oleh AI Studi HRW mengungkapkan gambar-gambar ini diambil dari sekitar 10 negara bagian Brazil. Dilaporkan bahwa gambar-gambar ini menimbulkan “risiko privasi bagi anak-anak” yang sangat besar karena tindakan tersebut juga meningkatkan produksi gambar-gambar non-konsensual yang mirip dengan mereka.

Eine Interessengruppe hat aufgedeckt, dass Bildgeneratoren Milliarden von Bildern brasilianischer Kinder ohne deren Zustimmung verwendet haben, um ihre KI-Modelle zu trainieren. Human Rights Watch (HRW) hat Untersuchungen durchgeführt, die zeigen, dass beliebte Bildgeneratoren wie Stable Diffusion Bilder von Kindern „aus ihrer gesamten Kindheit“ verwendet haben, um ihre Modelle zu trainieren.
Lesen Sie auch: Technologieunternehmen müssen den Anstieg von KI-generiertem Material über sexuellen Kindesmissbrauch bekämpfen
Die HRW-Studie zeigt, dass diese Bilder aus etwa 10 brasilianischen Bundesstaaten stammen. Es wird berichtet, dass diese Bilder ein großes „Risiko für die Privatsphäre von Kindern“ darstellen, da durch diese Tat auch die Produktion von Bildern mit ihrem Abbild ohne Einwilligung zunimmt.
Milliarden Bilder brasilianischer Kinder werden zum Trainieren von KI-Modellen verwendet
Die HRW-Forscherin Hye Jung Han deckte das Problem auf, nachdem sie einen Bruchteil (weniger als 0,0001 %) von LAION-5B analysiert hatte, einem Datensatz, der aus Common Crawl-Schnappschüssen des öffentlichen Webs erstellt wurde. Sie enthüllte, dass der Datensatz nicht die eigentlichen Fotos enthielt, sondern „Bild-Text-Paare“ aus fast 6 Milliarden Bildern und Bildunterschriften, die seit 2008 gepostet wurden.
Es wurden Bilder von Kindern aus zehn brasilianischen Bundesstaaten gefunden. Die meisten davon waren Familienfotos, die auf Eltern- und persönlichen Blogs hochgeladen wurden. Dem Bericht zufolge handelt es sich dabei um Bilder, auf die Internetnutzer nicht so leicht stoßen.
Lesen Sie auch: Großbritannien erklärt die Erstellung sexuell eindeutiger Deepfakes zur Straftat
HRW entfernte in Zusammenarbeit mit LAION, der deutschen gemeinnützigen Organisation, die den Datensatz erstellt hat, Links zu den Bildern. Es bestehen weiterhin Bedenken, dass der Datensatz möglicherweise immer noch auf Kinderbilder aus aller Welt verweist, da das Entfernen von Links allein das Problem nicht vollständig löst.
„Dies ist ein größeres und sehr besorgniserregendes Problem und als Freiwilligenorganisation werden wir unseren Teil dazu beitragen, zu helfen“, sagte LAION-Sprecher Nate Tyler gegenüber Ars.
Die Identität von Kindern ist leicht nachvollziehbar
Der Bericht von HRW enthüllte außerdem, dass die Identität vieler brasilianischer Kinder nachvollziehbar ist, da ihre Namen und Standorte in den Bildunterschriften verwendet wurden, aus denen der Datensatz besteht. Er weckte auch die Befürchtung, dass die Kinder möglicherweise Opfer von Mobbing werden könnten, während ihre Bilder für explizite Inhalte verwendet werden könnten.
„Die untersuchten Fotos umfassen die gesamte Kindheit“, heißt es in dem Bericht.
„Sie fangen intime Momente ein, wenn Babys in den behandschuhten Händen von Ärzten zur Welt kommen, wenn kleine Kinder die Kerzen auf ihrer Geburtstagstorte ausblasen oder wenn sie zu Hause in Unterwäsche tanzen …“
^ "HRW".
Han gab jedoch bekannt, dass „alle öffentlich verfügbaren Versionen von LAION-5B entfernt wurden“ und daher nun ein geringeres Risiko bestehe, dass die Fotos der brasilianischen Kinder verwendet werden.
Laut HRW wird der Datensatz erst wieder verfügbar sein, wenn LAION sicher ist, dass alle markierten Inhalte entfernt wurden. Die Entscheidung wurde getroffen, nachdem ein Bericht der Stanford University ebenfalls „Links im Datensatz gefunden hatte, die auf illegale Inhalte im öffentlichen Web verweisen“, darunter über 3.000 mutmaßliche Fälle von Inhalten mit sexuellem Kindesmissbrauch.
Mindestens 85 Mädchen in Brasilien haben außerdem gemeldet, dass ihre Klassenkameraden sie belästigt hätten, indem sie mithilfe von KI sexuell eindeutige Deepfake-Inhalte „auf der Grundlage von Fotos aus ihren Social-Media-Inhalten“ generiert hätten.
Schutz der Privatsphäre von Kindern
Laut Ars wurde LAION-5B im Jahr 2022 eingeführt, angeblich um den Datensatz von OpenAI zu replizieren, und wurde als der größte „frei verfügbare Bild-Text-Datensatz“ angepriesen.
Als HRW LAION wegen der Bilder kontaktierte, antwortete die Organisation, dass auf LAION-5B trainierte KI-Modelle „die Daten der Kinder nicht wortwörtlich wiedergeben könnten“, obwohl sie die damit verbundenen Datenschutz- und Sicherheitsrisiken einräumte.
Die Organisation begann daraufhin, einige Bilder zu entfernen, vertrat aber auch die Ansicht, dass Eltern und Erziehungsberechtigte dafür verantwortlich seien, persönliche Fotos von Kindern aus dem Internet zu entfernen. Han widersprach ihrer Argumentation und sagte:
„Kinder und ihre Eltern sollten nicht die Verantwortung dafür tragen müssen, ihre Kinder vor einer Technologie zu schützen, vor der es grundsätzlich keinen Schutz gibt. Es ist nicht ihre Schuld.“
Er.
HRW forderte die brasilianischen Gesetzgeber auf, dringend einzugreifen, um die Rechte von Kindern vor neuen Technologien zu schützen. Gemäß den Empfehlungen von HRW müssen neue Gesetze erlassen werden, um die Verwendung von Kinderdaten in KI-Modellen zu verbieten.
Kryptopolitische Berichterstattung von Enacy Mapakame 

KI-Startups nutzen Bilder brasilianischer Kinder, um Models ohne deren Zustimmung zu trainieren

Weitere Inhalte des Erstellers entdecken

Aktuelle Nachrichten