一家倡导组织透露,图像生成器未经巴西儿童同意就使用了数十亿张儿童图像来训练他们的人工智能模型。人权观察组织 (HRW) 开展的一项研究表明,像 Stable Diffusion 这样的流行图像生成器使用了“涵盖整个童年时期”的儿童图像来训练他们的模型。

另请阅读:敦促科技公司打击人工智能生成的儿童性虐待材料激增

人权观察组织的研究显示,这些照片来自巴西大约 10 个州。报告称,这些照片对儿童构成了巨大的“隐私风险”,因为该法案还增加了未经同意拍摄儿童肖像的照片的制作。

数十亿巴西儿童图像用于训练人工智能模型

HRW 研究员 Hye Jung Han 在分析了 LAION-5B 的一小部分(不到 0.0001%)后发现了这个问题。LAION-5B 是一个由 Common Crawl 对公共网络的快照构建的数据集。她透露,该数据集没有实际的照片,但包含从自 2008 年以来发布的近 60 亿张图片和标题中提取的“图像文本对”。

研究人员发现了来自巴西10个州的儿童照片,其中大部分是上传到育儿和个人博客上的家庭照片。报告称,这些照片是互联网用户不容易发现的。

另请阅读:英国将色情深度伪造制作定为犯罪行为

HRW 与创建该数据集的德国非营利组织 LAION 合作删除了这些图片的链接。人们仍然担心该数据集可能仍在引用来自世界各地的儿童图片,因为单靠删除链接并不能完全解决问题。

LAION 发言人 Nate Tyler 告诉 Ars:“这是一个更大且令人担忧的问题,作为一个志愿者组织,我们将尽自己的一份力量来提供帮助。”

儿童身份很容易被追踪

人权观察的报告进一步显示,许多巴西儿童的身份可以被追踪,因为他们的姓名和位置被用于构建数据集的标题中。这也引发了人们的担忧,这些孩子可能面临被欺凌的风险,而他们的照片可能会被用于露骨内容。

报告中写道:“所审查的照片涵盖了整个童年时期。”

“他们捕捉到了婴儿在医生戴着手套的手中诞生的亲密瞬间、小孩子们吹灭生日蛋糕上的蜡烛或在家里穿着内衣跳舞的亲密瞬间……”

人权观察。

不过韩透露,“LAION-5B 的所有公开版本都已被删除”,因此现在巴西儿童照片被使用的风险较小。

据人权观察称,在 LAION 确定所有被标记的内容均已删除之前,数据集将不会再次可用。这一决定是在斯坦福大学报告还“发现数据集中的链接指向公共网络上的非法内容”之后做出的,其中包括 3,000 多起疑似儿童性虐待内容。

巴西至少有 85 名女孩举报称,她们的同学利用人工智能“根据她们在社交媒体上拍摄的照片”生成露骨的色情深度伪造内容来骚扰她们。

保护儿童隐私

据 Ars 报道,LAION-5B 于 2022 年推出,据称是为了复制 OpenAI 的数据集,并被吹捧为最大的“免费图像文本数据集”。

当人权观察就这些图像联系 LAION 时,该组织回应称,在 LAION-5B 上训练的人工智能模型“无法逐字逐句地生成儿童的数据”,尽管他们承认存在隐私和安全风险。

该组织随后开始删除一些图片,但也表示父母和监护人有责任从互联网上删除儿童的私人照片。韩不同意他们的观点,他说:

“孩子和他们的父母不应该承担保护孩子免受根本无法防范的技术的责任。这不是他们的错。”

他。

人权观察呼吁巴西立法者紧急干预,保护儿童权利免受新兴技术的侵害。人权观察建议,必须制定新法律,禁止将儿童数据转入人工智能模型。

Enacy Mapakame 的 Cryptopolitan 报告