OpenAI и Microsoft столкнулись с новым иском от Центра журналистских расследований (CIR). CIR сообщает, что OpenAI использовала опубликованный контент с веб-сайтов Mother Jones и Reveal для обучения более ранних версий ChatGPT.

Читайте также: OpenAI отказывается от голоса ChatGPT после скандала со Скарлетт Йоханссон 

Истец CIR утверждает, что OpenAI использовала его контент без разрешения или обещания компенсации. CIR, основанная в 1977 году, управляет некоммерческим американским журналом Mother Jones и подкастом Reveal. 

CIR подает в суд на OpenAI и Microsoft за нарушение авторских прав 

Центр журналистских расследований (CIR) подал иск в федеральный суд Нью-Йорка в четверг. Некоммерческая организация обвинила OpenAI и Microsoft в использовании их контента без разрешения и компенсации. CIR утверждает, что OpenAI нарушила законы об авторских правах, используя свой контент для обучения ChatGPT.

Генеральный директор CIR Моника Бауэрляйн заявила: «Такое поведение безбилетника не только несправедливо, но и является нарушением авторских прав. Работа журналистов в CIR и повсюду ценна, и OpenAI и Microsoft знают это».

🚨[Иск об авторских правах AI] Центр журналистских расследований (стоящий за @MotherJones и @reveal) подает в суд на OpenAI и Microsoft за нарушение авторских прав. Кавычки:

«Обвиняемые копировали, использовали, сокращали и отображали ценный контент CIR без разрешения или разрешения CIR и… pic.twitter.com/SeZ0VtDOMY

– Луиза Яровски (@LuizaJarinsky) 29 июня 2024 г.

В официальной жалобе истец нанял специалиста по обработке данных для анализа базы данных OpenWebText. OpenWebText — это аппроксимация WebText, который представляет собой набор очищенных веб-страниц, созданных OpenAI. Специалист по данным обнаружил, что набор данных содержит 17 434 URL-адресов от Mother Jones и 415 от Reveal. OpenWebText и WebText имеют немного разное количество статей Mother Jones, поскольку процесс очистки происходил в разные дни.

Об этом истец сообщил в официальной жалобе.

«Когда они наполнили свои учебные наборы журналистскими произведениями, у ответчиков был выбор: уважать журналистские произведения или нет. Подсудимые выбрали последнее»

Читайте также: Главный научный сотрудник OpenAI Илья Суцкевер прощается

OpenAI использовала два алгоритма, Dragnet и Newspaper, для создания базы данных WebText. Dragnet предназначен для отделения основного содержания статьи от других частей веб-сайта, таких как верхний и нижний колонтитулы, заголовок, имя автора и уведомления об авторских правах. Когда OpenAI закрыла веб-сайт Mother Jones, она удалила все, что находится в его нижнем колонтитуле и заголовке. Кроме того, производитель ChatGPT удалил уведомление об авторских правах и информацию об условиях использования согласно жалобе. 

Кроме того, истец утверждает, что Microsoft знала, что на скопированных URL-адресах содержится журналистский контент без имен авторов, заголовков и уведомлений об авторских правах, что способствует нарушению авторских прав со стороны Bing AI и ChatGPT.

CIR требует прибыли от OpenAI и Microsoft, а также возмещения фактического или установленного законом ущерба. Указанная сумма составляет минимум 750 долларов США за произведение, нарушенное авторскими правами, и 2500 долларов США за нарушение DMCA.

OpenAI сталкивается с исками со стороны других изданий

Это не первый иск, поданный против OpenAI за нарушение авторских прав. С момента выпуска ChatGPT в конце 2022 года OpenAI и Microsoft столкнулись с многочисленными судебными исками от таких громких имен, как New York Times, The Intercept, New York Daily News и Chicago Tribune.

Также читайте: Сотрудники утверждают, что OpenAI и Google DeepMind скрывают риски ИИ

Тем временем некоторые крупные издатели и интернет-гиганты подписали лицензионные соглашения с OpenAI, предоставляя ей доступ к своим архивам. К ним относятся журнал TIME, News Corp, Financial Times, Vox Media, Associated Press, The Atlantic, Stack Overflow и Reddit.

Криптополитический репортаж Ранды Мозес