Для обучения моделей ИИ необходимы огромные объемы наборов данных, и их способность давать хорошие результаты напрямую зависит от данных, которые были переданы в систему. Информация не предоставляется бесплатно, и мы говорим здесь о многих правах интеллектуальной собственности.

Но компании, занимающиеся искусственным интеллектом, не думают в этом направлении; они принимают все знания, созданные поколениями писателей, как нечто само собой разумеющееся; их концепция добросовестного использования также отличается от того, как она воспринималась изначально; и им не нравится платить создателям контента, которые создали их модели того, на что они способны сегодня.

Кража человеческих знаний

Создание контента, который мы видим в газетах, журналах, книгах, онлайн-архивах и исследовательских работах, требует большого труда и пота, но это невозможно без писателей, редакторов, исследователей и издателей, которые привнесли это в мир. общественность в разных формах.

Такое с трудом заработанное признание и знания не должны быть свободными для использования компанией, как это произошло.

«Информация, которая находится в открытом доступе в Интернете».

Источник: ОпенАИ.

Да, именно это может ответить OpenAI, если ее спросят о контенте, который она использовала для обучения своих систем искусственного интеллекта, а также об информации, которую она лицензировала у третьих сторон, и информации, которую предоставляют ее пользователи и тренеры-люди. 

Говоря о лицензионном контенте, компании ищут его сейчас, но у нас нет никакой информации о том, лицензировала ли OpenAI какую-либо информацию у поставщика до запуска своей первоначальной модели GPT. Модель должна была пройти обучение на материалах, защищенных авторским правом, которые нельзя было использовать бесплатно в коммерческих целях.

Источник: Статистика. Компенсация оригинальным авторам

Еще год назад большая часть текста, написанного онлайн или офлайн, была создана человеческими усилиями. Несмотря на кликбейт, сюда примешивался и некачественный контент, но его, по крайней мере, создавали люди, разбирающиеся в человеческой психике и процессе мышления, а на основе такой информации создавались генеративные приложения ИИ. 

Но сегодня компании сталкиваются с новой проблемой при обучении своих моделей искусственного интеллекта — это машинно-генерируемый контент, преобладающий во всем Интернете, который ни в коем случае не считается качественным контентом. Подобный контент истощает ресурсы, доступные для обучения моделей ИИ, поскольку они не могут выдавать качественный результат при обучении бесполезному многословию, и именно так эти модели обычно производят контент. ИИ, использующий ИИ, — это процесс, который часто называют ИИ-каннибализмом или клонированием.

Чтобы этого не произошло, компаниям, занимающимся искусственным интеллектом, приходится ограничивать свой исходный материал только надежными источниками, которыми являются не что иное, как газеты, журналы и общественные форумы, на которых размещается огромное количество знаний, созданных человеком. Как упоминалось выше, можно насчитать еще несколько, но эта необходимость и судебные иски со стороны газет вынудили их лицензировать контент и платить за эксплуатацию, которую они осуществляли.

Такие компании, как Reddit, крупный общественный форум, размещаемый в Интернете, также рассматривают возможность лицензирования своего контента компаниям, занимающимся искусственным интеллектом. В заявлении говорится, что они предпочтут бизнес судебным искам, но не исключают судебных исков, если деловые переговоры потерпят неудачу. Если вам не разрешено включать в свое видео на Youtube саундтрек, защищенный авторским правом, то почему компании, занимающейся искусственным интеллектом, разрешено использовать его для обучения своих моделей, предназначенных для коммерческого использования?

Владение авторскими правами является здесь проблемой, поскольку компании, занимающиеся искусственным интеллектом, продолжают его нарушать. С другой стороны, ИИ не способен собирать новые новости самостоятельно, требуются человеческие усилия для сбора новостей и их подтверждения из разных источников, прежде чем публиковать их, только тогда модель ИИ может использовать эту информацию, а не компенсировать это. человеческий ресурс в данном случае является эксплуатацией.