Независимо от того, идет ли работа OpenAI, Google и Meta, ИИ, финансирующего промышленный сектор, который включает в себя различные средства, такие как сбор или накопление огромных объемов цифровых данных различными творческими, но противоречивыми способами, ясно, что возможности и возможности автоматизации растут. Примечательно, что усилия, влекущие за собой такие действия, как принятие мер, изложенных выше (т. е. принятие во внимание правовых ограничений и корпоративной политики), эквивалентны значительному объему данных, используемых для обучения систем ИИ.

Инициатива OpenAI «шепот»: разговоры о майнинге на YouTube

Наша история Whisper началась только в прошлом году. Существует огромная нехватка первоклассных английских текстов, что приводит к задержкам в предоставлении образования. Whisper стал следующим шагом Google. Он понимал океан диалогов YouTube и был разработан как текстовое приложение для преобразования текста в речь. Сам инструмент на основе искусственного интеллекта, состоящий из более миллиона часов видеороликов YouTube, проверяемых искусственным интеллектом для создания свежих текстов (по сути, нового разговора), использовался для обучения моделей искусственного интеллекта, созданных на основе самых современных технологий. вплоть до GPT-4, последней версии чат-бота ChatGPT.

Несмотря на то, что некоторые сотрудники утверждали, что кадры Microsoft OpenAI будут плагиатом YouTube по всем направлениям, этика плагиата все еще оставалась спорной; кроме того, некоторые сотрудники признали, что точно соответствовать намерениям YouTube будет невозможно. Аналогичным образом, получение возражений против алгоритмической обработки видео для извлечения текстового содержимого для передачи ИИ. модели могли быть сочтены угрозой авторским правам создателей видео, что вызвало возмущение. 

Meta, материнская компания Facebook и Instagram, также была обеспокоена использованием элементов, защищенных авторским правом, таких издательств, как Simon & Schuster и других. В то же время он также обсуждал приобретение общего веб-контента, которое потенциально может быть уличено в нарушении авторских прав.

Нехватка данных: использование нетрадиционных подходов

Сбор данных, полный конкуренции, помогает отметить ключевую роль данных и определить их в развитии технологий искусственного интеллекта. Язык в ИИ управляет все большим количеством наборов обучающих данных, включая Содружество, которыми сегодня манипулируют вплоть до Википедии и Reddit из-за пределов этих источников. Для технологических компаний, особенно тех, которые испытывают трудности с доступом к очень распространенным источникам данных, таким как традиционные хранилища данных, создание моделей на базе искусственного интеллекта может быть альтернативным решением, которое может быть достаточно желательным в таких случаях.

Компании в сфере технологий заявляют, что сбор данных необходим для обучения ИИ, хотя этот же процесс юридически оспаривается в суде. В свою защиту OpenAI и Microsoft выиграли против них дело о незаконном использовании материалов, защищенных авторскими правами. Тем не менее, они заявили, что их действия подпадают под юридический принцип добросовестного использования. В последние годы количество заявок, поданных правообладателями в Бюро авторских прав США, превысило отметку в 10 000, что ясно показывает, что закон об авторском праве в эпоху ИИ уникален и совершенно нов. Следовательно, основные игроки всегда сталкиваются с опасностями, связанными с нарушением многих произведений под предлогом отсутствия лицензионных целей для моделей, использующих ИИ на этом основании.

Императив для массивных наборов данных

В целом, работа Кайпана де Джареда, учёного масштаба, непреднамеренно оказалась эпической в ​​области разработки ИИ. Контент, управляемый данными, является одним из компонентов ИИ, необходимых для процесса обучения, но он не может нормально функционировать без хорошо обученных и эффективно работающих моделей. С развитием технологий искусственного интеллекта спрос на данные для достижения успеха на рынке растет быстрыми темпами, в результате чего у компаний возникают вопросы, связанные с законом, этикой и конфиденциальностью. Следовательно, алгоритмы искусственного интеллекта должны использовать эти наборы данных, чтобы добиться успеха на рынке.

Поведение V.IP при сборе данных искажается из-за усовершенствований ИИ; типичная методологическая клятва огрубляется. Будь то одно из выступлений на YouTube или создание генератора синтетических данных, эти компании являются лидерами, стремящимися выяснить, в чем на самом деле заключаются вопросы закона, этики и конфиденциальности. 

Позже они могут стать посмешищем на море. В связи с появлением огромных массивов данных, необходимых для управления инновационным процессом, лидеры общества вынуждены активно участвовать в конструктивном диалоге по разработке правил и стандартов, в которых инновационные усилия сбалансированы с этическими принципами прав интеллектуальной собственности и конфиденциальности.

Оригинальная история взята с сайта: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html.