The New York Times розкриває методологію, використану OpenAI для накопичення мільйонів годин транскриптів відео YouTube для створення величезної кількості даних, необхідних для їх потужної моделі штучного інтелекту GPT-4. Хоча може здатися, що ці компанії йдуть одним шляхом, утворюючи чергу на чолі з гігантами Google і Meta, цей шлях набирає обертів у міру оновлення технологій ШІ. Усе це призводить до питання про «цифровий розрив» і його вплив на здатність людини брати участь в економіці, зокрема на такі питання, як авторське право та етика даних.

Смілива тактика збору даних OpenAI

OpenAI виявив і проаналізував цей контент YouTube. Ця стратегія, незважаючи на інноваційний характер вільного використання, стосується принципів справедливого використання, що є передумовою можливості для цієї компанії. Запис відео YouTube, один із етапів процесу навчання штучного інтелекту, який належить Google, викликає занепокоєння щодо порушення авторських прав і етичних питань, пов’язаних із використанням даних без згоди автора.

Досить смішно, але після того, як Google потрапила під критику як компанія, яка володіє YouTube за ту саму річ, вони нібито задіяли такі практики для своїх моделей ШІ. Цей спільний процес стеження є, безумовно, химерною частиною звіту, яка ще більше розкриває заплутаність етичних і правових кордонів технологічних компаній у їхніх зусиллях зі штучного інтелекту. З іншого боку, Google зазначив, що вони можуть отримати дозвіл творця на використання відео, перш ніж навчати систему штучного інтелекту на цих даних, що зрештою стає предметом розбіжностей у розповіді.

Перегляд політики конфіденційності

Однією з головних подій цього став Google, корпоративний захід щодо зміни політики конфіденційності до кінця червня 2023 року. Таким чином, стратегія була спрямована на поглиблення можливостей компанії використовувати загальнодоступні джерела даних, починаючи від документів Google і закінчуючи Google Maps. огляди для зміцнення інновацій на основі ШІ. Це вказує на ширше технологічне явище, де великі технологічні компанії лідирують як у сферах інновацій, так і в сфері конфіденційності користувачів, намагаючись знайти правильний баланс обох.

Саме з цими технологічними гігантами відкриття OpenAI і Google їхньої практики збору даних без явної згоди викликає питання щодо розвитку ШІ та етичного використання даних. Ніла Мохана, генерального директора YouTube, цитує Bloomberg на цю тему, і він сказав, що платформа не дозволяє завантажувати ці неавторизовані джерела.

Галузь і правові наслідки

Через неоднозначність виникає питання про моральність і законність цих спроб зібрати дані. Ще одна сфера, яку потрібно вдосконалити, полягає в проблемах плагіату, оскільки ці підходи можуть бути творчими, але також можуть викликати проблеми з авторським правом. Питання конфіденційності також викликають занепокоєння в цій галузі. Однак сфера дії цих помилок не обмежується лише юридичними та етичними проблемами, але виходить далеко за рамки цього. Через велику кількість вони звертають увагу на більш значну гонку технологій (технології ШІ), яка спрямована на використання даних для посилення прогресу ШІ.

Оскільки такі піонери технології штучного інтелекту, як OpenAI і Google, прагнуть розширити масштаби наступної парадигми штучного інтелекту, дебати навколо того, які обсяги даних можна використовувати, які міркування щодо захисту авторських прав і величезні суспільні наслідки програм штучного інтелекту розширюються. Змішування інновацій з етикою призводить до більш складної картини, що вимагає розробки принципів регулювання та чіткої політики.

Робота OpenAI і Google щодо використання відео YouTube для навчальних цілей породжує багатовимірну проблему суб’єктивного характеру, яка складається з правового, етичного та технологічного вимірів. Таким чином, технологічний сектор постійно стикається з проблемами, такими як інновації, конфіденційність і етика, без яких неможливо забезпечити подальше зростання. Обговорення цих питань буде продовжено. Тим не менш, це також поширюватиметься на всіх зацікавлених сторін у суспільстві, від спеціалістів з права до самих розробників штучного інтелекту, щоб зрештою запропонувати рішення.

Оригінальна історія з https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/