Незалежно від того, чи є робота OpenAI, Google і Meta, штучного інтелекту, що фінансує промисловий сектор, який включає різні засоби, такі як збір або накопичення величезних обсягів цифрових даних різними творчими, але суперечливими способами, очевидно, що здібності та можливості автоматизації зростають. Примітно, що зусилля, які передбачають такі дії, як вжиття заходів, описаних вище (тобто врахування правових обмежень і корпоративної політики), еквівалентні значній кількості даних, які використовуються для навчання систем ШІ.

Ініціатива шепоту OpenAI: видобуток розмов на YouTube

Наша історія Whisper почалася лише минулого року. Існує величезна нестача першокласних текстів англійською мовою, що спричиняє затримки в навчанні. Whisper став наступним кроком Google. Він розумів океан діалогів YouTube і був розроблений як текст, програма для перетворення тексту в мовлення. Сам інструмент на основі штучного інтелекту, що складається з понад одного мільйона годин відео YouTube, перевірених штучним інтелектом для створення нових текстів (по суті, нової розмови), використовувався для навчання моделей штучного інтелекту, створених на основі найсучаснішого до GPT-4, останньої версії чат-бота ChatGPT.

Незважаючи на те, що деякі співробітники стверджували, що кадри Microsoft OpenAI будуть плагіатом YouTube з усіх боків, етика плагіату все ще залишається дискусійною; Крім того, деякі працівники визнали, що було б неможливо точно узгодити з намірами YouTube. Подібним чином, отримання заперечення в алгоритмічній обробці відео для вилучення текстового вмісту для передачі A.I. моделі могли вважатися загрозою авторським правам авторів відео, що викликало обурення.

Meta, материнська компанія Facebook і Instagram, також була стурбована використанням захищених авторським правом елементів від видавництв, таких як Simon & Schuster, серед інших. У той же час він також обговорював придбання загального веб-контенту, який потенційно може бути спійманим у порушенні авторських прав.

Нестача даних: використання нетрадиційних підходів

Збір даних, повний конкуренції, допомагає відзначити ключову позицію даних і визначити їх у розвитку технології ШІ. Мова в штучному інтелекті керує все більшою кількістю навчальних наборів даних, включаючи Співдружність, якими сьогодні маніпулюють аж до Вікіпедії та Reddit поза цими джерелами. Для технологічних компаній — особливо для тих, які мають труднощі з доступом до дуже поширених джерел даних, таких як традиційні сховища даних — створення моделей на основі штучного інтелекту може бути альтернативним рішенням, яке може бути досить бажаним у таких випадках.

Технічні компанії вказують, що збір даних є необхідним для навчання штучному інтелекту, тоді як той самий процес розглядається в суді юридично. На свій захист OpenAI і Microsoft виграли проти них звинувачення щодо незаконного використання матеріалів, захищених авторським правом. Тим не менш, вони сказали, що їхні дії підпадають під правовий принцип добросовісного використання. За останні роки кількість заявок, поданих власниками авторських прав до Бюро авторських прав США, перевищила 10 000, що чітко свідчить про те, що закон про авторське право в епоху ШІ є унікальним і абсолютно новим. Отже, головні гравці завжди стикаються з небезпекою, пов’язаною з порушенням багатьох робіт, прикриваючись відсутністю ліцензованих цілей для моделей, які використовують ШІ на цій основі.

Необхідність для масивних наборів даних

Загалом, робота Кайпана де Джареда, вченого масштабу, була ненавмисно епічної у розробці ШІ. Контент, керований даними, є одним із компонентів штучного інтелекту, необхідних для процесу навчання, але він не може добре працювати без моделей, які добре навчені та працюють ефективно. З розвитком технології штучного інтелекту попит на дані для досягнення успіху на ринку зростає з високою швидкістю, залишаючи перед компаніями питання, пов’язані з законодавством, етикою та конфіденційністю. Тому алгоритми штучного інтелекту повинні використовувати ці набори даних, щоб досягти успіху на ринку.

Поведінка збору даних V.IP спотворена для вдосконалення ШІ; типова методична клятва огрублюється. Ці компанії є лідерами, які намагаються з’ясувати, що таке закон, етика та проблеми конфіденційності, чи то в одному зі своїх виступів на YouTube, чи то завдяки створенню синтетичних даних.

Пізніше вони можуть стати жартом на морі. У зв’язку з появою величезних наборів даних, необхідних для стимулювання інноваційного процесу, лідери суспільства повинні брати активну участь у конструктивному діалозі для розробки правил і стандартів, у яких інноваційні зусилля збалансовані з етичними принципами прав інтелектуальної власності та конфіденційності.

Оригінальна історія з: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html