Співпраця Гарварда та Google для випуску мільйона книг для навчання наступного покоління ШІ
Університет Гарварда спільно з Google презентував набір даних з мільйона книг з суспільного надбання для просування навчання ШІ.
Ця різноманітна колекція охоплює кілька жанрів, мов і знакових авторів, таких як Діккенс, Данте та Шекспір, чиї твори стали суспільним надбанням через їхній вік.
Ця ініціатива вирішує високі витрати, що зазвичай пов'язані з даними для навчання ШІ, роблячи її цінним ресурсом для сприяння інноваціям у розвитку ШІ.
Випуск Harvard безкоштовного набору даних для навчання штучного інтелекту з величезною колекцією книг з суспільного надбання є корисним для стартапів. Молодці! pic.twitter.com/01W9FmjuDV
— Jed White 💥♻️ (@jedwhite) 12 грудня 2024 року
Технологічні гіганти підтримали ініціативу
Ініціатива Harvard Institutional Data Initiative (IDI) очолює новаторську спробу забезпечити всебічний набір даних, отриманих з обширного проекту сканування книг Google, Google Books.
Ця колекція охоплює широкий спектр текстів, від чеських підручників з математики до валлійських кишенькових словників, пропонуючи багатство знань для навчання ШІ.
Спочатку анонсований у березні, IDI оголосив про свої плани створити "достовірний канал для легальних даних для ШІ", з невеликим подальшим розвитком до свого офіційного запуску в четвер.
Фінансована технологічними гігантами Microsoft та OpenAI, ця ініціатива має на меті зробити високоякісні, публічно доступні дані доступними не лише для великих корпорацій, але й для дослідницьких лабораторій і стартапів ШІ, які прагнуть навчити великі мовні моделі.
Від @pradeepviswav - Бібліотека юридичної школи Гарварда запустила Ініціативу інституційних даних (IDI) за підтримки Microsoft та OpenAI, щоб опублікувати свої колекції як дані для різних цілей. #Microsoft #OpenAI #Google #AI https://t.co/MuYpzbTzoQ
— NeowinFeed (@NeowinFeed) 12 грудня 2024 року
Виконавчий директор IDI Грег Лепперт підкреслив, що набір даних має на меті вирівняти умови гри, зменшуючи бар'єри для менших компаній, які стикаються з непомірними витратами на навчання.
Він також запевнив, що набір даних проходить ретельний огляд для забезпечення якості та точності.
Потрібно ще більше ресурсів
Лепперт, порівнюючи потенціал набору даних Гарварда з потенціалом відкритої операційної системи Linux, зазначає, що його успіх залежить від поєднання ресурсів, експертизи та того, що він називає "щіпкою магії" від самих корпорацій, які ця ініціатива намагається оскаржити.
Набір даних, який включає мільйон книг, відсканованих через програму Google Books, розглядається деякими як цифрова капсула часу з ранніх днів нині амбітного проекту Google, який полягає у скануванні кожної книги — мета, яка колись здавалася більш примхливою, ніж дистопічною.
Хоча Лепперт оптимістично налаштований щодо потенціалу набору даних, уявляючи його як цінний ресурс як для стартапів, так і для великих корпорацій, критики, такі як Fudzilla, розглядають це як тонкий спосіб для великих гравців зберегти перевагу в гонці генеративного ШІ.
Запуск ChatGPT у листопаді 2022 року спровокував глобальний сплеск розробки подібних моделей ШІ, створюючи зростаючий попит на дані для вдосконалення цих систем.
Однак цей голод до даних викликав правові занепокоєння, і великі видавці, такі як Wall Street Journal і New York Times, подали позови проти OpenAI та Perplexity за використання їхніх даних без згоди.
Творець ChatGPT OpenAI піддається судовому позову за те, що нібито таємно зібрав 300 мільярдів слів з Інтернету, включаючи книги, статті, веб-сайти, пости та особисту інформацію, отриману без згоди, повідомляє Bloomberg. pic.twitter.com/HwGmGEFfWZ
— KanekoaTheGreat (@KanekoaTheGreat) 3 липня 2023
Оскільки розвиток штучного інтелекту пришвидшується, баланс між відкритим доступом та правами інтелектуальної власності залишається важливим і спірним питанням.