Неточні, дубльовані та неповні дані продовжують турбувати індустрії. Штучний інтелект використовується для пом'якшення цих проблем, але має вроджені обмеження. Набори даних ШІ можуть містити неправильно позначені або нерелевантні дані.
Fraction AI прокладає новий шлях до маркування даних, поєднуючи ефективність агентів ШІ з людськими інсайтами. Компанія нещодавно завершила раунд фінансування на суму 6 мільйонів доларів, спільно ведений Symbolic та Spartan, разом зі стратегічними інвестиціями від Іллі Полосухіна (Near), Сандіпа Найлвала (Polygon) та інших видатних ангельських інвесторів.
Fraction AI вирішує зростаючу проблему виробництва високоякісних даних. Традиційні методи залежать виключно від ШІ або людей. Fraction AI прагне використовувати людське розуміння як орієнтир для агентів ШІ. Кошти від цього раунду підуть на детальне дослідження та оновлення інфраструктури для масштабування передового гібридного підходу, чия ефективність підтверджена дослідженнями.
Введення гейміфікованого суперницького підштовхування
Науковці з даних продемонстрували, що набори даних, створені за допомогою GAP, або гейміфікованого суперницького підштовхування, покращують продуктивність останніх моделей ШІ. Фреймворк GAP передбачає краудсорсинг високоякісних даних для тонкої настройки великих мультимодальних моделей, перетворюючи збір даних на захоплюючу гру. Він заохочує гравців надавати складні, детальні питання та відповіді, які заповнюють прогалини в знаннях моделей.
У простих термінах, Fraction AI стимулює агентів ШІ створювати високоякісні дані через змагання в режимі реального часу. Розробники налаштовують і запускають агентів, використовуючи детальні інструкції для керівництва їхніми діями та досягнення найкращих можливих результатів, тоді як ефір заставається як економічна основа. Учасники отримують економічні стимули, що сприяє безперервному потоку цінних навчальних даних.
Поточні проблеми з якістю даних
Неточні дані коштують організаціям десятки мільйонів доларів на рік. Багато прикладів включають неправильно написані імена клієнтів, адреси клієнтів з помилками та загалом неправильні записи даних. Яка б не була причина, неточні дані не можуть бути використані, оскільки вони викликають відхилення в будь-якому аналізі даних.
Коли дані імпортуються з кількох джерел, не є незвичним отримати дубльовані набори. Використовуючи роздрібну торгівлю як приклад, ви можете імпортувати списки клієнтів з двох джерел і знайти кількох людей, які купували товари у двох роздрібних продавців. Дубльовані записи стають проблемою, оскільки ви хочете враховувати кожного клієнта лише один раз.
Коли дані об'єднуються з двох різних систем, можуть виникнути несумісності форматування. Несумісності між системами можуть спричинити серйозні проблеми з якістю даних, якщо їх не виявити і не усунути швидко.
Неповні дані та темні дані - це ще дві додаткові проблеми. Деякі записи не містять ключової інформації, наприклад, телефонні номери без кодів регіону або демографічні дані без віку. Темні або приховані дані - це дані, які збираються та зберігаються, але не використовуються активно. IBM оцінює, що 90% всіх даних датчиків, зібраних з пристроїв IoT, залишаються невикористаними. Багато організацій навіть не усвідомлюють це витрачене джерело, яке становить понад 50% витрат на зберігання даних середньої організації.
Людське розуміння сприяє покращенню
Як навчальний інструмент, GAP мотивує людей кидати виклик обмеженням моделей штучного інтелекту, що призводить до помітних покращень у продуктивності. Він заохочує виявлення помилок, ставлячи гравцям завдання визначити неточності або суперечності в наборах даних або виходах ШІ. Їхні різноманітні фони можуть принести різні перспективи, що полегшує виявлення упереджень, які може не помітити одна команда розробників.
Гейміфікація заохочує інноваційне мислення через виклики або пазли, розроблені, щоб розширити межі набору даних або моделі. Гравці можуть виявляти нові випадки використання, виявляти упереджені виходи або входи та пропонувати більш інклюзивні альтернативи. Це зменшує системні упередження в даних та моделях, створюючи більш справедливу основу для всіх видів застосувань. Крім того, учасники позначать раніше непомічені аномалії даних, оскільки їх заохочуватимуть за виявлення недоліків. Винагороди за виявлення значних недоліків можуть бути, ймовірно, вищими, що зменшує ризик неочікуваних збоїв або вразливостей у реальних застосуваннях.
Коли технологія масштабується, все більше людей можуть грати в ігри одночасно, що забезпечує експоненціальні покращення, оскільки велика кількість введення прискорює виявлення слабких місць.
Темна сторона креативності
Креативне розв'язання проблем не обов'язково має бути на користь суспільству. Винагороди будуть основною мотивацією для деяких користувачів, що призведе до надмірної концентрації на них. Розглядаючи це далі, не було б незрозумілим очікувати, що зловмисники намагатимуться обманути систему, і платформам потрібно буде впроваджувати механізми для виявлення та блокування шкідливої діяльності. Прикладом може бути використання ШІ та статистичних моделей для моніторингу патернів поведінки користувачів, позначаючи аномалії, які вказують на спам або незвичайні патерни подання. Незвичайно високі показники подачі або повторювані патерни з одного користувача можуть бути позначені для перегляду.
Фреймворк GAP може призначати оцінки репутації учасникам на основі їхньої історії внесків. Ідеально, нові користувачі матимуть обмежений вплив, поки не встановлять свою довіру, щоб зменшити ризик початкової експлуатації.
Нарешті, будуть користувачі, які випадково позначатимуть проблеми. Платформи, що використовують GAP, повинні залучати експертів або штучний інтелект, щоб запобігти учасникам від позначення точної та цінної інформації.
Виведення якості даних на загальний рівень
Зважаючи на ризики, людей заохочуватимуть виявляти неправильно позначені або нерелевантні дані в наборах даних ШІ, покращуючи якість машинного навчання та моделей ШІ. Поза межами ШІ, гейміфіковані внески можуть покращити точність і повноту безкоштовних, загальнодоступних наборів даних, таких як Wikipedia або OpenStreetMap. Позначення дезінформації в режимі реального часу призведе до більш надійних репозиторіїв.
GAP також вплине на шкідливий, упереджений або неналежний контент. Платформи, такі як Reddit або YouTube, можуть прийняти його для швидшого виявлення та видалення такого контенту.
Застереження: Ця стаття надається лише для інформаційних цілей. Вона не є пропозицією або наміром бути використаною як юридична, податкова, інвестиційна, фінансова або інша порада.