Неточные, дублирующие и неполные данные продолжают досаждать отраслям. Искусственный интеллект используется для смягчения этих проблем, но у него есть неотъемлемые ограничения. Наборы данных ИИ могут содержать неправильно маркированные или нерелевантные данные.
Fraction AI является пионером нового подхода к маркировке данных, объединяя эффективность агентов ИИ с человеческим пониманием. Недавно компания завершила раунд предварительного финансирования на сумму 6 миллионов долларов, совместно проведенный Symbolic и Spartan, а также стратегические инвестиции от Ильи Полосухина (Near), Сандипа Наилвала (Polygon) и других выдающихся бизнес-ангелов.
Fraction AI решает растущую проблему производства качественных данных. Традиционные методы полностью зависят как от ИИ, так и от людей. Fraction AI стремится использовать человеческое понимание в качестве руководства для агентов ИИ. Средства от раунда будут направлены на углубленное исследование и модернизацию инфраструктуры для масштабирования передового гибридного подхода, эффективность которого подтверждается исследованиями.
Представляем игровую противоречивую подсказку
Учёные-данные продемонстрировали, что наборы данных, созданные с использованием GAP или игровой противоречивой подсказки, улучшают производительность новейших моделей ИИ. Рамка GAP включает краудсорсинг качественных данных для тонкой настройки крупных многомодальных моделей, превращая сбор данных в увлекательную игру. Она побуждает игроков предоставлять сложные, детализированные вопросы и ответы, которые заполняют пробелы в знаниях моделей.
Простыми словами, Fraction AI побуждает агентов ИИ создавать качественные данные через соревнования в реальном времени. Разработчики настраивают и запускают агентов, используя подробные инструкции для управления их действиями и достижения наилучших результатов, в то время как эфир ставится в качестве экономической основы. Участники получают экономические стимулы, что обеспечивает непрерывный поток ценных обучающих данных.
Текущие проблемы с качеством данных
Неверные данные обходятся организациям в десятки миллионов долларов в год. Банальные примеры включают в себя неправильно написанные имена клиентов, адреса клиентов с ошибками и неверные записи данных в целом. Какова бы ни была причина, неверные данные не могут быть использованы, поскольку они вызывают отклонения в любом анализе данных.
Когда данные импортируются из нескольких источников, не редкость сталкиваться с дублирующимися наборами. Используя розничную торговлю в качестве примера, вы можете импортировать списки клиентов из двух источников и обнаружить несколько людей, которые купили товары у обоих розничных продавцов. Дублирующиеся записи становятся проблемой, потому что вы хотите учитывать каждого клиента только один раз.
Когда данные объединяются из двух различных систем, могут возникать несоответствия в форматировании. Кросс-системные несоответствия могут вызвать серьезные проблемы с качеством данных, если они не будут быстро выявлены и исправлены.
Неполные данные и темные данные - это две дополнительные проблемы. Некоторые записи не содержат ключевой информации, такой как номера телефонов без кодов города или демографические данные без указания возраста. Темные или скрытые данные - это данные, которые собираются и хранятся, но не используются активно. IBM оценивает, что 90% всех сенсорных данных, собранных с устройств IoT, остается неиспользованными. Многие организации даже не осознают этот потерянный ресурс, который составляет более 50% расходов на хранение данных средней организации.
Человеческое понимание способствует улучшению
В качестве образовательного инструмента GAP мотивирует людей бросать вызов ограничениям моделей ИИ, что приводит к заметным улучшениям в производительности. Он поощряет обнаружение ошибок, ставя перед игроками задачу выявить неточности или несоответствия в наборах данных или результатах ИИ. Их разнообразный опыт может привнести разные перспективы, облегчая выявление предвзятостей, которые может упустить одна команда разработчиков.
Геймификация поощряет инновационное мышление через задачи или головоломки, разработанные для расширения пределов набора данных или модели. Игроки могут обнаружить новые случаи использования, выявить предвзятые выходные или входные данные и предложить более инклюзивные альтернативы. Это снижает системные предвзятости в данных и моделях, создавая более справедливую основу для всех видов приложений. Кроме того, участники будут отмечать ранее незамеченные аномалии данных, потому что они будут вознаграждены за выявление недостатков. Награды за выявление значительных недостатков теоретически могут быть выше, снижая риск неожиданных сбоев или уязвимостей в реальных приложениях.
По мере масштабирования технологий все больше людей могут одновременно играть в игры, что позволяет достичь экспоненциальных улучшений, поскольку огромное количество входных данных ускоряет выявление слабых мест.
Темная сторона креативности
Креативное решение проблем не обязательно должно быть для общественного блага. Награды будут основным мотивом для некоторых пользователей, что приведет к чрезмерному акценту на них. Двигаясь дальше, не исключено, что злонамеренные участники попытаются обмануть систему, и платформам придется разрабатывать механизмы для обнаружения и блокировки вредной деятельности. Примером может быть использование ИИ и статистических моделей для мониторинга паттернов поведения пользователей, отмечая аномалии, указывающие на спам или необычные паттерны подачи. Необычно высокие темпы подачи или повторяющиеся паттерны от одного пользователя могут быть отмечены для рассмотрения.
Рамки GAP могут присваивать участникам репутационные баллы на основе их истории вкладов. В идеале, новые пользователи будут иметь ограниченное влияние, пока не установят свою надежность, чтобы снизить риск первоначальной эксплуатации.
Наконец, будут пользователи, которые будут случайно отмечать проблемы. Платформам, использующим GAP, необходимо будет задействовать человеческих экспертов или ИИ, чтобы предотвратить отбор участников, которые маркируют точные и ценные данные.
Вывод качества данных в мейнстрим
Оставив риски в стороне, людям будет предложено выявлять неверно помеченные или неуместные данные в наборах данных ИИ, улучшая качество машинного обучения и моделей ИИ. Кроме того, игровые вклады могут повысить точность и полноту бесплатных, общедоступных наборов данных, таких как Википедия или OpenStreetMap. Выявление дезинформации в реальном времени приведет к более надежным репозиториям.
GAP также повлияет на вредный, предвзятый или неподобающий контент. Платформы, такие как Reddit или YouTube, могут использовать его для более быстрого выявления и удаления такого контента.
Отказ от ответственности: Эта статья предоставляется исключительно для информационных целей. Она не предлагается и не предназначена для использования в качестве юридического, налогового, инвестиционного, финансового или другого совета.