Технолог и генеральный директор Synesis One, Айзек Банг, предостерегает от «крайне опасного» сценария, при котором несколько технологических гигантов накапливают данные и ведут гонку в области искусственного интеллекта (ИИ). Он выступает за «демократизацию» власти ИИ, чтобы гарантировать, что окончательный «победитель» текущей гонки ИИ не стал бы промышленным гигантом.

По словам Банга, часть решения заключается в приоритете децентрализованного краудсорсинга данных над опорой на крупные компании, сосредоточенные на данных. Как объясняет Банг в своих письменных ответах для Bitcoin.com News, децентрализованный краудсорсинг данных позволяет компаниям избегать необходимости использования внутренних data scientists. Вместо этого они могут «предложить работу» общему пулу цифровых работников или специалистов для выполнения задач анализа данных.

Эта модель, по мнению Банга, идеальна для компаний, стремящихся к масштабированию, но не имеющих внутренних ресурсов. Помимо коммерческого преимущества, децентрализованный краудсорсинг данных также помогает бороться с проблемой предвзятости данных, с которой сталкиваются централизованные технологические гиганты.

Хотя правительства выражают обеспокоенность по поводу безопасности публичных интересов в связи с децентрализованным управлением данными, Банг тем не менее предостерегает против широких регулирований, которые могут в конечном итоге подавить инновации. Вместо этого он призывает регуляторов и законодателей изучить, как «децентрализованные источники данных могут и используются» перед принятием политик.

Дополнительные ответы Банга касаются конкуренции в индустрии ИИ и связанных с ней рисков, присущих использованию ИИ. Ниже приведены ответы генерального директора Synesis One на присланные вопросы.

Айзек Банг (ИБ): ИИ - это ключевая технология, открывающая четвертую промышленную революцию, и ее влияние гораздо шире, чем мы можем себе представить в настоящее время. Пара доминирующих игроков, накапливающих данные и ведущих гонку ИИ, представляет собой крайне опасную ситуацию во многих отношениях. Технология ИИ не только позволит компаниям стать более продуктивными и максимизировать свою прибыль, но и позволит правительствам повысить свои военные возможности как физически, так и цифровым способом. «Победитель» гонки ИИ станет доминирующей силой, и критически важно, чтобы мы начали действовать сейчас, чтобы демократизировать власть ИИ на благо всех.

ИБ: Традиционно компании собирают данные от своих пользователей/клиентов, используя предоставляемый продукт или услугу. Для использования собранных данных для ИИ компании нанимают data scientists и других специалистов для очистки и аннотирования данных. Традиционные методы сбора и подготовки данных эффективны для крупных компаний с множеством пользователей и большими бюджетами. Однако для небольших и средних компаний будет сложно масштабировать свои потребности в данных.

Децентрализованный краудсорсинг данных - это получение сырых данных или предварительная обработка данных через большую сеть цифровых работников, которые готовы и способны предоставить данные или выполнять работы по предварительной обработке. Компании или разработчики могут, не имея пользователей или внутренних data scientists, разместить вознаграждение за задачи данных от общего пула цифровых работников или специалистов для выполнения работы с данными. Это позволяет компаниям масштабироваться, не тратя огромные суммы денег и времени на найм внутренних сотрудников.

ИБ: Люди способны выполнять логическое рассуждение. ИИ, использующий машинное обучение сегодня, использует статистические вычисления для распознавания паттернов, без какого-либо логического рассуждения. По мере улучшения моделей ИИ потребность в данных более высокого качества и специфических для определенной области становится все более ценной. Например, общий LLM не подходит для использования в медицинской обстановке. LLM можно настроить для конкретной области медицины, но для этого потребуются люди с экспертными знаниями в этой области. Эта концепция применима не только к общим LLM, но и к любым другим приложениям ИИ с более специфическими случаями использования.

ИБ: Это просто - чем разнообразнее пул поставщиков данных и аннотаторов данных, тем более разнообразными и репрезентативными будут данные. В децентрализованной сети краудсорсинга поставщики сырых данных и/или аннотаторы данных не происходят из одной платформы, компании, сети или группы. Это снижает предвзятость данных, с которой может столкнуться централизованная компания.

ИБ: Одним из самых практичных случаев использования является сфера естественного языка. Сегодня бизнесы глобальны, и это требует от компаний быть компетентными в предоставлении одинакового качества услуг и продуктов на всех языках тех рынков, на которых они работают. Однако многие из лучших LLM сегодня в основном основаны на английском языке. Мы видели, как компании полагаются на краудсорсинг для разных языков и диалектов, не только для потребностей ИИ, таких как локализация их продуктов.

ИБ: Поскольку все транзакции данных записываются в блокчейн, прозрачности должно быть достаточно для решения любых вопросов надзора и контроля. Если регуляторы действительно обеспокоены безопасностью и охраной публичных интересов, должно быть больше регулирования для управления централизованными организациями и использования данных. Вместо того чтобы спешить с выводами от страха, законодатели должны сначала узнать о том, как децентрализованные источники данных могут и используются. Если есть злонамеренные намерения или использования, тогда им следует вмешаться, вместо того чтобы вводить общие правила, которые вредят инновациям.

Technologist: Decentralized Data Crowdsourcing Is Key to Countering Big Tech's Dominance

Генеральный директор Synesis One, Айзек Банг

ИБ: В данный момент мы не наблюдали никаких злоупотреблений платформой. Трудно действительно увидеть какие-либо потенциальные риски, которые злоупотребление могло бы повлиять на уровень национальной безопасности. На уровне хранения данных Synesis может работать как с распределенными решениями для хранения (например, IPFS, Arweave), так и с централизованными решениями (например, AWS), так что это зависит от клиента. На уровне аннотирования данных все проходят рецензирование коллегами, и даже рецензии могут быть специально оптимизированы клиентом для предотвращения злонамеренного поведения.

ИБ: В Synesis мы стремимся стать крупнейшей в мире сетью цифровых работников, состоящей из специалистов и экспертов в узких областях, которые помогают в любых потребностях данных ИИ со стороны компаний. Мы уже наблюдаем рост спроса на экспертные знания для обучения ИИ (например, тонкая настройка, RLHF, сырые данные), так как ИИ используется для все большего числа случаев. Мы хотим дать возможность любому предприятию любого размера в любой области масштабировать свои потребности в данных ИИ, воспользовавшись нашей платформой и сетью цифровых экспертов по всему миру. Это поможет не только компаниям масштабироваться, но и откроет новые возможности для людей по всему миру зарабатывать деньги, предоставляя свои знания и навыки онлайн.

ИБ: Удивительно, но есть много болевых точек, которые основные компании не решили для своих работников. Одна из них касается платежей, так как трансакции через границу часто дорогие и медленные. Другой основной болевой момент - это отсутствие прозрачности. Это огромное преимущество для нас, так как наша система выплат не требует минимального баланса, не имеет сборов и является мгновенной. Мы привлекли много разочарованных цифровых работников, которые пользовались услугами крупных игроков в сфере аннотирования данных web2. Поскольку мы привлекаем все больше и больше цифровых работников из разных слоев общества и развиваем сеть, наши решения становятся все более привлекательными для потенциальных клиентов.

ИБ: Один из самых больших рисков, с которыми сталкиваются наши пользователи, - это несоответствие знаний и/или навыков, необходимых для определенных кампаний. Некоторые из кампаний данных являются техническими, и если пользователь не справляется, пользователь не будет хорошо вознагражден. Все, включая репутацию пользователей, основывается на точности работы, предоставляемой пользователями. Некоторые задачи требуют технических навыков/знаний или имеют крутые кривые обучения. Поэтому любой новый пользователь на платформе должен ожидать, что ему нужно будет потратить некоторое время на изучение того, как выполнять некоторые из кампаний/задач данных. Мы постоянно обновляем и создаем новые образовательные и тренировочные материалы для новых и существующих пользователей, чтобы помочь им работать лучше. Это выгодно всем, если пользователь(и) тратят время на чтение и обучение из материалов.