rounded

Автор: IOSG Ventures

 

ТЛ;ДР

 

Данные так же важны для искусственного интеллекта, как бензин для автомобилей. В эпоху искусственного интеллекта данные содержат огромную ценность, но в настоящее время эта ценность не используется прозрачно и ответственно, поскольку многие крупные технологические компании часто получают данные без согласия пользователя, перехватывая таким образом большое количество потенциальной ценности.

 

  • Проблемы, с которыми в настоящее время сталкиваются данные искусственного интеллекта, включают непрозрачный сбор данных, неотслеживаемые источники, отсутствие разумной компенсации владельцам данных, риски конфиденциальности, трудности со сбором, нехватку высококачественных данных, отсутствие конкретных данных и недостаточное предоставление данных в реальном времени. .

  • Web 3 и криптовалютные технологии призваны повысить безопасность данных ИИ, интерпретируемость моделей и контроль качества данных посредством токенизированных стимулов, монетизации данных, защиты конфиденциальности и других средств, чтобы гарантировать, что экономические интересы данных принадлежат истинному владельцу. что данные используются этично.

  • На стыке искусственного интеллекта и криптовалюты компании укрепляют сотрудничество посредством вертикальной экспансии и создания стратегических альянсов, что особенно распространено на ранних этапах развития отрасли. Такое сотрудничество имеет решающее значение для широкого внедрения криптографических решений искусственного интеллекта.

  • В будущем искусственный интеллект и технология блокчейна будут развиваться по «модульному» принципу. Решения для обработки данных, основанные на технологии блокчейна, станут ключом к продвижению развития общего искусственного интеллекта (AGI) на более высокий уровень.

 

1. Данные: «топливо» ИИ

 

На прошлой неделе запуск GPT-4o от OpenAI и Project Astra от Google еще раз подлили масла в огонь повального увлечения искусственным интеллектом. Помощник по искусственному интеллекту с женским голосом, изображенный в фантастическом фильме «Она», почти стал реальностью!

 

Бум искусственного интеллекта в последние годы стал важным двигателем инноваций во многих отраслях. Технология блокчейн не сильно отстает, о чем свидетельствуют высокие показатели токенов искусственного интеллекта в этом году: их рост на 98% занимает четвертое место среди всех категорий токенов.

 

人工智能领域

 

Последние достижения в области искусственного интеллекта во многом обусловлены прогрессом в разработке различных моделей больших языков (LLM).

 

Производительность больших языковых моделей (LLM) в первую очередь определяется тремя ключевыми факторами:

 

  • Модель

  • данные

  • Рассчитать способность

 

人工智能领域Источник: IOSG Ventures

 

Ядром искусственного интеллекта является базовая модель, которая его поддерживает. Эти модели похожи на автомобили: существует много разных марок и типов (например, модели с открытым или закрытым исходным кодом), и каждая модель имеет свои уникальные преимущества: как и автомобили, некоторые из них быстрее, а некоторые лучше управляются. В целом, все они значительно облегчают нашу повседневную жизнь.

 

人工智能领域

Источник: Майкл Демпси

 

Точно так же, как производительность модели искусственного интеллекта определяет уровень интеллекта ИИ, интенсивность вычислений и качество данных являются ключевыми движущими силами разработки моделей ИИ. Продолжая аналогию с автомобилем, вычислительная мощность подобна двигателю автомобиля, а данные — это топливо, необходимое для запуска автомобиля. Вместе они образуют базовые элементы, необходимые для достижения искусственного интеллекта, и служат двумя важными факторами затрат в структуре затрат многих компаний, занимающихся искусственным интеллектом. Согласно отчету LXT, 59% бюджета ИИ тратится на данные. Таким образом, большие резервы данных фактически стали рвом для многих компаний, занимающихся искусственным интеллектом.

 

Если вычислительная мощность является двигателем больших языковых моделей (LLM), то данные являются топливом для этих моделей.

 

В среде с неограниченными вычислительными ресурсами, если текущий самый большой набор данных можно расширить в 100 раз (с 1 триллиона токенов до 100 триллионов токенов), ошибка прогнозирования модели будет значительно уменьшена.

 

人工智能领域Источник: dynomight.net

 

Поскольку точность прогнозов искусственного интеллекта повышается с увеличением объема обучающих данных, люди все чаще обращают внимание на качество данных, а не на их количество. Анализ 2022 года показывает, что количество новых высококачественных текстовых данных может сократиться в течение следующих нескольких лет. Поэтому качество данных станет особенно важным.

 

«Каковы основные факторы, препятствующие популяризации искусственного интеллекта? Две проблемы: нехватка данных и талантов», — Эндрю Нг, бывший директор лаборатории искусственного интеллекта Стэнфордского университета.

 

2. Узкое место искусственного интеллекта в данных

 

人工智能领域

Источник: <Towards Data Science> Гади Сингер

 

Чтобы построить желанные мощные модели большого языка (LLM), нам необходимо иметь ввод данных на всех этапах предварительного обучения, обучения, точной настройки и вывода.

 

В настоящее время большие языковые модели (LLM) обучаются с использованием общедоступных данных, которые преобразуются в токены (токены — это наименьшая единица при сегментации и кодировании входного текста). Эти данные охватывают значительную часть всех опубликованных книг, а также контент всего Интернета, отсюда и название «большая языковая модель». Поскольку новая общедоступная информация создается каждый день, это привело к соответствующему увеличению количества параметров в последних моделях.

 

По иронии судьбы, многие учебные корпуса, созданные на основе общедоступных веб-данных, контролируются крупными компаниями, занимающимися искусственным интеллектом, сбор данных которых находится в большой секретности.

 

Большие языковые модели, такие как GPT-3, очень расплывчаты в отношении своих общедоступных источников данных и процессов сбора. В документе GPT-3 Books1 и Books2 (два основных источника) кратко описываются как «два книжных корпуса, размещенных в Интернете».

 

Поэтому, независимо от модели с открытым или закрытым исходным кодом, у нас нет возможности проверить точный источник данных, используемых при обучении модели ИИ. Происхождение данных в моделях ИИ — это полностью черный ящик. Это означает, что пользователи не могут знать, собирается ли их личная информация и защищены ли данные. Если есть проблема с моделью ИИ, неясное происхождение данных также затрудняет определение ответственности за проблемные данные, а пользователям также трудно понять основу для принятия решений по модели.

 

Вот почему в сфере искусственного интеллекта доминируют крупные технологические гиганты, поскольку они контролируют данные, генерируемые пользователями. Google может видеть поисковые запросы отдельных пользователей, Meta может видеть контент, которым они делятся, а Amazon может видеть их покупательское поведение. Это дает им всестороннее представление об активности пользователей на соответствующих рынках.

 

Некоторые технологические гиганты даже рассматривают генерируемые пользователями данные как свою частную собственность и продают их с высокой прибылью, при этом создатели данных не получают ничего. Недавно Reddit заключил с Google сделку на 60 миллионов долларов на обучение данных. Первоначальный владелец данных ничего не может сделать, чтобы предотвратить это или предотвратить утечку своей личной информации. Вам также может быть интересно: поскольку веб-данные являются общедоступными, могу ли я все просканировать самостоятельно? Теоретически это возможно, мир полон данных. Согласно отчету исследовательской компании IDC, в 2018 году во всем мире было сгенерировано 33 зеттабайта данных, чего достаточно для заполнения 7 триллионов DVD-дисков.

 

К сожалению, чтобы предотвратить DDOS-атаки, веб-сайты часто вводят ограничения на скорость крупномасштабного сканирования веб-страниц с использованием центров обработки данных, таких как AWS, или устанавливают защитные меры, такие как приманки. Даже если нам удастся обойти меры безопасности веб-сайта и успешно очистить данные, шаг аннотации данных все равно неизбежен. По сравнению с парсингом веб-страниц аннотирование данных — более трудоемкий и ручной процесс.

 

Хотя существуют некоммерческие открытые репозитории, такие как Common Crawl и решения для аннотаций Web 2, такие как Scale AI, качество их данных и меток данных не всегда гарантируется, что часто приводит к предвзятым моделям, которые воспроизводят стереотипы и искажают впечатление. факты.

 

Если получить реальные данные слишком сложно, другой вариант — составить некоторые данные самостоятельно. Для точной настройки модели визуальной идентичности своих магазинов Go Amazon использует графическое программное обеспечение для создания виртуальных покупателей. Эти искусственные люди используются для моделирования некоторых потенциальных экстремальных ситуаций, с которыми потребители могут столкнуться при совершении покупок без продавцов. Эти экстремальные ситуации на самом деле не возникали до запуска магазина Go, но могут существовать после фактического запуска магазина Go. Однако у использования синтетических данных для обучения ИИ есть свои преимущества и недостатки. Основным преимуществом синтетических данных являются сценарии масштабируемости, такие как моделирование сценариев беспилотных покупок в магазинах Amazon Go. Во-вторых, синтетические данные можно очистить, чтобы удалить любую потенциальную личную информацию или непреднамеренную предвзятость. Очевидным недостатком, конечно, является то, что синтетическим данным может не хватать сложности и нюансов реального мира, что не позволяет модели хорошо работать в реальных сценариях.

 

Своевременность данных также является фактором, который необходимо учитывать. Во многих случаях собранные данные могут быть разовыми и не отражать постоянно меняющийся мир. Это проблема для моделей ИИ, поскольку они подвержены «дрейфу», то есть их точность постепенно снижается по мере изменения того, как устроен мир. Например, во время эпидемии COVID-19 некоторые модели распознавания лиц, привыкшие беспрепятственно распознавать лица, столкнулись с трудностями в распознавании во время эпидемии, когда люди обычно носили маски.

 

Подводя итог узким местам данных искусственного интеллекта:

 

  • Отсутствие прозрачности в сборе данных

  • Источник данных в модели ИИ невозможно отследить

  • Владельцы данных не получают справедливого вознаграждения

  • Конфиденциальность пользовательских данных под угрозой

  • Хотя данных много, их сложно собрать.

  • Качественных данных мало

  • Конкретные необходимые данные могут быть недоступны.

  • Отсутствие предоставления данных в реальном времени.

 

К счастью, благодаря блокчейну у нас есть хорошее решение.

 

3. Блокчейн расширяет возможности данных ИИ

 

Очевидно, что ИИ очень хорошо интерпретирует данные и рассуждает о них, и как только у вас есть данные, он начинает работать. В технологии блокчейна механизм стимулирования токенов играет выдающуюся роль в крупномасштабном сборе данных краудфандинга и совместном использовании ресурсов, а технология криптографии в блокчейне продемонстрировала чрезвычайно высокие возможности в обеспечении безопасности данных.

 

Поэтому, чтобы решить проблему с данными искусственного интеллекта, в последнее время появилось большое количество проектов зашифрованных данных. Эти проекты охватывают обеспечение качества данных, аннотирование и шифрование данных, упрощение сбора данных, поддержание качества данных, защиту конфиденциальности данных и повышение проверяемости результатов, полученных с помощью ИИ.

 

人工智能领域Источник: IOSG Ventures.

 

3.1 Хранение данных

 

По мере увеличения объема данных структурированные данные, необходимые для обучения ИИ, необходимо хранить в библиотеке для готового использования. Децентрализованные хранилища данных, такие как Arweave, Filecoin и STORJ, решают проблему единой точки отказа централизованного хранилища. В феврале этого года Arweave запустила Arweave AO, который предоставляет надежные услуги совместной обработки данных без ограничений по масштабу. AO способен хранить большие объемы данных, таких как модели искусственного интеллекта, и позволяет запускать несколько параллельных процессов в вычислительном блоке, взаимодействуя с другими блоками посредством открытой передачи сообщений, не полагаясь на централизованное пространство памяти.

 

3.2 Набор инструментов для инфраструктуры данных

 

Sahara создает блокчейн L1 для частных лиц и предприятий, позволяющий свободно и безопасно развертывать персонализированный автономный ИИ. Он предоставляет всю инфраструктуру, связанную с данными, включая созданные сообществом базы знаний, наборы обучающих данных, хранилище данных, атрибуцию данных и наборы инструментов для данных (сбор, аннотирование, обеспечение качества и т. д.).

 

3.3 Данные общедоступной сети

 

Возьмем протокол Грасса в качестве яркого примера. Grass — это протокол веб-сканера. Он состоит из сети из 2 миллионов устройств, собирающих интернет-данные в режиме реального времени. Он преобразует данные в структурированный векторный формат для использования компаниями, занимающимися искусственным интеллектом.

 

Чтобы внести свой вклад в сеть, пользователи просто устанавливают расширение браузера на своем домашнем сетевом устройстве, которое затем использует пропускную способность Интернета пользователя для сканирования данных с веб-сайтов. В настоящее время пользователи награждаются Grass Points, а в будущем они будут фиксироваться в токенах, получая реальную выгоду от предоставления данных.

 

В сети Grass пользователи просто обмениваются своей неограниченной локальной пропускной способностью через расширения и становятся распределенными узлами в сети Grass, тем самым обеспечивая крупномасштабный сбор данных из общедоступной сети. Поскольку это распределенный узел, и каждый узел использует жилую широкополосную сеть (резидентскую сеть) вместо централизованной сети центра обработки данных для отправки запросов на доступ к веб-сайту для сканирования данных, пользователи менее восприимчивы к таким средствам защиты, как ограничение скорости веб-сайта и меры-приманки. .

 

Кроме того, узлы Grass не очищают данные за стенами входа в систему, что позволяет избежать юридических проблем, связанных с доступом к личным данным. Все собранные данные поступают из общедоступного Интернета, что повышает законность и конфиденциальность процесса. Непрерывный сбор сетевых данных также означает, что данные могут предоставляться в режиме реального времени, предотвращая «дрейф» в моделях искусственного интеллекта.

 

3.4 Отраслевые данные

 

Простого сбора общедоступных данных в Интернете часто бывает недостаточно. Для дальнейшего обучения моделей LLM, которые могут давать хорошие прогнозы, нам необходимо предоставить им больше данных, специфичных для предметной области, на этапе обучения. Эти контекстные данные часто поступают в форме частных данных и/или данных блокчейна.

 

Каждый день генерируется большое количество личных данных. Крупным централизованным компаниям нелегко использовать эти данные. Например, Google и Meta были оштрафованы на крупные штрафы за нарушение правил GDPR из-за неправильной обработки личных данных. Однако обучение исключительно на общедоступных данных ограничивает эффективность моделей LLM.

 

К счастью, символические стимулы способствуют демократизации доступа к высококачественным данным обучения.

 

Типичным примером является протокол Ocean. Он предназначен для облегчения обмена и монетизации данных между предприятиями и частными лицами, гарантируя при этом, что данные не покидают поставщика, где они хранятся. Все предоставленные данные токенизируются в токены данных, а поставщики токенов данных награждаются токенами OCEAN.

 

3.5 Очистка данных и аннотирование

 

Эта логика краудсорсинга, стимулирующая использование токенов, также применима к очистке и аннотированию данных. В эпоху Web 2 очистка и аннотирование данных являются чрезвычайно трудоемкими задачами.

 

«В Cognilytica говорят, что в типичном проекте искусственного интеллекта различные задачи по обработке данных занимают около 80% времени. Обучение системы машинного обучения требует большого количества тщательно маркированных образцов, и эти маркировки обычно приходится заполнять вручную».

 

В эпоху Web 3 мы можем легко поручить эти задачи обществу, предоставив X для получения опыта Gamfi. Над этим активно работают такие проекты, как Sapien и PublicAI. Тем более, что Grass собирается запустить собственный сервис аннотирования данных, конкуренция станет все более жесткой.

 

3.6 Данные блокчейна

 

Чтобы обогатить модели ИИ данными, специфичными для блокчейна, индексаторы и децентрализованные решения для хранилищ данных, такие как Coвалент и Пространство и время, предоставляют разработчикам машинного обучения высококачественный блокчейн через унифицированные API и данные SDK.

 

3.7 Конфиденциальность и возможность проверки данных

 

Основной проблемой во время обучения модели и вывода является обеспечение конфиденциальности используемых данных. Эта проблема включает в себя проблемы с вводом данных, передачей данных о весе и выводом данных.

 

Несколько новых криптографических решений уже решают эту проблему, и Bagel предоставляет хорошую сравнительную таблицу:

 

人工智能领域

Источник: Бублик Бублик

 

Федеративное обучение (FL) и полностью гомоморфное шифрование (FHE) являются хорошими решениями для защиты конфиденциальности данных во время обучения.

 

Flock.io — известный проект, посвященный федеративному обучению (FL). Это обеспечивает конфиденциальность, поскольку локальные данные на локальном сервере никогда не передаются, и все вычисления выполняются локально. Таким образом, это среда распределенного машинного обучения. Хотя федеративное обучение обеспечивает конфиденциальность данных обучения, недавние исследования показали, что федеративное обучение может подвергаться риску утечки данных и что глобальная модель не является частной, поскольку она используется всеми локальными серверами. Следовательно, веса и градиенты агрегации на каждом этапе также являются общими.

 

Полностью гомоморфное шифрование (FHE) позволяет выполнять вычисления над зашифрованными данными. Поскольку все зашифровано, конфиденциальность обучающих данных и весов моделей также защищена. В результате FHE становится бесценным в таких случаях использования, как здравоохранение или финансы, поскольку данные остаются в безопасности во время выполнения расчетов. К известным проектам FHE относятся Zama, Bagel, Fhenix, Inco, Sunscreen и Privasea и др. Недостатками FHE являются скорость и проверяемость, поскольку пользователи должны быть уверены в правильности зашифрованных данных.

 

Самым большим преимуществом ZKML является его способность проверять результаты вычислений, сохраняя при этом веса модели конфиденциальными, что делает его особенно полезным для вывода моделей. Он генерирует доказательства с нулевым разглашением, которые гарантируют правильное выполнение обучения или вывода без какого-либо предположения о доверии к владельцу данных. Проекты, работающие над ZKML, включают Modulus, Giza и EZKL.

 

Стоит отметить, что хотя федеративное обучение (FL) и полностью гомоморфное шифрование (FHE) чаще используются в целях обучения, а машинное обучение с нулевым разглашением (ZKML) обычно используется для вывода, их использование на самом деле гибко и может быть использовано Любая техника, используемая при обучении или выводе.

 

3.8 RAG (улучшенная генерация извлечения)

 

На этапе вывода ИИ опасной ловушкой является «иллюзия модели». Это относится к тому факту, что, хотя текст, созданный с помощью большой языковой модели (LLM), является связным, он содержит неправильную или сфабрикованную информацию, не соответствующую фактам или потребностям пользователя.

 

Это явление обычно вызвано тем, что модель не подвергается воздействию внешних данных знаний во время обучения или точной настройки. Распространенным решением является предоставление контекстных данных для повторной настройки LLM. Однако этот процесс может занять много времени и часто требует переобучения модели. Поэтому было придумано более простое решение — RAG (Retrival Augmentation Generation).

 

RAG (Retrival Augmented Generation) может эффективно помочь разработчикам, поскольку им не нужно постоянно обучать свои модели новым данным, тем самым снижая вычислительные затраты. RAG позволяет любой модели ИИ (например, LLM) извлекать соответствующую информацию из внешних источников знаний (даже если этой информации нет в ее обучающих данных) и генерировать более точные и контекстуальные ответы, тем самым уменьшая создание дезинформации.

 

Данные внешних знаний хранятся в векторной базе данных в виде векторных вложений. Основным преимуществом RAG является то, что он гарантирует, что пользователи имеют доступ к источнику данных модели и могут проверить точность полученных результатов.

 

Исследования показывают, что модели LLM, использующие RAG, значительно превосходят ту же модель без RAG.

 

人工智能领域

 

Инновационное решение Web 3, имеющее важное применение в RAG, — это Dria. Dria — это решение, которое работает на уровне 2 Ethereum (L2) в виде векторной базы данных (хранится на Arweave) и предоставляет рынок для внешних наборов данных знаний, ориентированный на использование токенов.

 

После наблюдения за стеком ИИ и зашифрованных данных становится ясно, что проекты Web 3 в основном увеличивают ценность данных в ИИ следующими способами:

 

  • Сбор данных

  • Нет Интернета 3: невозможно собирать данные в большом масштабе, приходится полагаться на сторонние API, платить высокие комиссии или использовать только некоммерческие данные.

  • Есть Web 3: Обеспечьте крупномасштабные, глобально доступные коллекции для удовлетворения конкретных потребностей посредством краудсорсинга данных на основе токенов.

  • монетизация данных

  • Нет Интернета 3: пользователи не получают никакой пользы от своих данных.

  • Существует Web 3: данные токенизируются и монетизируются, возвращая ценность данных владельцу данных.

  • Улучшение конфиденциальности

  • Нет Интернета 3: обмен данными может вызвать проблемы конфиденциальности во время разработки модели ИИ.

  • Благодаря Web 3 владельцы данных сохраняют контроль над своими личными и личными данными, которые не утекают во время обучения, точной настройки или вывода.

  • Объяснимый ИИ

  • Без Интернета 3: невозможность управлять и проверять происхождение наборов данных и результатов моделирования.

  • Существует Web 3: помогает понять источник данных, гарантирует, что данные юридически разрешены, и позволяет пользователям уверенно реализовывать модели и проверять выходные данные моделей.

  • Качество данных

  • Без Web 3: качество собранных данных не может быть гарантировано, поэтому требуется собственная группа проверки данных или привлечение сторонней организации, что приводит к огромным эксплуатационным расходам.

  • Существует Web 3: проверка данных посредством вознаграждения в виде токенов; верификаторы, которые не соблюдают стандарты качества данных, будут подвергаться штрафам за сокращение токенов.

 

Как подчеркивает Виталик в своей статье AI x Crypto:

 

  • ИИ обеспечивает высоко «централизованный» интеллект

  • Блокчейн обеспечивает высокую степень «децентрализации» и недоверия.

  • AI x Crypto = недоверие + интеллект, который улучшает ИИ с «не может творить зло» до «не может творить зло».

 

4. Тенденции и перспективы

 

По мере усиления конкуренции в области AI x Crypto важной тенденцией является увеличение частоты сотрудничества и интеграции между проектами для расширения доли нового рынка AI x Crypto. Вот некоторые примеры:

 

4.1 Сотрудничество между добывающими и перерабатывающими отраслями: Кайто управляет подсетью на Bittensor

 

Вопрос: Как обеспечить надежные поисковые услуги в децентрализованной среде?

 

Решение: Kaito — это поисковая платформа искусственного интеллекта с поддержкой Web3, которая создает уровень инфраструктуры для экосистемы Bittensor. В марте этого года Kaito выпустила подсеть под названием OpenKaito. OpenKaito — это децентрализованный уровень индексации поиска, разработанный с прозрачным поисковым ранжированием и масштабируемостью. В других подсетях можно запрашивать информацию, специфичную для домена, а майнеры стимулируются предоставлением ранжированных списков и использованием вычислительной мощности для улучшения сбора данных, индексации, ранжирования и графов знаний. Чтобы предотвратить подделку результатов, валидаторы проверяют URL-адрес результатов поиска, чтобы убедиться, что они соответствуют исходному источнику. Майнеры вознаграждаются в зависимости от достоверности, актуальности, своевременности и разнообразия их результатов.

 

4.2 Сотрудничество между конкурентами: интеграция алгоритма FHE Privasea и Zama

 

Вопрос: Как можно повысить конфиденциальность и безопасность операций ИИ в среде блокчейна?

 

Решение: Privasea и Zama объединили усилия, чтобы использовать технологии друг друга. По лицензии Zama Privasea теперь может использовать библиотеку TFHE-rs Zama в своей сети для повышения конфиденциальности и безопасности операций ИИ. Privasea планирует создать частные приложения искусственного интеллекта на основе блокчейна на основе Concrete ML от Zama. Эти инструменты будут использоваться для таких задач, как распознавание лиц, анализ медицинских изображений и обработка финансовых данных.

 

4.3 Интеграция всей вертикальной цепочки поставок: слияние токенов SingularityNet, Fetch.AI и Ocean Protocol

 

Вопрос: Как повысить рыночную конкурентоспособность и синергию проекта за счет слияния токенов?

 

Решение: 27 марта 2024 года SingularityNet, Fetch.AI и Ocean Protocol объявили о слиянии токенов на сумму 7,5 миллиардов долларов. Объединенный токен Fetch.AI (FET) станет токеном ASI с общим объемом 2,6 миллиарда. Токены SingularityNet (AGIX) и Ocean (OCEAN) конвертируются в токены ASI в соотношении примерно 0,43:1. Объединенный токен называется ASI, что означает Альянс искусственного сверхинтеллекта. Официальный запуск токена ASI запланирован на 24 мая.

 

4.4 Будущее искусственного интеллекта и технологий шифрования

 

Некоторые полагают, что конкурентная среда ИИ может в конечном итоге вернуться на знакомую территорию динамики рынка в значительной степени дуополии, как в случае с Android и iOS, где доминируют одна доминирующая модель с открытым исходным кодом и одна доминирующая модель с закрытым исходным кодом.

 

Независимо от споров о моделях с открытым исходным кодом и моделях с закрытым исходным кодом, я думаю, что будущее ИИ будет миром многомодельных выводов.

 

Конкретная реализация многомодельных рассуждений происходит на уровне агента ИИ, и текущей тенденцией является сотрудничество между агентами ИИ. На прошлой неделе ChaimML, протокол AI-прокси для Web 3, объявил о завершении начального раунда расширения стоимостью 6,2 миллиона долларов для запуска своего революционного базового уровня прокси-сервера Theoriq. Основная идея заключается в том, чтобы позволить агентам ИИ динамически идентифицировать и автономно сотрудничать с другими агентами для решения сложных сценариев использования. Тестовую сеть Theoriq планируется запустить этим летом, а более подробная информация будет раскрыта на конференции Consensus 2024.

 

Другой реализацией многомодельного вывода является архитектура «Mix of Experts» (MoE). Он состоит из набора более мелких узкоспециализированных экспертных моделей и позволяет этим моделям работать вместе для решения общей проблемы. Предположительно, GPT-4 уже использует этот подход. Этот подход легко адаптируется, обеспечивая модульные и персонализированные конфигурации.

 

Интересно, что переход к агентам искусственного интеллекта и большим языковым моделям (LLM) аналогичен тому, что происходит в пространстве блокчейнов, где мы переходим от монолитных блокчейнов к модульным блокчейнам:

 

Единый блокчейн -> Модульный блокчейн

Единый агент ИИ -> Модульный и составной базовый уровень агента ИИ

Единая большая языковая модель -> гибрид экспертной модели

 

В процессе цепочки мыслей (CoT), через который проходят эти модели гибридной экспертной модели (MoE), выходные данные одной экспертной модели используются в качестве входных данных для следующей экспертной модели.

 

Ошибки одной модели могут быть смягчены сильными сторонами другой, что приведет к более надежным результатам. Однако в ходе этой цепочки рассуждений количество ошибок также может увеличиваться.

 

Это представляет угрозу, поскольку большие языковые модели (LLM) могут использоваться как в хороших, так и в плохих целях, как палка о двух концах.

 

Журналы SSL-сертификатов OpenAI показывают развитие «search.chatgpt.com» и потенциальный запуск поискового продукта. Это говорит о том, что все больше проектов крупномасштабных языковых моделей (LLM) могут запускать свои собственные продукты для поисковых систем, чтобы конкурировать с такими известными платформами, как Google и Perplexity.

 

Учитывая, что все больше и больше людей теперь безоговорочно верят всему, что говорят большие языковые модели (LLM), злоумышленники имеют неограниченные стимулы начать загрязнять выходные данные LLM, вводя ложные знания в модели ИИ в качестве обучающих данных. Если злоумышленник вносит в обучающие данные погрешность всего в 1–2 %, цепочка моделей может распространять эти погрешности и существенно искажать результаты.

 

Было бы очень страшно, если бы злоумышленники влияли на принятие решений людьми, загрязняя данные, вводимые в большие языковые модели (LLM), особенно во время крупных событий, таких как предстоящие президентские выборы. Эта манипуляция может даже исказить результаты голосования, если люди столкнутся с ложной или сфабрикованной информацией, распространяемой LLM.

 

На выборах 2016 и 2020 годов было видно влияние дезинформации и поляризованных политических взглядов, распространявшихся в Твиттере, а также связанной с этим критики!

 

К счастью, по мере того, как мы приближаемся к миру общего искусственного интеллекта (AGI), Web 3.0 и технология блокчейн предлагают панацею для обеспечения целостности, качества и конфиденциальности данных.

 

Будущее искусственного интеллекта выглядит очень светлым, и мы с нетерпением ждем возможности увидеть, как инновации в области зашифрованных данных будут продолжать расширять возможности искусственного интеллекта.