У ИИ есть три краеугольных камня: вычислительная мощность, данные и алгоритмы.
Среди этих трех важность вычислительной мощности является наиболее интуитивно понятной. Поэтому рыночная стоимость Nvidia, которая продает лопаты, когда-то превзошла Microsoft и Apple и стала самой дорогой компанией в мире. Однако, как подчеркнул в подкасте основатель Scale AI Алекс Ванг, данные заменяют вычислительную мощность и становятся самым большим препятствием на пути повышения производительности моделей ИИ.
Жажда ИИ к данным ненасытна, но доступные ресурсы данных в Интернете практически исчерпаны. Чтобы еще больше улучшить производительность модели, мы должны полагаться на более качественные данные. Несмотря на то, что внутри предприятия имеется большой объем ценных данных, эти неструктурированные данные можно использовать для обучения ИИ только в том случае, если они тщательно аннотированы. Аннотирование данных — это ресурсоемкая задача, которая уже давно считается самой сложной и самой скромной частью отраслевой цепочки искусственного интеллекта.
Однако именно благодаря своей стратегии стать первым, кто выйдет в область аннотирования данных, компания Scale AI получила оценку в 13,8 миллиардов долларов США в своем последнем раунде финансирования в мае этого года, превзойдя многие известные крупные модельные компании. Это достижение, несомненно, развеивает предубеждение о том, что «аннотирование данных — это просто тяжелая работа».
Как и многие проекты децентрализованных вычислительных мощностей, бросающие вызов NVIDIA, Sapien AI, проект зашифрованного искусственного интеллекта, который только что завершил стартовый раунд стоимостью 5 миллионов долларов в апреле этого года, также пытается бросить вызов Scale AI. Компания не только выйдет на рынок «длинного хвоста» за счет децентрализации, но и планирует построить крупнейшую в мире сеть ручного аннотирования данных.
Недавно BlockBeats взял интервью у Тревора Коверко, соучредителя и главного операционного директора Sapien AI. Будучи соучредителем множества успешных проектов, таких как Polymath, Polymesh и Tokens.com, Тревор накопил богатый предпринимательский опыт до основания Sapien AI. В интервью он подробно рассказал о своем пути к созданию Sapien AI, своем уникальном понимании того, как Sapien AI и Scale AI участвуют в несогласованных стратегиях конкуренции, а также о том, как черпать вдохновение из игр с блокчейном для разработки бизнес-механизмов.
Веб-сайт проекта Sapien AI: game.sapien.io
Торонто, благодатная почва для инноваций, является детищем сообществ криптовалют и искусственного интеллекта.
BlockBeats: Я видел в твоем LinkedIn, что ты играл за «Нью-Йорк Рейнджерс» в НХЛ. Как вы, бывший профессиональный хоккеист, перешли в криптоиндустрию?
Тревор: За свою карьеру я пробовал много разных ролей. Хоккей был моей первой работой. В Канаде хоккей с шайбой является настолько важной частью нашей культуры, что если ты в детстве не играл в хоккей, на тебя смотрели почти как на изгоя. Так что это была большая часть моего взросления. Я узнал много нового о командной работе и соревнованиях высокого уровня, опыт, который до сих пор влияет на меня.
Когда моя хоккейная карьера закончилась и я занялся бизнесом, я действительно некоторое время провел в Азии. Я живу в Китае, а именно в Даляне, городе на северо-востоке Китая. Моя спортивная карьера и мой опыт в Китае — две очень важные части, которые повлияли на мой рост.
Я вырос в криптоэкосистеме Торонто. Я был вовлечен в сообщество Биткойн очень рано, еще до запуска Ethereum. Мы много ходили на вечеринки, тусовались с друзьями и познакомились с Виталиком, который в то время был всего лишь редактором журнала Bitcoin Magazine.
Позже, когда Виталик опубликовал официальный документ, сообщество Биткойн постепенно превратилось в сообщество Эфириума. Это было время пылающей страсти. Я запустил свой собственный RWA-проект Polymath в 2017-2018 годах. На тот момент в этой области даже не было четкой классификации. Мы называли это «токены безопасности». Это мой первый крупный проект в криптовалюте. Мы работали над каждым аспектом этого проекта: от сбора средств до запуска приложения на Ethereum.
В конце концов мы также создали собственный блокчейн уровня 1, что оказалось еще более сложной задачей. К счастью, у нас есть очень умные люди, такие как Чарльз Хоскинсон, которые работают архитекторами протоколов. Сегодня этот блокчейн превратился в независимый бренд под названием Polymesh. Это одна из первых и крупнейших сетей RWA, относящаяся к уровню 1. Теперь я просто участник сообщества и поддерживаю сеть на расстоянии, поскольку она полностью децентрализована. С точки зрения внедрения, все прошло очень хорошо, и теперь RWA становится захватывающей экосистемой.
BlockBeats: Что заставило вас переключить свой интерес с RWA на искусственный интеллект и решить запустить Sapien AI?
Тревор: Я заинтересовался искусственным интеллектом после того, как Polymesh децентрализовала свою повседневную деятельность. В Торонто очень сильное сообщество в области технологий искусственного интеллекта, и многие из ранних архитектур современного искусственного интеллекта были созданы исследователями из Университета Торонто, такими как Джеффри Хинтон, «отец глубокого обучения», и Илья Суцкевер, бывший главный научный сотрудник OpenAI. .
Слева: Илья Суцкевер. Справа: Джеффри Хинтон;
Я сам заинтересован в использовании ИИ, и у меня также есть несколько умных друзей в Университете Ватерлоо, которые занимаются машинным обучением. Постепенно я стал интересоваться стеком технологий ИИ, тем, как он работает, процессом производства обучающих данных и тем, как люди участвуют в производстве этих обучающих данных. Это очень естественный процесс обучения.
Изначально у меня не было никаких амбиций по созданию компании, но примерно через 6 месяцев глубокого погружения в мир искусственного интеллекта и машинного обучения под руководством наставника в аспирантуре по программе машинного обучения в Университете Ватерлоо мы начал выявлять некоторые интересные области, где существуют проблемы, и увидел возможности для решения этих проблем. В итоге мы основали компанию Sapien.
BlockBeats: Можете ли вы описать основную миссию этого проекта для тех, кто не знаком с ИИ Sapien? В чем важность услуг аннотирования данных в современной индустрии искусственного интеллекта?
Тревор: Аннотации данных чрезвычайно важны. Это одна из основных причин успеха основных моделей больших языков, таких как ChatGPT, поскольку они были первыми моделями, в которых использовались аннотаторы данных промышленного масштаба для обогащения наборов данных.
Сегодня важность аннотаций данных продолжает расти, поскольку конкуренция в производительности между этими моделями очень жесткая, и лучший способ улучшить производительность модели — добавить в набор данных больше профессиональных аннотаций данных, созданных человеком.
Мы думаем об обработке данных как о цепочке поставок: сначала исходные данные, затем их необходимо структурировать и организовать. После структурирования данные можно обучать. После завершения обучения на его основе можно сделать вывод. Короче говоря, это процесс постепенного повышения ценности данных в контексте искусственного интеллекта.
Как и в других отраслях, мы начинаем видеть сегментацию в отрасли искусственного интеллекта: появляются разные вертикали и некоторые компании преуспевают на определенных этапах процесса. Для меня самым интересным является второй шаг — структурирование данных и подготовка к обучению, что меня всегда интересовало больше всего.
Децентрализованный масштабируемый ИИ, ориентированный на рынок «длинного хвоста»
BlockBeats: Что отличает Sapien AI от традиционных компаний Web2, таких как Scale AI?
Тревор: Это хороший вопрос. Мы любим Scale, это замечательная компания с замечательными соучредителями. Мы знаем одного из них. Это одна из крупнейших компаний в области искусственного интеллекта в мире как с точки зрения доходов, рыночной капитализации, так и с точки зрения использования.
Нас отличает то, что мы начинаем с основных принципов и думаем о том, как должен выглядеть современный стек технологий аннотирования данных в 2024 году. Мы не обязательно преследуем те варианты использования, которые охватывает Scale, мы нацелены на рынки среднего и длинного рынка.
Мы стремимся сделать отзывы людей о наборах данных легко доступными для всех, независимо от того, являетесь ли вы моделью с открытым исходным кодом для среднего рынка, моделью корпоративного уровня или просто человеком, проводящим исследования на выходных. Если вы хотите улучшить производительность модели и вам нужна обратная связь от человека, приходите к нам.
Вы можете думать о нас как о более распределенной или децентрализованной версии Scale AI. Это значит, что у нас более широкий круг аннотаторов, которые не привязаны к конкретному месту, но могут работать удаленно из любой точки мира. В некоторой степени эта дисперсия может позволить нам улучшить качество аннотаций данных, поскольку разнообразие необходимо не только для диверсификации, но и для улучшения качества обучения данных.
Например, если вы попросите группу людей со схожим опытом обозначить данные в учреждении, это, скорее всего, приведет к получению предвзятых или культурно предвзятых данных. Поэтому мы с самого начала стремимся сделать его максимально разнообразным и надежным. Благодаря большей децентрализации мы также в некоторой степени имеем доступ к аннотаторам более высокого качества. Если вам нужно поехать в определенное место на Филиппинах по работе, вы ограничены в талантах, которые можете привлечь, но, используя дистанционный подход, мы можем найти аннотаторов из любой точки мира.
Я не говорю, что Scale не делает таких вещей, но мы думаем о том, как мы можем обслуживать другие части модельного рынка. Поскольку мы думаем, что этот рынок будет продолжать расти, на нем будет много частных и разрешенных моделей, требующих обратной связи с людьми.
BlockBeats: Как спроектирован и оптимизирован рабочий процесс аннотирования данных Sapien AI? Каковы ключевые звенья для обеспечения качества данных?
Тревор: Наша платформа работает как двусторонний рынок. Вы можете думать об этом как об Uber аннотаций данных, децентрализованной версии. С одной стороны, это сторона спроса, например, пассажиры в Uber, которые для нас являются корпоративными клиентами, которым нужна человеческая обратная связь в их моделях. Например, они создают большую языковую модель и хотят ее точно настроить, что требует ручного участия.
Они приходят к нам и загружают свои необработанные наборы данных в Интернет. Мы даем котировки на основе нескольких различных переменных набора данных (таких как сложность, модальность данных, формат данных и т. д.). Для корпоративных клиентов этот процесс является самообслуживанием.
С другой стороны — поставщики, комментаторы, которые являются нашим эквивалентом водителей Uber. В настоящее время это фактически узкое место в отрасли, и нам нужно как можно больше аннотаторов, чтобы присоединиться к сети. Поскольку спрос практически не ограничен, как и в случае с Uber, всегда находится кто-то, кто хочет прокатиться, и этот спрос никогда не закончится. В области ИИ также существует постоянная потребность в том, чтобы эти модели ИИ потребляли больше данных.
Мы уделяем большое внимание поставкам и стремимся сделать аннотирование данных простым для каждого. Мы изобрели новые технологии и до сих пор их совершенствуем, чтобы обеспечить качественное масштабирование аннотаций в распределенном режиме. Первоначальный вопрос, который мы задали, заключался в том, можно ли обеспечить высокое качество аннотаций без централизованного управления? На самом деле это то, что мы называем «трилеммой аннотаций данных»: можем ли мы сделать это дешевле для клиентов, сделать аннотаторов более прибыльными и в то же время улучшить общее качество?
Мы провели несколько экспериментов в этой области и добились очень интересных результатов. Мы опробовали различные новые механизмы, такие как регрессия к среднему, обнаружение аномалий и т. д., смешанные с некоторыми вероятностными моделями, которые могут в значительной степени предсказать качество работы аннотатора. Мы также разрабатываем некоторые новые технологии. Но пока мы очень воодушевлены тем, что будет с аннотациями данных в ближайшие пять-десять лет. Мы считаем, что аннотирование данных станет более децентрализованным, более самообслуживаемым и более автоматизированным.
BlockBeats: Можете ли вы рассказать нам больше о ваших продуктах и технологиях, особенно о тех, которые обеспечивают качество данных? Я знаю, что у вас есть механизм ставок, который не дает аннотаторам творить зло, есть ли еще какие-нибудь технологии?
Тревор: Да, мы пробуем много разных вещей. У нас есть система репутации, а также механизм ставок и штрафов. После внесения определенной суммы средств тегеры могут быть оштрафованы, если они не соответствуют стандартам. Эти механизмы все еще находятся на ранних экспериментальных стадиях, но мы обнаружили, что один этот стимул может значительно улучшить соблюдение требований к качеству, возможно, даже на несколько стандартных отклонений. Однако эта серия проверок качества достигается за счет средневзвешенного значения различных алгоритмов, и мы постоянно совершенствуем эти алгоритмы. При этом мы сами используем машинное обучение для оптимизации этого процесса. Например, мы используем инструменты ML-линтера и тестирование «красного кролика», которое предоставляет аннотаторам ложные данные для проверки честности их маркировки.
Вот большой вопрос: как узнать, совершают ли люди в сети атаки Сивиллы (т. е. пытаются обмануть и манипулировать системой)? Мы всегда должны быть настороже к этому. Именно поэтому нам нравятся некоторые механизмы стимулирования Web3, потому что изначально они были изобретены для решения таких проблем, как проблема атаки Сивиллы или проблема византийских генералов, чтобы сделать так, чтобы соблюдение правил было в интересах каждого. Если вы эгоистичны, вы следуете сетевым протоколам.
Мы все еще на ранних стадиях. Для некоторых наших крупных клиентов мы внедрили более традиционные методы контроля качества, но мы также быстро движемся в этот новый мир передовых данных.
BlockBeats: Что, по вашему мнению, является самым большим преимуществом Sapien AI как децентрализованной платформы аннотирования данных?
Тревор: Как я уже сказал, наша платформа в большей степени ориентирована на самообслуживание, что позволяет нам обслуживать более широкую клиентскую базу. Наши требования к аннотаторам также очень обширны. Мы хотим, чтобы каждый мог стать маркировщиком, потому что мы верим, что следующая эра или глава ИИ будет посвящена извлечению большего количества существующих знаний у людей. Не только базовые вещи, такие как «это знак остановки», «это машина» и тому подобное, которые могут быть легко распознаны людьми и машинами, но и больше о рассуждениях.
Алекс Ванг из Scale Company рассказал об этой проблеме: Данные в Интернете — это результат рассуждения, но на самом деле они не описывают процесс рассуждения. Итак, как же нам глубже понять сознание людей? Это требует больше работы и требует более профессиональных аннотаций. Это может помочь нам ускорить развитие общего искусственного интеллекта (AGI).
Итак, наша более масштабная задача: можем ли мы раскрыть больше знаний в наборах частных данных внутри предприятия, в умах профессионалов? Эти профессионалы обладают опытом в определенных отраслях, таких как медицина или юриспруденция, которые модели еще не охватывают.
Мы все еще усердно работаем над тем, чтобы сделать нашу платформу максимально ликвидной и стараемся поддерживать баланс между спросом и предложением. Мы хотим включить динамическое ценообразование, как это делает Uber. Эти механизмы делают нас более похожими на настоящий двусторонний рынок, удовлетворяющий потребности в данных и помогающий аннотаторам присоединиться. Это некоторые из уникальных способов создания нашей платформы. Что касается обеспечения качества, мы используем методы, о которых я упоминал ранее, в режиме реального времени. Мы хотим, чтобы наши аннотаторы получали как можно больше обратной связи в режиме реального времени, потому что это создает лучший опыт для всех.
Label to Earn: будущее экономики свободного заработка
BlockBeats: Я заметил, что Sapien AI сотрудничает с Yield Guild Games (YGG), так можно ли понимать децентрализованный механизм маркировки Sapien AI как игру «назови, чтобы заработать»?
Тревор: Точно. Мы действительно хотим иметь возможность подключиться к миру людей, которые хотят зарабатывать на жизнь с помощью своих телефонов, и мы считаем, что это будущее экономики свободного заработка. Вам не нужна машина, чтобы водить Uber или доставлять еду в физическое место. Вам просто нужно войти в свой телефон и комментировать данные, чтобы получать доход.
YGG — замечательный партнер, они одни из наших ангельских инвесторов. У нас прекрасные отношения с Габби, основательницей, и у них потрясающее сообщество в Юго-Восточной Азии. У нас с ними большие планы: помочь их пользователям найти новые способы заработка, а они помогут нам привлечь новых пользователей. Недавно мы объявили о ряде совместных проектов и планируем еще больше. Мы также будем находиться в Азии большую часть четвертого квартала, встречаясь с этими партнерами и продолжая развивать сотрудничество.
BlockBeats: Что вы думаете об играх с блокчейном «играй, чтобы заработать», таких как «Axie Infinity»?
Тревор: Это очень новаторски и является источником вдохновения. Хотя это всего лишь эксперимент, я верю, что он вернется в новой форме. В этом красота стартапов и децентрализованного предпринимательства, но это творческое разрушение.
В том, что мы делаем, есть некоторые элементы «игры, чтобы заработать», и мы также склонны использовать такие термины, как «ярлык, чтобы зарабатывать» или «тренироваться, чтобы зарабатывать». Но есть разница, потому что мы — настоящий бизнес. Аннотируются реальные данные, реальные клиенты платят реальные деньги и, наконец, производится реальный продукт. Так что это не просто видеоигра с бесконечным циклом.
Хотя разметка данных с помощью ИИ Sapien — это весело, это может быть не так весело, как играть в Grand Theft Auto V. Мы хотели найти хороший баланс между весельем и практичностью, чтобы вы могли делать это, ожидая 5 минут на автобусной остановке или проводя 5 часов дома перед компьютером. Наша цель — сделать участие максимально простым.
BlockBeats: Есть ли способы сделать аннотирование данных более увлекательным, не просто рабочим, а более похожим на игру?
Тревор: Да, мы сейчас много стараемся. Вы можете играть в игру самостоятельно и комментировать реальные данные ИИ, посетив game.sapien.io. Вы можете стать работником ИИ, аннотировать реальные данные ИИ во время игры и зарабатывать очки. Игра очень минималистична и имеет интуитивно понятный интерфейс.
game.sapien.io игровой интерфейс
Сами данные также интересны. Возможно, вам понадобится аннотировать некоторые очень интересные изображения, например аннотировать наши данные о моде. Мы планируем поддерживать множество различных типов модальностей и наборов данных. Мы планируем со временем добавить больше функций.
План будущего: построить крупнейшую в мире сеть аннотаций искусственных данных
BlockBeats: Помимо YGG, с какими еще криптопроектами вы планируете работать в будущем?
Тревор: У нас есть несколько интересных идей, таких как создание стандарта данных для аннотаций данных. В настоящее время эта область довольно запутанна, потребности каждого клиента различны, и нам приходится проводить индивидуальную интеграцию с каждым клиентом, поскольку их форматы данных и модальности данных различны.
Поэтому мы работаем с другими организациями в децентрализованном пространстве данных, находимся на ранних стадиях создания этого стандарта и планируем выпустить его как общественное благо. Нечто подобное мы сделали в Polymath, где выпустили ERC-1400, который теперь является одним из стандартов по умолчанию для токенизации Ethereum.
Итак, у нас есть некоторые идеи по поводу создания стандартов, и мы планируем продвигать их вперед с помощью команд, которые помогали нам в прошлом, а также некоторых отраслевых партнеров. Это сделает децентрализованный ИИ более реальным, а также сделает его более совместимым, а это означает, что данные смогут легче перемещаться между различными этапами, поскольку ни один человек не может сделать все.
BlockBeats: Какова конкретная дата запуска основной сети и мобильных приложений Sapien AI?
Тревор: На данный момент у нас нет конкретных планов по выпуску. Сейчас мы сосредоточены на том, чтобы наш основной продукт Web2 соответствовал рынку. Мы очень хорошо растем, и теперь у нас есть комментаторы из 71 страны. В этом году наши доходы со стороны спроса удваивались почти каждый месяц.
Мы просто хотим продолжать расти, продолжать узнавать о наших клиентах и продолжать обслуживать их. Со временем мы останемся открытыми для множества различных стратегий и методов.
BlockBeats: Я видел, что соучредитель Base Роуэн Стоун присоединился к Sapien AI в качестве директора по развитию бизнеса. На каком публичном блокчейне будет построен Sapien AI? Есть ли планы по выпуску нативных токенов?
Тревор: Это глубокие вопросы, которые я ценю. Роуэн великолепен, и он основал Base вместе с Джесси Поллаком, Джесси — абсолютная легенда. Роуэн имеет богатый опыт создания промышленных продуктов Web3, не имеющих себе равных. На мой взгляд, ему нет равных. Он был со-руководителем «Onchain Summer», одного из самых успешных мероприятий на моей памяти.
Он помогает нам разрабатывать рыночные стратегии в определенных областях. Но, как я только что сказал, сейчас мы очень сосредоточены на обслуживании наших существующих клиентов, это наша главная задача. Мы не принимали на себя никаких обязательств или решений при выборе какого-либо уровня 1 или иным образом. Но в будущем мы продолжим рассматривать различные возможности.
BlockBeats: Какие планы или цели у Sapien AI на будущее? Каких целей вы надеетесь достичь в ближайшие несколько лет?
Тревор: Наша миссия — увеличить количество аннотаторов данных во всем мире в 100 раз и сделать эту сеть легко доступной для всех. Мы хотим построить крупнейшую в мире сеть аннотаторов человеческих данных. Мы думаем, что это будет очень ценный актив, поэтому мы хотим построить его и контролировать, но в конечном итоге открыть его. Мы хотим, чтобы каждый мог подключиться и делать это совершенно без разрешения.
Если мы сможем построить крупнейшую в мире сеть аннотаций человеческих данных, это откроет огромное количество потенциальных возможностей ИИ, потому что чем больше у нас высококачественных данных, тем более мощным и доступным ИИ будет для всех.
Мы хотим, чтобы это работало для всех, а не только для крупных компаний, занимающихся моделированием языков, которые могут позволить себе сети из миллионов аннотаторов. Теперь любой желающий может воспользоваться этой сетью. Вы можете думать об этом как о платформе «аннотаций как услуги».
За децентрализацией: Задача предпринимателей — решать проблемы
BlockBeats: Наконец, я хотел бы спросить вас о ваших наблюдениях и мнениях об индустрии в целом. Какой неиспользованный потенциал, по вашему мнению, существует в области крипто-ИИ?
Тревор: Я очень воодушевлен этим пространством, поэтому мы запустили Sapien AI. Здесь есть хорошая сторона, а есть и сторона, от которой нужно остерегаться.
С другой стороны, децентрализованный ИИ, вероятно, будет более автономным, более демократизированным, более доступным и более мощным. Это означает, что агенты ИИ могут иметь собственную валюту для транзакций, а это также означает, что вы можете иметь больше конфиденциальности и точно знать, что включено в модель, благодаря технологии ZK.
С точки зрения предотвращения мы сталкиваемся с очень пугающим миром, в котором ИИ становится все более централизованным и только правительства и несколько крупных технологических компаний имеют доступ к мощным моделям. Это довольно страшная сцена. Таким образом, открытый исходный код и децентрализованный ИИ — это защита.
Что касается нас, мы больше уделяем внимание аспекту данных, децентрализованным данным. Это не означает, что вы не можете децентрализовать другие части стека ИИ, такие как вычисления и сами алгоритмы. Точно так же, как Transformer был первой инновацией в алгоритмах, мы видели еще много инноваций, но всегда есть возможности для совершенствования.
Децентрализация не означает, что вы должны это делать, и то, что вы можете что-то децентрализовать, не означает, что вам следует это делать. В конце концов, должна быть реальная ценность. Но, как и финансы и другие части пространства Web3, ИИ, безусловно, может выиграть от децентрализации.
BlockBeats: Какой совет вы больше всего хотели бы дать предпринимателям, которые хотят заняться крипто-ИИ?
Тревор: Я рекомендую изучить как можно больше, чтобы по-настоящему понять технологический стек и архитектуру. Вам не обязательно быть доктором наук в области машинного обучения, но важно понимать, как оно работает, и изучать его. Отсюда, со временем, вы постепенно поймете проблему более органично. Это ключ.
Если вы не понимаете, как это работает, вы не сможете понять проблему. И если вы не знаете, в чем проблема, вам не следует становиться предпринимателем, потому что работа предпринимателя — решать проблемы.
Так что он ничем не отличается от любого другого стартапа, и вы должны понимать его пространство. Вам не обязательно быть ведущим мировым экспертом в этой области, но достаточно знать о ней достаточно, чтобы понять проблемы и затем попытаться их решить.