В эпоху искусственного интеллекта важность данных неоспорима. Данные являются основой для крупных моделей AI, и качество источников данных для обучения определяет способности AI и пользовательский опыт продукта. Интернет-технологические гиганты, обладающие большим количеством многомерных бизнес-данных, имеют преимущество в контексте ситуации, благодаря накоплению данных в процессе многолетней работы интернет-платформы и имеющимся сценариям использования пользователями, могут создавать большое количество частных данных, имея явное преимущество в оптимизации моделей.
После запуска ранних AI-продуктов они используют обратную связь от своего пользовательского сообщества для оптимизации модели, создавая эффект снежного кома данных, который позволяет постоянную оптимизацию и итерации, что в конечном итоге станет защитой продуктов AI. Однако стартапы в области AI страдают от недостатка достаточного количества и качества источников данных для обучения моделей, что создает барьеры данных и изоляцию, препятствующие развитию искусственного интеллекта.
VANA: разрывая изоляцию данных, позволяя пользователям делиться ценностью данных
На раннем этапе интернета наблюдался бум различных интернет-компаний, которые нарушали традиционные модели работы в отраслях. Но затем, с развитием отрасли, крупные интернет-технологические компании начали монополизировать рынок, контролируя потоки трафика и обладая большим количеством пользовательских данных. Крупные платформы могут использовать эти данные для алгоритмических рекомендаций и кредитования, получая коммерческую выгоду. Reddit уже заработал 200 миллионов долларов, продавая контент, созданный пользователями, в качестве данных для обучения AI, но создатели данных не получили долю от ценности и результатов данных. Появление VANA сломает изоляцию данных, позволяя пользователям владеть данными и делиться прибылью от данных.
VANA — это открытый и децентрализованный протокол суверенитета данных, совместимый с EVM, позволяющий пользователям владеть своими данными и делиться личными данными для получения дохода от искусственного интеллекта.
VANA решает проблему источников данных для обучения моделей AI.
Как известно, источником тренировочных данных AI-моделей интернет-технологических компаний в основном являются веб-сканеры, платные покупки и данные, накопленные в процессе собственного бизнеса. Преимущества данных веб-сканеров заключаются в их легком доступе, но качество данных низкое и сложность очистки велика; данные, купленные за деньги, сильно однородны, и из-за коммерческой конкуренции действительно ценных бизнес-источников данных немного, что затрудняет создание различий для моделей AI; данные, накопленные в бизнес-сценариях, имеют высокую ценность, но этот подход не дружелюбен к стартапам и малым предприятиям.
Данные VANA поступают от вкладчиков пользователей в экосистеме. Пользователи, участвующие в экосистеме VANA, вносят данные из социальных сетей X, LinkedIn или Интернета вещей в DataDAO, и эти данные будут надежно храниться вне цепочки. После проверки и очистки данные будут использоваться для разработки моделей AI. Участвующие пользователи, внося данные, могут получить право управления DataDAO, определять права на использование данных и делиться ценностью, которую создают данные.
Преимущества модели VANA
Использование децентрализованного управления позволяет пользователям владеть данными и самостоятельно решать, как их использовать.
Пользователи могут конвертировать свои данные в активы, которые можно торговать, для применения в децентрализованном искусственном интеллекте.
Обеспечение конфиденциальности и безопасности данных с помощью доказательства нулевого знания (ZKP) и доверенной вычислительной среды (TEE).
Сеть VANA
Участники VANA в основном включают в себя поставщиков данных, валидаторов, залогодателей, потребителей данных и DLP (создателей пула ликвидности данных), то есть DataDAO.
1. Вкладчики данных
Участвующие пользователи могут выбрать DataDAO, созданные в сети VANA, для внесения своих данных. Данные, предоставленные, будут храниться вне цепочки, а доказательства взноса — в цепочке. Например, в ChatGPT DataDAO пользователи запрашивают OpenAI по электронной почте экспорт данных ChatGPT, и после получения ответа по электронной почте данные и ссылки на загрузку загружаются на gptdatadao.org.
2. DataDAO
Залог на сумму не менее 100 долларов США в VANA позволяет создать и зарегистрировать DataDAO. После завершения регистрации DataDAO появится на DataHub для выбора участниками данных. Для стимулирования устойчивого развития DataDAO VANA будет предоставлять вознаграждения тем DataDAO, которые займут первые 16 мест по количеству залогов VANA. В первые три года вознаграждение за залог составит 15% от общего объема токенов, каждые 21 день будет период вознаграждения, при этом разблокировка залога займет 7 дней. Количество вознаграждений VANA зависит от количества залога, времени залога и количества вознаграждений, полученных DataDAO. DataDAO необходимо заложить не менее 10,000 VANA, чтобы иметь возможность получать вознаграждение. 50% вознаграждений фиксированно идет залогодержателю, оставшиеся вознаграждения определяются DataDAO в зависимости от их использования.
В настоящее время зарегистрировано 17 DataDAO, в том числе Volara, сосредоточенная на данных Twitter/X, R/DataDAO для Reddit и DLP Labs, занимающаяся данными резюме LinkedIn. 140,000 пользователей Reddit присоединились к R/DataDAO, и уже обучена первая AI-модель, принадлежащая пользователю.
3. Валидаторы
Валидаторы отвечают за безопасность, целостность и функциональность Vana Layer 1 blockchain, обеспечивая правильную проверку, регистрацию и добавление транзакций данных в блокчейн, включая L1 валидаторов и валидаторов Satya.
L1 валидаторы отвечают за безопасность и консенсус VANA. Минимальный залог составляет 35,000 VANA для становления L1 валидатором, первоначально L1 валидаторов 64, затем расширение до 128. Каждый блок приносит 5 VANA, за сбой будет наложен штраф в 10%, вознаграждения будут сокращаться на 10% в год.
Валидаторы Satya обеспечивают доверенную вычислительную среду (TEE) для проверки данных, предоставленных пользователями, и обеспечивают безопасность и конфиденциальность данных в процессе проверки, чтобы получить вознаграждение VANA.
4. Потребители данных
Разработчики AI-моделей, как потребители данных, выбирают и покупают доступ к наборам данных, соответствующим потребностям разработки моделей AI, используя инфраструктуру Vana для обучения AI и анализа данных, сотрудничая с DataDAO для оптимизации модели AI.
Например, в ChatGPT DataDAO пользователи загружают ссылки для загрузки и файлы данных, которые передаются в зашифрованном виде валидаторам Satya. После расшифровки валидаторы Satya проверяют данные, чтобы гарантировать их подлинность и отсутствие изменений.
Сценарии применения токенов VANA и экономическая модель
1. Валидаторы заливают VANA для обеспечения безопасности сети и проверки данных, получая вознаграждение VANA.
2. VANA используется в сети для выполнения контрактов, взаимодействия с DataDAO и других операций в цепочке.
3. Пользователи заливают VANA в DataDAO, чтобы получить вознаграждение за залог VANA.
4. Потребители данных по умолчанию используют VANA для доступа к данным.
5. Владельцы VANA участвуют в управлении и голосуют по предложениям, VANA является основным торговым паром для токенов, выпускаемых DataDAO.
Общий лимит VANA составляет 120 миллионов, распределение токенов показано на рисунке.
Сообщество
В основном включает в себя вознаграждения за качественный вклад данных в DataDAO, а также аирдропы для ранних пользователей и разработчиков. TGE предлагает 20.3% VANA без периода блокировки.
Экосистема
В основном включает в себя токены, выпущенные DataDAO, вознаграждения за блоки и партнеров, TGE предлагает 4.8% VANA без блокировки.
Инвесторы
Vana уже привлекла 25 миллионов долларов финансирования, в том числе 5 миллионов долларов стратегического раунда от Coinbase Ventures, 18 миллионов долларов в раунде A от Paradigm и 2 миллиона долларов на посевном раунде от Polychain.
Основные участники
Таким образом, на момент TGE общий объем VANA составит 30 миллионов, включая 4,8 миллиона VANA от Binance Launchpool.
Риски правового существования модели VANA в Китае
Проект VANA по децентрализованным данным для обучения AI-моделей решает проблемы с данными для обучения AI по более низким ценам, позволяя предпринимателям AI получать качественные данные для обучения. Это разрывает изолированные данные, созданные крупными интернет-компаниями, и позволяет Tencent получать данные пользователей Alipay для обучения AI, снижая барьеры для отдельных лиц и компаний, занимающихся созданием AI. Однако такой подход может нести риски вывоза данных в Китае.
Государственное управление интернет-информации опубликовало (Руководство по оценке безопасности вывоза данных (первая версия)), в котором четко указано, что действия по вывозу данных включают:
(1) Обработчики данных будут передавать и хранить собранные и произведенные данные в пределах страны за границей.
(2) Данные, собранные и произведенные обработчиками данных, хранятся в стране, и зарубежные организации, группы или физические лица могут запрашивать, извлекать, загружать и экспортировать их.
(3) Другие действия по вывозу данных, установленные Государственным управлением по вопросам интернета.
Статья 89 (Закон КНР о миграции) четко определяет, что выезд означает поездку из материкового Китая в другие страны или регионы, включая специальный административный район Гонконг, специальный административный район Макао и Тайвань. Таким образом, определение выезда основывается на юрисдикции.
Создание DataDAO и вклад пользователей в данные не имеют никаких ограничений; потребители данных не обязаны проходить KYC и могут получить доступ к собранным данным, просто заплатив VANA. В такой ситуации участие пользователей внутри страны в различных DataDAO, предоставляющих данные социальных сетей и резюме, может повлечь за собой экспорт данных.
Определение личной информации: в соответствии с (Законом о кибербезопасности КНР) статья 76 определяет: личная информация — это любая информация, которая может идентифицировать личность физического лица, записанная в электронном или любом другом виде, включая, но не ограничиваясь именем, датой рождения, номером удостоверения личности, биометрической информацией, адресом, номером телефона и т. д.
Собранные DataDAO резюме и медицинские данные могут содержать такие личные данные, как имя, дата рождения, номер телефона и даже чувствительная информация. (Закон о защите личной информации КНР) накладывает ограничения на использование этих данных и их трансграничный обмен.