Reddit 数据 DAO 以及有关 Gen AI 模型训练的所有知识

Cryptonomist 采访了 Vana 的首席执行官兼联合创始人 Anna Kazlauskas，该公司是 Reddit 数据 DAO，在第一周就有 14 万名用户使用经过验证的 Reddit 帐户注册。Anna 现在正在与开发人员合作为其他平台构建数据 DAO，例如 LinkedIn 和 ChatGPT。
除了 DAO 之外，他们还有其他渠道供用户将他们的数据汇集到数据集中，然后可用于 GenAI 模型训练，例如创建肖像或头像。
除了 Vana 所做的事情之外，我们还与 Anna 讨论了去中心化人工智能领域的发展，因为平台可以帮助人们使用数据并将其货币化以用于新的应用程序。
您能否概述一下 Vana 及其在去中心化 AI 领域的使命？
Vana 是一个由用户拥有的数据驱动的用户拥有的 AI 平台。我们的使命是让用户拥有自己的数据以及通过 AI 模型创造的价值。人们越来越需要更多的训练数据来提高 AI 模型的性能，因为最终 AI 模型的好坏取决于它们的数据。
例如，LLaMA 3 是在大约 15 万亿个单词上进行训练的，这大致相当于公共互联网上可用的数据量。现在，公司正试图获取更多数据，有时甚至为此支付数亿美元。各大科技平台都在囤积有价值的用户数据，并在不考虑用户权限的情况下构建新技术，这阻碍了创新。
在 Vana，我们将数据从这些围墙花园中解放出来，将其置于用户的控制之下。我们允许用户直接为人工智能模型做出贡献，选择如何使用他们的数据以及如何使用人工智能。我们相信，如果我们能够访问最好的数据，我们实际上可以超越领先的模型——通过访问只能直接从用户那里获得的数据来超越 GPT-6 等模型的性能。Vana 的架构是第 1 层区块链，从头开始设计用于私有的、用户拥有的数据。
Reddit Data DAO 上线第一周就吸引了 14 万名用户注册。您认为是什么推动了它的快速普及？您从这次上线中学到了什么经验教训？
从采用的角度来看，Reddit Data DAO 取得了令人难以置信的成功，第一周就有超过 14 万名用户注册。这种采用水平对于 DAO 来说是不寻常的——它现在是历史上最大的数据 DAO。
推动其快速采用的因素之一是，随着新闻报道数据销售，用户越来越意识到其数据的价值，故事的大部分内容已经被阐述。意识到 Reddit 以 2 亿美元的价格出售你的数据，或者 Apple 以 5000 万美元的价格购买数据，会让你更加意识到它的价值。
此外，人们对基于 web3 构建的用户自有产品有着强烈的需求，这些产品超越了人们熟悉的 DeFi 产品，进入了新的所有权领域。我们在 Farcaster、DePIN 网络和基于 Vana 构建的数据 DAO 等项目中看到了这种趋势，它们代表了新一波用户自有产品。
一个重要的教训是需要证明贡献要求。超过一百万人试图加入 Reddit Data DAO，但许多人不符合拥有 Reddit 帐户、存在一定时间且拥有最低数据量的标准。这凸显了建立机制以确保高质量贡献的重要性。
您提到了为 LinkedIn 和 Chat GPT 等平台创建数据 DAO 的计划。您认为扩展到这些平台有哪些独特的挑战和机遇？
Vana 是一个针对用户拥有数据的点对点网络，构建者创建了各种数据 DAO，例如 Reddit 数据 DAO、LinkedIn 数据 DAO 和 ChatGPT 数据 DAO。
这些不同的数据源对于训练人工智能模型非常有价值，但它们目前被锁在围墙花园中。从每个平台获取数据都很棘手，但由于数据监管，这总是可能的。
Vana 如何帮助用户将其数据货币化，您可以举例说明用户从中受益吗？
我们的目标是帮助用户同时将数据变现和保护。例如，借助 Reddit Data DAO，他们现在正在训练一个用户拥有的模型（现阶段主要专注于发垃圾帖子，但这只是一个开始）。每次使用该模型时，用户都会获得报酬，从而为模型的共同所有权创造了经济激励。
而且用户数据保持完全私密——数据不是出售，而是被“出租”，底层数据永远不会离开安全环境。
随着人们对数据隐私的关注日益增加，Vana 如何确保用户数据的安全性并在数据 DAO 中合乎道德地使用？
数据隐私已经从意识形态或偏好问题转变为经济问题。如果有人拥有你的数据，他们就有可能创造出具有经济价值的人工智能版本，赚取收入并可能与你竞争。这就是为什么隐私对 Vana 如此重要和核心。
我们发明了一个概念，称为“非托管数据”，它类似于非托管钱包，但用于存储您的个人数据。它使您的数据完全受您控制，并由您的私钥授权。这使您的数据可以在应用程序之间移植，并在其上添加一个原生金融层，从而可以构建数据 DAO 之类的东西。
通过 Vana 的数据 DAO 创建的数据集如何增强生成式 AI 模型的训练，以及与传统数据集相比它们有哪些优势？
通常，人工智能模型是用从公共互联网上抓取的数据进行训练的——这些数据无需登录任何地方即可获得。但如果从教孩子了解世界的角度来考虑，你不会希望他们只是随意在公共互联网上闲逛。你会想给他们提供一些可能不会公开的高质量信息——比如高质量的写作、思维过程或信息。人工智能主要在公共数据上进行训练，但它确实需要私人数据来推动前沿发展。这就是数据 DAO 所实现的：用户贡献他们的私人数据来创建用户拥有的人工智能。
我们认为，人工智能应该像开源软件一样由社区创建。我们的目标是让研究人员能够访问目前被禁锢在封闭环境中的最佳数据集，以推动人工智能性能的进步。
您预见到未来 5 到 10 年去中心化 AI 领域会出现哪些趋势，Vana 如何定位自己以引领这一不断发展的领域？
过去一年，去中心化 AI 领域发展确实加速。例如，今年在 EthCC 上，几乎每天都有去中心化 AI 活动，而去年没有。人们正在研究如何将对金融领域效果良好的自主技术应用到 AI 领域。在 Vana，我们认为所有这一切的核心基础是数据。要构建用户拥有的 AI 和自主 AI，您需要用户拥有的数据，因此我们的重点是该数据部分。
在未来的 5-10 年里，我对几个里程碑感到兴奋：1）由 1 亿人共同拥有的用户拥有的基础模型。2）更多可以自行赚钱的自主 AI 代理，并确保这些代理真正由为训练它们做出贡献的用户拥有。
随着人工智能发挥越来越重要的经济作用，确保从技术和社会角度的权力得到广泛分配。
您能否分享更多与开发人员合作构建数据 DAO 的情况？目前正在筹备哪些创新项目？
Vana 是一个无需许可的网络，因此任何人都可以构建数据 DAO。它是专为私有、用户拥有的数据而设计的第一层区块链。目前，Satori 测试网上部署了 100 多个数据 DAO。许多构建者都是 Bittensor 生态系统的早期参与者，他们深刻理解加密和 AI 的交集。一些值得注意的项目包括 Twitter Data DAO、LinkedIn Data DAO 和 GitHub Data DAO。我们还与 ZK 领域和 DAO 工具领域的项目合作，使数据 DAO 更易于创建和管理。
在去中心化人工智能的发展中，最紧迫的道德考虑是什么？Vana 如何解决这些问题？
我认为，当今人工智能领域最大的问题之一是谁应该拥有模型并决定将哪些数据输入其中。随着我们开始越来越多地依赖人工智能获取信息，它们成为我们的真相来源。决定将哪些数据输入人工智能的人实际上就是在决定真相。由一个实体控制这一切是可怕的。在 Vana，我们的观点是，应该由社区而不是一家公司来做出这些决定。
去中心化 AI 的另一个问题是：如果 AI 完全去中心化，那么如果 AI 失控并且没有关闭按钮怎么办？我们在 Vana 处理这个问题的方式是，AI 模型最终归为其做出贡献的用户所有，因此他们始终保持完全控制权。
根据您在 Vana 和 Data DAO 方面的经验，您会给那些想要进入去中心化 AI 领域的有抱负的企业家什么建议？
现在是开始在去中心化 AI 领域进行构建的好时机。有很多机会将一些在 DeFi 中效果良好的加密经济原语应用于新兴的去中心化数据和 AI 类别。我还建议花一些时间深入研究非加密、开源 AI 领域，以了解人们在加密环境之外采取的一些方法。我将亲自研究一些现有项目，看看可以使用哪些类型的原语进行构建，包括尝试在 Vana 上启动数据 DAO。
创作者的更多内容

实时新闻

创作者的更多内容

实时新闻

热门文章