在人工智能时代,数据的重要性不言而喻。数据作为AI大模型的基础,训练数据源的质量决定了AI的能力以及产品用户体验。拥有大量、多维度业务数据的互联网科技巨头,具有场景优势,通过多年互联网平台运行过程中的数据积累以及平台现有的用户使用场景,可以产生大量私有数据,其在模型训练优化上的优势明显。
早期AI产品上线后,其依靠自身用户群体与产品交互的反馈对模型进行调优,从而产生数据飞轮效应,持续优化迭代,后期这将会成为AI产品的护城河。而AI赛道的初创企业却苦于没有足够数量、质量的数据源去训练模型,这种数据壁垒和形成的数据孤岛将会阻碍人工智能的发展。
VANA:打破数据孤岛,用户分享数据价值
早期的互联网百花齐放,涌现出各种颠覆传统行业运营模式的互联网公司,但后来随着行业的发展,头部互联网科技公司开始垄断市场,大型互联网平台掌控着流量入口,拥有大量的用户数据。头部平台可以使用这些用户数据去做算法推荐、信用贷款获取商业价值,Reddit 已通过出售用户生成的内容作为 AI 训练数据获得了 2 亿美元的收益,但产生数据的用户并没有分享到数据的价值和成果。VANA的出现将打破数据孤岛,让用户拥有数据,共享数据收益。
VANA是一个开放且去中心化的数据主权协议,作为与EVM兼容的L1,VANA让用户拥有自己的数据,贡献个人数据分享人工智能产生收益。
VANA解决AI模型训练数据来源的问题
众所周知,互联网科技公司AI模型的训练数据来源主要通过爬虫、付费购买以及自身业务沉淀。爬虫数据的优势在于易获取,但数据质量低,清洗难度大;付费购买的数据同质化严重,因为商业竞争的缘故,真正有价值的业务数据源少,这种数据很难给AI模型带来差异化优势;业务场景沉淀的数据价值高,但该方式对于初创小微企业不友好。
而VANA的数据来源于生态系统中的用户贡献,VANA生态参与用户向DataDAO贡献X、LinkedIn等社交媒体或者物联网数据,这些数据都将安全的存储在链下。数据经过验证、清洗标记后应用于AI模型的开发。参与的用户贡献数据后可以获得DataDAO的治理权,决定数据的使用权,分享数据产生的价值。
VANA模式的优势
采用去中心化的治理方式,让用户拥有数据的所有权,自主决定数据的使用方式;
用户通过VANA可转换成可交易的数据资产,用于去中心人工智能的应用;
通过采用零知识证明(ZKP)和可信执行环境(TEE)保障数据隐私和安全。
VANA网络构成
VANA的参与者主要包含贡献数据者Data Contributors、验证者Validators、质押者、数据消费者Data Consumers以及DLP(Data Liquidity Pool Creator),也就是DataDAO。
1、Data Contributors
参与用户可以选择VANA网络中成立的DataDAO贡献自己的数据,提交的数据链下存储,链上存储贡献证明。以ChatGPT DataDAO举例,用户通过邮件请求OpenAI导出ChatGPT数据,收到邮件回复后将数据和下载链接通过 gptdatadao.org上传。
2、DataDAO
质押至少价值100美金的VANA可以创建注册DataDAO,完成注册后,DataDAO将会出现在DataHub上供数据贡献者选择。为了推动DataDAO持续发展,VANA将为质押VANA数据排名前16的DataDAO提供奖励,前三年质押奖励为代币总量的15%,每21天一个奖励周期,质押解锁需要7天。VANA的奖励数量由质押数量、质押时间、DataDAO获取奖励的数量决定。DataDAO需要质押至少10000VANA才有机会获取奖励。奖励的50%固定归质押者所有,剩余的奖励由DataDAO决定是否其用途。
目前已注册创建了17个DataDAO,其中包含专注于Twitter/X数据的Volara、Reddit的R/DataDAO以及LinkedIn简历数据的DLP Labs,已有 14w名Reddit 用户加入了 R/DataDAO,现在已经训练了第一个用户拥有的 AI 模型。
3、Validators
验证者负责Vana Layer 1 区块链的安全性、完整性和功能,确保数据交易得到正确的验证、记录和添加到区块链中,主要包含L1 Validators和Satya Validators。
L1 Validators负责VANA的安全和共识。最少质押35000个VANA成为L1 Validators,初始L1 Validators为64个,后续拓展到128个。每个块获得5VANA,宕机将会受到10%的处罚,奖励每年减少10%。
Satya Validators提供可信执行环境(TEE)对用户贡献的数据进行验证,并且保证验证过程的数据安全和隐私。从而获得VANA奖励。
4、Data Consumers
AI模型的开发者作为Data Consumers选择并购买适合 AI 模型开发需求的数据集访问权限,使用 Vana 的基础设施进行AI 训练和数据分析,与DataDAO合作优化AI模型。
以ChatGPT DataDAO为例,用户上传下载链接和数据文件都经过加密传输给Satya Validators。Satya Validators解密后计算校验,确保用户上传的数据的真实性,没有被篡改。
VANA代币应用场景及经济模型
1、Validators质押VANA保障网络安全和验证数据获得VANA奖励;
2、VANA作为网络中执行合约、DataDAO交互等链上操作的GAS;
3、用户在DataDAO质押VANA,从而获取VANA质押奖励;
4、Data Consumers访问数据时默认使用VANA;
5、VANA持有者参与治理,并对提案投票,VANA作为DataDAO发行代币的主要交易对。
VANA总量上限1.2亿个,代币分配如下图所示。
Community社区
主要包含 DataDAO 的高质量数据贡献奖励、早期使用者的空投以及开发人员。TGE供应20.3%VANA,没有锁定期。
Ecosystem生态系统
主要包含支持DataDAO发行的代币、区块奖励及合作伙伴,TGE供应4.8%VANA,并不锁仓。
Investors 投资人
Vana 目前已获得总计 2500 万美元的融资,其中 包括Coinbase Ventures 的 500 万美元战略轮融资、 Paradigm 的 1800 万美元 A 轮融资以及Polychain 的 200 万美元种子轮融资。
Core Contributors 核心开发团队
综上,TGE时VANA的总流通量为3000w个,其中包括binance launchpool的480w个VANA。
VANA模式如果在中国存在的法律风险
VANA这种去中心化AI模型数据项目以更加低廉的成本去解决AI模型训练的数据问题,让AI模型的创业者可以拥有高质量的训练数据,打破大型互联网企业制造的数据孤岛,让腾讯获取阿里用户数据去训练AI模型的场景拥有了可能,对一些致力于AI模型创业的个人及企业降低了门槛,但这种模式在中国复制可能会存在数据出境的风险。
国家互联网信息办公室发布《数据出境安全评估申报指南(第一版)》中明确规定数据出境行为包括:
(一)数据处理者将在境内运营中收集和产生的数据传输、存储至境外;
(二)数据处理者收集和产生的数据存储在境内,境外的机构、组织或者个人可以查询、调取、下载、导出;
(三)国家网信办规定的其他数据出境行为。
《中华人民共和国出境入境管理法》第八十九条明确规定,出境是指由中国内地前往其他国家或者地区,由中国内地前往香港特别行政区、澳门特别行政区,由中国大陆前往台湾地区。由此可以看出判断是否出境是以司法辖区为依据。
DataDAO的创建以及用户贡献数据并没有任何限制,Data Consumers不需要做KYC,只要支付VANA就可访问收集的数据。在这种情况下,国内用户参与各种DataDAO贡献社交媒体、简历数据可能会涉及数据出境。
对于个人数据信息的定义:根据《中华人民共和国网络安全法》第七十六条规定:个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。
DataDAO收集的简历、医疗健康数据中会涉及姓名、出生日期、电话号码等个人信息甚至敏感个人信息。《中华人民共和国个人信息保护法》对于这些数据信息的使用以及跨境都有限制规定。