Na era da inteligência artificial, a importância dos dados é evidente. Os dados servem como base para grandes modelos de IA, e a qualidade das fontes de dados de treinamento determina os recursos de IA e a experiência do usuário do produto. Os gigantes da tecnologia da Internet com grandes quantidades de dados de negócios multidimensionais têm vantagens de cenário. Através de anos de acumulação de dados durante a operação da plataforma da Internet e dos cenários de uso da plataforma existentes pelos usuários, uma grande quantidade de dados privados pode ser gerada, o que tem. vantagens óbvias no treinamento e otimização do modelo.
Após o lançamento dos primeiros produtos de IA, eles contam com o feedback de seus próprios grupos de usuários e interações de produtos para ajustar os modelos, resultando em um efeito volante de dados e otimização e iteração contínuas, que se tornarão um fosso para produtos de IA no futuro. No entanto, as start-ups na área de IA sofrem com a quantidade e qualidade insuficientes de fontes de dados para treinar modelos. Este tipo de barreiras de dados e a formação de ilhas de dados impedirão o desenvolvimento da inteligência artificial.
VANA:打破数据孤岛,用户分享数据价值
早期的互联网百花齐放,涌现出各种颠覆传统行业运营模式的互联网公司,但后来随着行业的发展,头部互联网科技公司开始垄断市场,大型互联网平台掌控着流量入口,拥有大量的用户数据。头部平台可以使用这些用户数据去做算法推荐、信用贷款获取商业价值,Reddit已通过出售用户生成的内容作为AI训练数据获得了2亿美元的收益,但产生数据的用户并没有分享到数据的价值和成果。VANA的出现将打破数据孤岛,让用户拥有数据,共享数据收益。
VANA是一个开放且去中心化的数据主权协议,作为与EVM兼容的L1,VANA让用户拥有自己的数据,贡献个人数据分享人工智能产生收益。
VANA解决AI模型训练数据来源的问题
众所周知,互联网科技公司AI模型的训练数据来源主要通过爬虫、付费购买以及自身业务沉淀。爬虫数据的优势在于易获取,但数据质量低,清洗难度大;付费购买的数据同质化严重,因为商业竞争的缘故,真正有价值的业务数据源少,这种数据很难给AI模型带来差异化优势;业务场景沉淀的数据价值高,但该方式对于初创小微企业不友好。
而VANA的数据来源于生态系统中的用户贡献,VANA生态参与用户向DataDAO贡献X、LinkedIn等社交媒体或者物联网数据,这些数据都将安全的存储在链下。数据经过验证、清洗标记后应用于AI模型的开发。参与的用户贡献数据后可以获得DataDAO的治理权,决定数据的使用权,分享数据产生的价值。
VANA模式的优势
采用去中心化的治理方式,让用户拥有数据的所有权,自主决定数据的使用方式;
用户通过VANA可转换成可交易的数据资产,用于去中心人工智能的应用;
通过采用零知识证明(ZKP)和可信执行环境(TEE)保障数据隐私和安全。
VANA网络构成
VANA的参与者主要包含贡献数据者Data Contributors、验证者Validators、质押者、数据消费者Data Consumers以及DLP(Data Liquidity Pool Creator),也就是DataDAO。
1、Data Contributors
参与用户可以选择VANA网络中成立的DataDAO贡献自己的数据,提交的数据链下存储,链上存储贡献证明。以ChatGPT DataDAO举例,用户通过邮件请求OpenAI导出ChatGPT数据,收到邮件回复后将数据和下载链接通过gptdatadao.org上传。
2、DataDAO
质押至少价值100美元的VANA可以创建注册DataDAO,完成注册后,DataDAO将会出现在DataHub上供数据贡献者选择。为了推动DataDAO持续发展,VANA将为质押VANA数据排名前16的DataDAO提供奖励,前三年质押奖励为代币总量的15%,每21天一个奖励周期,质押解锁需要7天。VANA的奖励数量由质押数量、质押时间、DataDAO获取奖励的数量决定。DataDAO需要质押至少10000VANA才有机会获取奖励。奖励的50%固定归质押者所有,剩余的奖励由DataDAO决定是否其用途。
目前已注册创建了17个DataDAO,其中包含专注于Twitter/X数据的Volara、Reddit的R/DataDAO以及LinkedIn简历数据的DLP Labs,已有14万名Reddit用户加入了R/DataDAO,现在已经训练了第一个用户拥有的AI模型。
3、Validators
验证者负责Vana Layer 1区块链的安全性、完整性和功能,确保数据交易得到正确的验证、记录和添加到区块链中,主要包含L1 Validators和Satya Validators。
L1 Validators负责VANA的安全和共识。最少质押35000个VANA成为L1 Validators,初始L1 Validators为64个,后续拓展到128个。每个块获得5VANA,宕机将会受到10%的处罚,奖励每年减少10%。
Satya Validators提供可信执行环境(TEE)对用户贡献的数据进行验证,并且保证验证过程的数据安全和隐私。从而获得VANA奖励。
4、Data Consumers
AI模型的开发者作为Data Consumers选择并购买适合AI模型开发需求的数据集访问权限,使用Vana的基础设施进行AI训练和数据分析,与DataDAO合作优化AI模型。
以ChatGPT DataDAO为例,用户上传下载链接和数据文件都经过加密传输给Satya Validators。Satya Validators解密后计算校验,确保用户上传的数据的真实性,没有被篡改。
VANA代币应用场景及经济模型
1、Validators质押VANA保障网络安全和验证数据获得VANA奖励;
2、VANA作为网络中执行合约、DataDAO交互等链上操作的GAS;
3、用户在DataDAO质押VANA,从而获取VANA质押奖励;
4、Data Consumers访问数据时默认使用VANA;
5、VANA持有者参与治理,并对提案投票,VANA作为DataDAO发行代币的主要交易对。
VANA总量上限1.2亿个,代币分配如下图所示。
Community社区
主要包含DataDAO的高质量数据贡献奖励、早期使用者的空投以及开发人员。TGE供应20.3%VANA,没有锁定期。
Ecosystem生态系统
主要包含支持DataDAO发行的代币、区块奖励及合作伙伴,TGE供应4.8%VANA,并不锁仓。
Investors投资人
Vana目前已获得总计2500万美元的融资,其中包括Coinbase Ventures的500万美元战略轮融资、Paradigm的1800万美元A轮融资以及Polychain的200万美元种子轮融资。
Core Contributors核心开发团队
综上,TGE时VANA的总流通量为3000万个,其中包括binance launchpool的480万个VANA。
VANA模式如果在中国存在的法律风险
VANA这种去中心化AI模型数据项目以更加低廉的成本去解决AI模型训练的数据问题,让AI模型的创业者可以拥有高质量的训练数据,打破大型互联网企业制造的数据孤岛,让腾讯获取阿里用户数据去训练AI模型的场景拥有了可能,对一些致力于AI模型创业的个人及企业降低了门槛,但这种模式在中国复制可能会存在数据出境的风险。
国家互联网信息办公室发布(数据出境安全评估申报指南(第一版))中明确规定数据出境行为包括:
(一)数据处理者将在境内运营中收集和产生的数据传输、存储至境外;
(二)数据处理者收集和产生的数据存储在境内,境外的机构、组织或者个人可以查询、调取、下载、导出;
(三)国家网信办规定的其他数据出境行为。
(中华人民共和国出境入境管理法)第八十九条明确规定,出境是指由中国内地前往其他国家或者地区,由中国内地前往香港特别行政区、澳门特别行政区,由中国大陆前往台湾地区。由此可以看出判断是否出境是以司法辖区为依据。
DataDAO的创建以及用户贡献数据并没有任何限制,Data Consumers不需要做KYC,只要支付VANA就可访问收集的数据。在这种情况下,国内用户参与各种DataDAO贡献社交媒体、简历数据可能会涉及数据出境。
对于个人数据信息的定义:根据(中华人民共和国网络安全法)第七十六条规定:个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。
DataDAO收集的简历、医疗健康数据中会涉及姓名、出生日期、电话号码等个人信息甚至敏感个人信息。(中华人民共和国个人信息保护法)对于这些数据信息的使用以及跨境都有限制规定。