Autor: Ed Roman, sócio-gerente da Hack VC

Compilado: 1912212.eth, Foresight News

 

AI + Crypto é uma das áreas de fronteira que tem atraído muita atenção no mercado de criptomoedas recentemente, como treinamento descentralizado de IA, GPU DePINs e modelos de IA resistentes à censura.

Por trás destes avanços deslumbrantes, não podemos deixar de perguntar: será este um verdadeiro avanço tecnológico ou apenas um tema quente? Este artigo irá esclarecer a névoa para você, analisar a visão criptografia x IA e discutir os reais desafios e oportunidades, e revelar quais são promessas vazias e quais são realmente viáveis?

Visão nº 1: Treinamento descentralizado de IA

O problema com o treinamento de IA on-chain é que ele requer comunicação e coordenação de alta velocidade entre GPUs porque as redes neurais exigem retropropagação durante o treinamento. A Nvidia possui duas inovações para isso (NVLink e InfiniBand). Essas tecnologias tornam a comunicação da GPU super rápida, mas são tecnologias apenas locais que funcionam apenas em clusters de GPU (velocidades de mais de 50 gigabits) localizados em um único data center.

Se uma rede descentralizada for introduzida, a velocidade diminuirá repentinamente em várias ordens de magnitude devido ao aumento da latência e largura de banda da rede. Em comparação com o rendimento que você pode obter da interconexão de alta velocidade da Nvidia dentro do data center, essa velocidade não é possível para casos de uso de treinamento de IA.

Observe que também há inovações abaixo que podem oferecer esperança para o futuro:

  • O treinamento distribuído no InfiniBand está acontecendo em grande escala, já que a própria NVIDIA oferece suporte ao treinamento distribuído não nativo no InfiniBand por meio da NVIDIA Collective Communications Library. No entanto, ainda está em seu estágio inicial, portanto as métricas de adoção ainda não foram determinadas. O gargalo da lei física à distância ainda existe, então o treinamento local no InfiniBand ainda é muito mais rápido.

  • Foram publicadas algumas novas pesquisas sobre treinamento descentralizado que requer menos tempo de sincronização de comunicação, o que pode tornar o treinamento descentralizado mais prático no futuro.

  • A fragmentação e o agendamento inteligentes do treinamento do modelo ajudam a melhorar o desempenho. Da mesma forma, novos modelos de arquiteturas podem ser projetados especificamente para futuras infraestruturas distribuídas (Gensyn está conduzindo pesquisas nessas áreas).

A parte de dados do treinamento também é desafiadora. Qualquer processo de treinamento em IA envolve o processamento de grandes quantidades de dados. Normalmente, os modelos são treinados em sistemas centralizados de armazenamento de dados seguros com alta escalabilidade e desempenho. Isto requer a transferência e o processamento de terabytes de dados, e este não é um ciclo único. Os dados geralmente apresentam ruído e contêm erros, portanto, devem ser limpos e convertidos em um formato utilizável antes de treinar um modelo. Este estágio envolve tarefas repetitivas de padronização, filtragem e tratamento de valores ausentes. Todos estes enfrentam desafios graves num ambiente descentralizado.

A parte dos dados de treinamento também é iterativa, o que não é compatível com Web3. A Open AI passou por milhares de iterações para alcançar seus resultados. Os cenários de tarefas mais básicos para um cientista de dados em uma equipe de IA incluem definição de metas, preparação de dados, análise e curadoria de dados para extrair insights importantes e torná-los adequados para modelagem. Em seguida, desenvolva um modelo de aprendizado de máquina para resolver o problema definido e valide seu desempenho usando um conjunto de dados de teste. O processo é iterativo: se o modelo atual não apresentar o desempenho esperado, os especialistas voltam à fase de coleta de dados ou treinamento do modelo para melhorar os resultados. Imagine que se este processo fosse realizado num ambiente descentralizado, não seria fácil adaptar os frameworks e ferramentas mais avançados existentes na Web3.

Outro problema com o treinamento de modelos de IA on-chain é que esse mercado é muito menos interessante do que a inferência. Atualmente, o treinamento de modelos de linguagem de IA em larga escala requer uma grande quantidade de recursos computacionais de GPU. No longo prazo, a inferência se tornará o principal caso de uso das GPUs. Imagine quantos grandes modelos de linguagem de IA precisam ser treinados para atender à demanda global. O que é mais comparado ao número de clientes que usam esses modelos?

Suposição nº 2: Use cálculos de inferência de IA excessivamente redundantes para chegar a um consenso

Outro desafio relacionado à criptografia e à IA é verificar a precisão da inferência da IA, porque não é possível confiar totalmente em uma única parte centralizada para realizar operações de inferência e há um risco potencial de que os nós possam se comportar de maneira inadequada. Este desafio não existe na Web2 AI porque não existe um sistema de consenso descentralizado.

A solução é a computação redundante, permitindo que vários nós repitam as mesmas operações de inferência de IA, que podem ser executadas em um ambiente sem confiança e evitar pontos únicos de falha.

O problema com esta abordagem, contudo, é que existe uma escassez extrema de chips de IA de alta qualidade. Os tempos de espera de um ano para chips NVIDIA de última geração aumentam os preços. Se você precisar que a inferência de IA seja reexecutada várias vezes em vários nós, ela se tornará exponencialmente mais cara, tornando-a inviável para muitos projetos.

Suposição nº 3: Casos de uso de IA específicos da Web3 em curto prazo

Foi sugerido que a Web3 deveria ter seus próprios casos de uso de IA exclusivos, direcionados especificamente aos clientes da Web3. Pode ser (por exemplo) um protocolo Web3 que usa IA para avaliar o risco de pools DeFi, uma carteira Web3 que sugere novos protocolos aos usuários com base no histórico da carteira ou um jogo Web3 que usa IA para controlar personagens não-jogadores (NPCs).

Por enquanto, este é um mercado nascente (no curto prazo) onde os casos de uso ainda estão sendo explorados. Alguns desafios incluem:

  • Como a demanda do mercado ainda está engatinhando, há menos acordos potenciais de IA necessários para casos de uso nativos da Web3.

  • Há menos clientes, muito menos clientes Web3 em comparação com clientes Web2, portanto o mercado é menos descentralizado.

  • Os próprios clientes são menos estáveis ​​porque são startups com menos financiamento, e algumas startups podem morrer com o tempo. E os provedores de serviços de IA da Web3 que atendem aos clientes da Web3 podem precisar recuperar parte de sua base de clientes para substituir aqueles que desapareceram, tornando o dimensionamento de seus negócios extremamente desafiador.

No longo prazo, estamos muito otimistas em relação aos casos de uso de IA nativa da Web3, especialmente à medida que os agentes de IA se tornam mais predominantes. Imaginamos que no futuro qualquer usuário do Web3 terá um grande número de agentes de IA para ajudá-lo a completar suas tarefas.

Visão nº 4: GPU DePIN do consumidor

Existem muitas redes descentralizadas de computação de IA que dependem de GPUs de consumo em vez de data centers. As GPUs de consumo são ideais para tarefas de inferência de IA de baixo custo ou casos de uso de consumidor onde a latência, a taxa de transferência e a confiabilidade são flexíveis. Mas para casos de uso corporativo sério (que é a maior parte do mercado que importa), os clientes precisam de redes de maior confiabilidade em comparação com máquinas domésticas e, muitas vezes, de GPUs de ponta se tiverem tarefas de inferência mais complexas. Os data centers são mais adequados para esses casos de uso de clientes mais valiosos.

Observe que consideramos GPUs de consumo adequadas para demonstrações, bem como indivíduos e startups que podem tolerar menor confiabilidade. Mas esses clientes são menos valiosos, por isso acreditamos que os DePINs adaptados especificamente para empresas Web2 serão mais valiosos no longo prazo. Como resultado, o projeto GPU DePIN evoluiu desde seus primeiros dias de hardware principalmente para consumidor, até ter A100/H100 e disponibilidade em nível de cluster.

Realidade – Casos de uso prático de criptomoeda x IA

Agora discutimos casos de uso que oferecem benefícios reais. Estas são as vitórias reais, e Crypto x AI pode agregar valor claro.

Benefício real nº 1: atendendo clientes Web2

A McKinsey estima que, entre os 63 casos de utilização analisados, a IA generativa poderia acrescentar o equivalente a 2,6 biliões de dólares a 4,4 biliões de dólares em receitas anuais – em comparação com o PIB total do Reino Unido em 2021 de 3,1 biliões de dólares. Isto aumentaria o impacto da IA ​​em 15% a 40%. Se tivermos em conta o impacto da IA ​​generativa incorporada em software atualmente utilizado para tarefas que não sejam casos de utilização, estima-se que o impacto seja aproximadamente o dobro.

Se você fizer as contas com base nas estimativas acima, isso significa que o valor total do mercado global para IA (além da IA ​​generativa) pode estar na casa das dezenas de trilhões de dólares. Em comparação, o valor total de todas as criptomoedas (incluindo Bitcoin e todas as altcoins) hoje é de apenas cerca de US$ 2,7 trilhões. Então, sejamos realistas: a grande maioria dos clientes que precisam de IA no curto prazo serão clientes da Web2, porque os clientes da Web3 que realmente precisam de IA serão apenas uma pequena parte desses US$ 2,7 trilhões (considerando que o BTC é o mercado, o próprio Bitcoin não requer/usa IA).

Os casos de uso de IA da Web3 estão apenas começando e não está claro quão grande será o mercado. Mas uma coisa é certa: representará apenas uma pequena parcela do mercado Web2 no futuro próximo. Acreditamos que a Web3 AI ainda tem um futuro brilhante, mas isso significa apenas que a aplicação mais poderosa da Web3 AI no momento está atendendo aos clientes da Web2.

Exemplos hipotéticos de clientes Web2 que poderiam se beneficiar da IA ​​Web3 incluem:

  • Construir desde o início uma empresa de software centrada em IA e específica para verticais (por exemplo, Cedar.ai ou Observe.ai)

  • Grandes empresas que ajustam modelos para seus próprios fins (por exemplo, Netflix)

  • Provedores de IA em rápido crescimento (por exemplo, Antrópico)

  • Empresas de software que integram IA em produtos existentes (por exemplo, Canva)

Esta é uma função de cliente relativamente estável porque os clientes são normalmente grandes e valiosos. É improvável que fechem as portas tão cedo e representam enormes clientes potenciais para serviços de IA. Os serviços de IA da Web3 que atendem aos clientes da Web2 se beneficiarão dessa base de clientes estável.

Mas por que os clientes Web2 desejariam usar uma pilha Web3? O restante deste artigo explica essa situação.

Benefício real nº 2: custos mais baixos de uso de GPU com GPU DePIN

GPU DePIN agrega poder de computação de GPU subutilizado, o mais confiável dos quais vem de data centers, e o torna disponível para inferência de IA. Uma analogia simples para este problema é “Airbnb em GPUs”.

A razão pela qual estamos entusiasmados com o GPU DePIN é que, como mencionado acima, há uma escassez de chips NVIDIA e atualmente há ciclos de GPU desperdiçados que poderiam ser usados ​​para inferência de IA. Esses proprietários de hardware têm custos irrecuperáveis ​​e equipamentos atualmente subutilizados, de modo que essas GPUs parciais podem ser disponibilizadas a um custo muito menor do que o status quo, porque isso na verdade “encontra o dinheiro” para o proprietário do hardware.

Exemplos incluem:

  • Máquina AWS. Se você alugasse um H100 da AWS hoje, teria que se comprometer com um aluguel de 1 ano porque a oferta no mercado é limitada. Isso gera desperdício porque você provavelmente não usará a GPU 7 dias por semana, 365 dias por ano.

  • Hardware de mineração de Filecoin. Filecoin tem uma grande oferta subsidiada, mas não uma grande procura real. O Filecoin nunca encontrou um verdadeiro ajuste entre o produto e o mercado, então os mineradores do Filecoin corriam o risco de fechar as portas. Essas máquinas são equipadas com GPUs que podem ser reaproveitadas para tarefas de inferência de IA de baixo custo.

  • Hardware de mineração ETH. Quando o Ethereum faz a transição de PoW para PoS, isso libera rapidamente muito hardware que pode ser reaproveitado para inferência de IA.

Observe que nem todo hardware GPU é adequado para inferência de IA. Uma razão óbvia para isso é que as GPUs mais antigas não possuem a quantidade de memória de GPU necessária para LLMs, embora já existam algumas inovações interessantes que podem ajudar nesse aspecto. Por exemplo, a tecnologia Exabits pode carregar neurônios ativos na memória da GPU e neurônios inativos na memória da CPU. Eles prevêem quais neurônios precisam estar ativos/inativos. Isso permite que GPUs de baixo custo lidem com cargas de trabalho de IA, mesmo com memória de GPU limitada. Isso efetivamente torna as GPUs de baixo custo mais úteis para inferência de IA.

O Web3 AI DePINs precisa evoluir seu produto ao longo do tempo e fornecer serviços de nível empresarial, como logon único, conformidade com SOC 2, acordos de nível de serviço (SLA), etc. Isso é semelhante ao que os atuais provedores de serviços em nuvem oferecem aos clientes Web2.

Benefício real nº 3: modelos resistentes à censura para evitar a autocensura OpenAI

Há muita discussão sobre a censura da IA. A Turquia, por exemplo, proibiu temporariamente a Open AI (mais tarde mudou a sua abordagem quando a Open AI melhorou a conformidade). Acreditamos que a censura a nível nacional é desinteressante porque os países precisam de adotar a IA para permanecerem competitivos.

A Open AI também realiza autocensura. Por exemplo, Open AI não irá lidar com conteúdo NSFW. A Open AI também não preverá a próxima eleição presidencial. Achamos que os casos de uso de IA não são apenas interessantes, mas também um mercado enorme, mas que a IA aberta não tocará por razões políticas.

O código aberto é uma ótima solução porque os repositórios do Github não são influenciados pelos acionistas ou pelo conselho de administração. Um exemplo é Venice.ai, que promete privacidade e opera de forma resistente à censura. Web3 AI pode efetivamente levá-lo para o próximo nível, alimentando esses modelos de software de código aberto (OSS) em clusters de GPU de baixo custo para realizar inferências. É por estas razões que acreditamos que OSS + Web3 é a combinação ideal para preparar o caminho para uma IA resistente à censura.

Benefício real nº 4: evite enviar informações de identificação pessoal para OpenAI

As grandes empresas têm preocupações com a privacidade dos seus dados internos. Para esses clientes, pode ser difícil confiar em um terceiro OpenAI para possuir esses dados.

Na Web3, pode parecer ainda mais preocupante (superficialmente) para essas empresas que seus dados internos apareçam repentinamente na web descentralizada. No entanto, existem inovações em tecnologias que melhoram a privacidade para IA:

Ambiente de execução confiável (TEE), como Super Protocolo

Criptografia Totalmente Homomórfica (FHE), como Fhenix.io (uma empresa de portfólio de fundos administrados por Hack VC) ou Inco Network (ambos desenvolvidos por Zama.ai), bem como PPML de Bagel

Essas tecnologias ainda estão evoluindo e o desempenho continua a melhorar com os próximos Zero Knowledge (ZK) e FHE ASICs. Mas o objetivo a longo prazo é proteger os dados empresariais e, ao mesmo tempo, ajustar o modelo. À medida que esses protocolos surgem, a Web3 pode se tornar um local mais atraente para a computação de IA que preserva a privacidade.

Benefício real nº 5: Aproveite as inovações mais recentes no modelo de código aberto

O software de código aberto tem consumido a participação de mercado do software proprietário nas últimas décadas. Vemos o LLM como uma forma de software proprietário capaz de perturbar o OSS. Exemplos notáveis ​​de desafiantes incluem Llama, RWKV e Mistral.ai. Esta lista sem dúvida aumentará com o tempo (uma lista mais abrangente pode ser encontrada em Openrouter.ai). Ao aproveitar a IA Web3 (alimentada por modelos OSS), as pessoas podem inovar com essas inovações.

Acreditamos que, ao longo do tempo, a força de trabalho de desenvolvimento global do código aberto, combinada com incentivos às criptomoedas, pode impulsionar a inovação rápida nos modelos de código aberto e nos agentes e estruturas construídos sobre eles. Um exemplo de protocolo de agente de IA é o Theoriq. Theoriq aproveita modelos OSS para criar uma rede interconectada de agentes de IA combináveis ​​que podem ser montados para criar soluções de IA de nível superior.

A razão pela qual estamos confiantes nisso é que, no passado, a maioria das inovações de “software para desenvolvedores” foram lentamente superadas pelo OSS ao longo do tempo. A Microsoft já foi uma empresa de software proprietário e agora é a empresa número 1 em contribuições para o Github. Há uma razão para isso: se você observar como Databricks, PostGresSQL, MongoDB e outros estão perturbando bancos de dados proprietários, esse é um exemplo de OSS perturbando toda uma indústria, então o precedente aqui é bastante convincente.

No entanto, há um problema. Uma coisa complicada sobre os grandes modelos de linguagem de código aberto (OSS LLMs) é que a OpenAI começou a firmar acordos de licenciamento de dados pagos com algumas organizações, como o Reddit e o New York Times. Se esta tendência continuar, os grandes modelos de linguagem de código aberto poderão tornar-se mais difíceis de competir devido às barreiras financeiras à aquisição de dados. A Nvidia pode aumentar ainda mais seu investimento em computação confidencial como uma ajuda para garantir o compartilhamento de dados. O tempo revelará como isso se desenrola.

Benefício real nº 6: Consenso por meio de amostragem aleatória de redução de custos ou por meio de provas ZK

Um dos desafios da inferência Web3 AI é a verificação. Supõe-se que os validadores tenham a oportunidade de enganar os seus resultados para ganhar taxas, pelo que validar inferências é uma medida importante. Observe que essa trapaça ainda não aconteceu, pois a inferência da IA ​​está em sua infância, mas é inevitável, a menos que sejam tomadas medidas para conter esse comportamento.

A abordagem padrão do Web3 é fazer com que vários validadores repitam a mesma operação e comparem os resultados. Conforme mencionado anteriormente, o desafio flagrante neste problema é que a inferência de IA é muito cara devido à atual escassez de chips Nvidia de última geração. Dado que o Web3 pode fornecer inferência de baixo custo por meio de GPU DePIN subutilizado, a computação redundante enfraquecerá gravemente a proposta de valor do Web3.

Uma solução mais promissora é realizar provas ZK para cálculos de inferência de IA fora da cadeia. Nesse caso, provas concisas de ZK podem ser verificadas para determinar se o modelo foi treinado corretamente ou se a inferência foi executada corretamente (chamada zkML). Os exemplos incluem Modulus Labs e ZK onduit. Como as operações ZK são computacionalmente intensivas, o desempenho destas soluções ainda está em sua infância. No entanto, esperamos que a situação melhore com o lançamento dos ASICs de hardware ZK em um futuro próximo.

Mais promissora é a ideia de um método de raciocínio de IA baseado em amostragem um tanto “otimista”. Neste modelo, apenas uma pequena fração dos resultados produzidos pelo validador é verificada, mas o custo económico da barra é elevado o suficiente para que, se for apanhado, haja um forte desincentivo económico para os validadores trapacearem. Dessa forma, você economiza cálculos redundantes.

Outra ideia promissora são soluções de marca d’água e impressão digital, como a proposta pela Bagel Network. Isso é semelhante ao mecanismo pelo qual o Amazon Alexa fornece garantia de qualidade do modelo de IA no dispositivo em seus milhões de dispositivos.

Benefício real nº 7: economia com OSS (lucros da OpenAI)

A próxima oportunidade que a Web3 traz para a IA é a democratização dos custos. Até agora, discutimos a economia de custos de GPU com DePIN. Mas a Web3 também oferece a oportunidade de economizar margens em serviços centralizados de IA da Web2 (como Open AI, que no momento em que este livro foi escrito tinha mais de US$ 1 bilhão em receita anual). Estas poupanças de custos advêm do facto de que a utilização de modelos OSS em vez de modelos proprietários permite poupanças adicionais porque os criadores do modelo não estão a tentar obter lucro.

Muitos modelos OSS permanecerão totalmente gratuitos, resultando na melhor economia para os clientes. Mas pode haver alguns modelos de OSS que também estão tentando esses métodos de monetização. Considere que apenas 4% de todos os modelos do Hugging Face foram treinados por empresas com orçamento para ajudar a subsidiar os modelos. Os 96% restantes dos modelos são treinados pela comunidade. Este grupo (96% dos Hugging Faces) tem custos reais básicos (incluindo custos de computação e custos de dados). Portanto, esses modelos precisarão ser monetizados de alguma forma.

Existem diversas propostas para monetizar o modelo de software de código aberto. Um dos mais interessantes é o conceito de “emissão de modelo inicial”, que consiste em tokenizar o próprio modelo, reter uma parte dos tokens para a equipe e canalizar algumas receitas futuras do modelo para os detentores de tokens, embora certamente haja alguma Barreiras Legais e Regulatórias.

Outros modelos de OSS tentarão monetizar o uso. Observe que se isso se tornar realidade, o modelo OSS poderá começar a se parecer cada vez mais com seu modelo de monetização Web2. Mas, na realidade, o mercado será dividido em duas partes, com alguns modelos permanecendo totalmente gratuitos.

Benefício real nº 8: fontes de dados descentralizadas

Um dos maiores desafios que a IA enfrenta é encontrar os dados certos para treinar um modelo. Mencionamos anteriormente que o treinamento descentralizado em IA tem seus desafios. Mas que tal usar uma rede descentralizada para obter os dados (que podem então ser usados ​​para treinamento em outro lugar, mesmo em locais tradicionais da Web2)?

É exatamente isso que startups como a Grass estão fazendo. Grass é uma rede descentralizada de “data scrapers” que contribuem com o poder de processamento ocioso de suas máquinas para fontes de dados a fim de fornecer informações para o treinamento de modelos de IA. Hipoteticamente, em escala, esta fonte de dados poderia superar os esforços de fonte de dados internos de qualquer empresa devido ao poder de uma grande rede de nós incentivados. Isso inclui não apenas obter mais dados, mas obtê-los com mais frequência para torná-los mais relevantes e atualizados. Na verdade, também é impossível impedir as hordas descentralizadas de coleta de dados porque elas são inerentemente descentralizadas e não residem em um único endereço IP. Eles também têm uma rede que limpa e normaliza os dados, por isso são úteis depois de copiados.

Depois de ter os dados, você também precisará de um local para armazená-los na cadeia, bem como de LLMs gerados a partir desses dados.

Observe que a função dos dados na Web3 AI pode mudar no futuro. Hoje, o status quo para LLMs é pré-treinar o modelo usando dados e refiná-lo ao longo do tempo com mais dados. Porém, como os dados na Internet mudam em tempo real, esses modelos ficam sempre um pouco desatualizados. Portanto, as respostas inferidas pelo LLM são ligeiramente imprecisas.

A direção futura pode ser um novo paradigma – dados “em tempo real”. O conceito é que quando uma pergunta de inferência é feita a um modelo de linguagem grande (LLM), o LLM pode passar pelas dicas e injetar dados que são reunidos da Internet em tempo real. Dessa forma, o LLM pode usar os dados mais recentes. Grass está trabalhando nesta parte.

Agradecimentos especiais às seguintes pessoas por seus comentários e ajuda com este artigo: Albert Castellana, Jasper Zhang, Vassilis Tziokas, Bidhan Roy, Rezo, Vincent Weisser, Shashank Yadav, Ali Husain, Nukri Basharuli, Emad Mostaque, David Minarsch, Tommy Shaughnessy, Michael Heinrich, Keccak Wong, Marc Weinstein, Phillip Bonello, Jeff Amico, Ejaaz Ahamadeen, Evan Feng, JW Wang.