Escrito por: IOSG Ventures

O rápido desenvolvimento da inteligência artificial baseia-se em infraestruturas complexas. A pilha de tecnologia de IA é uma arquitetura em camadas de hardware e software que é a espinha dorsal da atual revolução da IA. Aqui, forneceremos uma análise aprofundada das principais camadas da pilha de tecnologia e ilustraremos a contribuição de cada camada para o desenvolvimento e implementação da IA. Por fim, refletiremos sobre a importância de dominar esses fundamentos, especialmente ao avaliar oportunidades na intersecção de criptomoeda e IA, como projetos DePIN (infraestrutura física descentralizada), como redes GPU.

1. Camada de hardware: base de silicone

No nível mais baixo está o hardware, que fornece o poder de computação física para IA.

  • CPU (Unidade Central de Processamento): É o processador básico para computação. Eles são excelentes no processamento de tarefas sequenciais e são importantes para a computação de uso geral, incluindo pré-processamento de dados, tarefas de inteligência artificial de pequena escala e coordenação de outros componentes.

  • GPU (Unidade de Processamento Gráfico): Originalmente projetada para renderização gráfica, mas tornou-se uma parte importante da inteligência artificial devido à sua capacidade de realizar um grande número de cálculos simples simultaneamente. Essa capacidade de processamento paralelo torna as GPUs ideais para treinar modelos de aprendizado profundo, e os modelos GPT modernos não seriam possíveis sem o desenvolvimento de GPUs.

  • Aceleradores de IA: chips projetados especificamente para cargas de trabalho de IA que são otimizados para operações comuns de IA, proporcionando alto desempenho e eficiência energética para tarefas de treinamento e inferência.

  • FPGA (Programmable Array Logic): Oferece flexibilidade com sua natureza reprogramável. Eles podem ser otimizados para tarefas específicas de inteligência artificial, especialmente em cenários de inferência onde é necessária baixa latência.

2. Software subjacente: middleware

Esta camada na pilha de tecnologia de IA é crítica porque forma a ponte entre a estrutura de IA de alto nível e o hardware subjacente. Tecnologias como CUDA, ROCm, OneAPI e SNPE fortalecem a conexão entre estruturas de alto nível e arquiteturas de hardware específicas para otimizar o desempenho.

Como camada de software proprietária da NVIDIA, CUDA é a pedra angular da ascensão da empresa no mercado de hardware de IA. A posição de liderança da NVIDIA não se deve apenas às suas vantagens de hardware, mas também reflete os poderosos efeitos de rede de seu software e integração de ecossistema.

CUDA tem sido tão influente porque está profundamente integrado à pilha de tecnologia de IA e fornece um conjunto de bibliotecas de otimização que se tornaram o padrão de fato na área. Este ecossistema de software cria um poderoso efeito de rede: pesquisadores e desenvolvedores de IA proficientes em CUDA espalham seu uso no processo de treinamento para a academia e a indústria.

O ciclo virtuoso resultante reforça a liderança de mercado da NVIDIA à medida que o ecossistema de ferramentas e bibliotecas baseadas em CUDA se torna cada vez mais indispensável para os profissionais de IA.

Essa simbiose de hardware e software não apenas solidifica a posição da NVIDIA na vanguarda da computação de IA, mas também dá à empresa um poder de precificação significativo, o que é raro no mercado de hardware, muitas vezes comoditizado.

O domínio da CUDA e a relativa obscuridade dos seus concorrentes podem ser atribuídos a uma série de factores que criam barreiras significativas à entrada. A vantagem pioneira da NVIDIA na computação acelerada por GPU permitiu que a CUDA construísse um ecossistema forte antes que os concorrentes tivessem uma posição segura. Embora concorrentes como AMD e Intel tenham hardware excelente, suas camadas de software carecem das bibliotecas e ferramentas necessárias e não podem se integrar perfeitamente às pilhas de tecnologia existentes. É aqui que existe uma enorme lacuna entre a NVIDIA/CUDA e outros concorrentes.

3. Compilador: Tradutor

TVM (Tensor Virtual Machine), MLIR (Multi-Layered Intermediate Representation) e PlaidML fornecem diferentes soluções para o desafio de otimizar cargas de trabalho de IA em múltiplas arquiteturas de hardware.

O TVM originou-se de pesquisas na Universidade de Washington e rapidamente ganhou atenção por sua capacidade de otimizar modelos de aprendizagem profunda para uma variedade de dispositivos, desde GPUs de alto desempenho até dispositivos de borda com recursos limitados. Sua vantagem está no processo de otimização ponta a ponta, que é particularmente eficaz em cenários de inferência. Ele abstrai completamente as diferenças subjacentes de fornecedor e hardware, permitindo que cargas de trabalho de inferência sejam executadas perfeitamente em diferentes hardwares, sejam dispositivos NVIDIA, AMD, Intel, etc.

Além do raciocínio, porém, a situação se torna mais complicada. O objetivo final da computação substituível por hardware para treinamento em IA permanece sem solução. No entanto, existem várias iniciativas que merecem ser mencionadas neste sentido.

O MLIR, um projeto do Google, adota uma abordagem mais fundamental. Ao fornecer uma representação intermediária unificada para vários níveis de abstração, visa simplificar toda a infraestrutura do compilador para casos de uso de inferência e treinamento.

PlaidML, agora liderado pela Intel, se posicionou como o azarão na corrida. Ele se concentra na portabilidade entre múltiplas arquiteturas de hardware, incluindo aquelas fora dos aceleradores tradicionais de IA, e prevê um futuro onde as cargas de trabalho de IA possam ser executadas perfeitamente em uma variedade de plataformas de computação.

Se algum desses compiladores puder ser bem integrado à pilha de tecnologia, sem afetar o desempenho do modelo e sem exigir quaisquer modificações adicionais por parte dos desenvolvedores, isso provavelmente ameaçará o fosso do CUDA. No entanto, atualmente o MLIR e o PlaidML não estão suficientemente maduros e não estão bem integrados na pilha de tecnologia de inteligência artificial, pelo que não representam atualmente uma ameaça significativa à posição de liderança da CUDA.

4. Computação Distribuída:Coordenador

Ray e Horovod representam duas abordagens diferentes para computação distribuída em IA, cada uma atendendo à necessidade crítica de processamento escalonável em aplicações de IA em larga escala.

Desenvolvido pelo RISELab da UC Berkeley, Ray é uma estrutura de computação distribuída de uso geral. É excelente em flexibilidade, permitindo a distribuição de vários tipos de cargas de trabalho além do aprendizado de máquina. O modelo baseado em ator em Ray simplifica muito o processo de paralelização do código Python, tornando-o particularmente adequado para aprendizado por reforço e outras tarefas de inteligência artificial que exigem fluxos de trabalho complexos e diversos.

Horovod, originalmente desenvolvido pela Uber, concentra-se em implementações distribuídas de aprendizagem profunda. Ele fornece uma solução simples e eficiente para dimensionar o processo de treinamento de aprendizagem profunda em várias GPUs e nós de servidor. O destaque do Horovod é sua facilidade de uso e otimização do treinamento paralelo de dados de redes neurais, o que permite que ele seja perfeitamente integrado às principais estruturas de aprendizado profundo, como TensorFlow e PyTorch, permitindo que os desenvolvedores estendam facilmente seu código de treinamento existente sem necessidade de fazer extensas modificações no código.

5. Conclusão: Do ​​ponto de vista da criptomoeda

A integração com pilhas de IA existentes é crítica para o projeto DePin, que visa construir sistemas de computação distribuídos. Essa integração garante compatibilidade com fluxos de trabalho e ferramentas de IA atuais, reduzindo a barreira para a adoção.

No espaço das criptomoedas, a atual rede de GPU, que é essencialmente uma plataforma descentralizada de aluguel de GPU, marca um passo inicial em direção a uma infraestrutura de IA distribuída mais complexa. Essas plataformas operam mais como mercados no estilo Airbnb do que como nuvens distribuídas. Embora sejam úteis para algumas aplicações, estas plataformas não são suficientemente fortes para suportar formação verdadeiramente distribuída, um requisito fundamental para avançar no desenvolvimento de IA em grande escala.

Os atuais padrões de computação distribuída, como Ray e Horovod, não foram projetados para redes distribuídas globalmente e, para uma rede descentralizada verdadeiramente funcional, precisamos desenvolver outra estrutura no topo desta camada. Alguns céticos chegam a argumentar que os modelos Transformer são incompatíveis com métodos de treinamento distribuído devido à intensa comunicação e otimização das funções globais que requerem durante o aprendizado. Os otimistas, por outro lado, estão tentando criar novas estruturas de computação distribuída que funcionem bem com hardware distribuído globalmente. Yotta é uma das startups que está tentando resolver esse problema.

NeuroMesh vai um passo além. Ele redesenha o processo de aprendizado de máquina de uma forma particularmente inovadora. NeuroMesh resolve um gargalo fundamental no treinamento distribuído de IA usando redes de codificação preditiva (PCNs) para encontrar convergência na minimização de erros locais, em vez de encontrar diretamente soluções ideais para a função de perda global.

Essa abordagem não apenas permite uma paralelização sem precedentes, mas também democratiza o treinamento de IA, tornando possível treinar modelos em hardware de GPU de consumo, como o RTX 4090. Especificamente, a GPU 4090 tem poder de computação semelhante ao H100, mas devido à largura de banda insuficiente, eles são subutilizados durante o treinamento do modelo. Como o PCN reduz a importância da largura de banda, torna possível aproveitar essas GPUs de baixo custo, o que pode levar a economias significativas de custos e ganhos de eficiência.

GenSyn, outra ambiciosa startup de criptografia AI, pretende construir um conjunto de compiladores. Os compiladores Gensyn permitem que qualquer tipo de hardware de computação seja usado perfeitamente para cargas de trabalho de IA. Metaforicamente, o que o TVM faz para inferência, GenSyn está tentando construir ferramentas semelhantes para treinamento de modelo.

Se for bem-sucedido, poderá expandir significativamente as capacidades das redes descentralizadas de computação de IA para lidar com tarefas de IA mais complexas e diversas, utilizando de forma eficiente vários hardwares. Esta visão ambiciosa, embora desafiadora devido à complexidade e aos altos riscos técnicos de otimização em diversas arquiteturas de hardware, poderia ser uma tecnologia que pudesse ser executada, superando obstáculos como manter o desempenho heterogêneo do sistema, enfraquecendo os fossos de CUDA e NVIDIA.

Em relação ao raciocínio: A abordagem hiperbólica, que combina raciocínio verificável com uma rede descentralizada de recursos computacionais heterogêneos, incorpora uma estratégia relativamente pragmática. Ao aproveitar padrões de compilador como TVM, o Hyperbolic pode aproveitar uma ampla variedade de configurações de hardware, mantendo o desempenho e a confiabilidade. Ele pode agregar chips de vários fornecedores (de NVIDIA a AMD, Intel, etc.), incluindo hardware de consumo e hardware de alto desempenho.

Estes desenvolvimentos na intersecção da cripto-IA prenunciam um futuro em que a computação de IA poderá tornar-se mais distribuída, eficiente e acessível. O sucesso destes projetos dependerá não apenas dos seus méritos técnicos, mas também da sua capacidade de integração perfeita com os fluxos de trabalho de IA existentes e de responder às preocupações do mundo real dos profissionais e empresas de IA.