Divulgação: As opiniões e pontos de vista aqui expressos pertencem exclusivamente ao autor e não representam os pontos de vista e opiniões do editorial do crypto.news.

Elon Musk processou a OpenAI por seu suposto desvio da missão de desenvolver AGI “para o benefício da humanidade”. Carlos E. Perez suspeita que o processo poderia transformar o atual líder de mercado de IA generativa no próximo WeWork. 

Você também pode gostar: IA descentralizada criará a próxima onda de unicórnios do Vale do Silício | Opinião

A transformação com fins lucrativos da OpenAI é o foco desta batalha legal. Contudo, a ênfase excessiva no lucro trai interesses corporativos instalados. Também desvia a atenção de preocupações mais críticas para os utilizadores finais, ou seja, formação ética em IA e gestão de dados. 

Grok, ideia de Elon e concorrente do ChatGPT, pode acessar “informações em tempo real” a partir de tweets. De qualquer forma, o OpenAI é famoso por extrair dados protegidos por direitos autorais a torto, a direito e no centro. Agora, o Google fechou um acordo de US$ 60 milhões para acessar os dados dos usuários do Reddit para treinar Gemini e Cloud AI. 

Apenas pressionar pelo código aberto não atende ao interesse do usuário neste ambiente. Eles precisam de formas de garantir consentimento e compensação significativos para ajudar a treinar LLMs. Plataformas emergentes que criam ferramentas para crowdsourcing de dados de treinamento de IA, por exemplo, são críticas nesse sentido. Mais sobre isso mais tarde. 

É principalmente sem fins lucrativos para usuários

Mais de 5,3 mil milhões de pessoas utilizam a Internet em todo o mundo e cerca de 93% delas utilizam redes sociais centralizadas. Assim, é provável que a maior parte dos 147 mil milhões de terabytes de dados produzidos online em 2023 tenham sido gerados pelos utilizadores. O volume deverá ultrapassar 180 bilhões até 2025. 

Embora este enorme conjunto de dados ou “informações publicamente disponíveis” alimentem o treinamento e a evolução da IA, os usuários não colhem os benefícios na maior parte. Eles não têm controle nem propriedade real. A forma de dar consentimento “Concordo” também não é significativa – é, na melhor das hipóteses, um engano e, na pior, uma coerção. 

Os dados são o novo petróleo. Não é do interesse da Big Tech dar aos usuários finais mais controle sobre seus dados. Por um lado, pagar aos usuários pelos dados aumentaria significativamente os custos de treinamento de LLM, que de qualquer maneira ultrapassam US$ 100 milhões. No entanto, como argumenta Chris Dixon em “Read, Write, Own”, cinco grandes empresas que controlam e potencialmente “arruinam tudo” são o caminho mais rápido para a distopia. 

No entanto, dada a evolução dos blockchains como camada de dados distribuídos e fonte da verdade, a melhor era para os usuários apenas começou. Mais importante ainda, ao contrário das grandes corporações, as empresas de IA da nova era adotam essas alternativas para um melhor desempenho, eficiência de custos e, em última análise, a melhoria da humanidade. 

Crowdsourcing de dados para treinamento ético em IA

O modelo de leitura-gravação-confiança da Web2 depende de entidades e partes interessadas não serem más. Mas a ganância humana não tem limites – somos todos um bando de “patifes egoístas”, segundo o filósofo do século XVIII, David Hume. 

O modelo de leitura-gravação-próprio da Web3, portanto, usa blockchain, criptografia, etc., para que os participantes da rede distribuída não possam ser maus. Chris explora essa ideia extensivamente em seu livro.

A pilha de tecnologia web3 é fundamentalmente orientada para a comunidade e liderada pelo usuário. Fornecer o kit de ferramentas para permitir que os usuários recuperem o controle sobre seus dados – financeiros, sociais, criativos e outros – é uma premissa central neste domínio. Blockchains, por exemplo, servem como camadas de dados distribuídas e verificáveis ​​para liquidar transações e estabelecer de forma imutável a proveniência. 

Além disso, mecanismos viáveis ​​de privacidade e segurança, como provas de conhecimento zero (zkProofs) ou computação multipartidária (MPC), evoluíram nos últimos anos. Eles abrem novos caminhos na validação, compartilhamento e gerenciamento de dados, permitindo que as contrapartes estabeleçam verdades sem revelar o conteúdo. 

Essas amplas capacidades são altamente relevantes em um PoV de treinamento de IA. Agora é possível obter dados confiáveis ​​sem depender de provedores ou validadores centralizados. Mas o mais importante é que a natureza descentralizada e não intermediada do web3 ajuda a conectar diretamente aqueles que produzem dados – ou seja, usuários – e projetos que precisam deles para treinar modelos de IA. 

A remoção de «intermediários de confiança» e controladores de acesso reduz significativamente os custos. Também alinha incentivos para que os projetos possam compensar os utilizadores pelos seus esforços e contribuições. Por exemplo, os usuários podem ganhar criptomoedas completando microtarefas como gravar scripts em seu dialeto nativo, reconhecer e rotular objetos, classificar e categorizar imagens, estruturar dados não estruturados, etc. 

As empresas, por outro lado, podem construir modelos mais precisos usando dados de alta qualidade validados por humanos no circuito e a um preço justo. É uma situação em que todos ganham. 

Avanços de baixo para cima, não apenas código aberto

As estruturas tradicionais são tão voltadas para os indivíduos e as comunidades de usuários que o mero código aberto não significa nada como tal. São necessárias mudanças radicais nos modelos de negócio e nos quadros de formação existentes para garantir uma formação ética em IA. 

Substituir os sistemas de cima para baixo por uma abordagem de base e de baixo para cima é o caminho a seguir. Trata-se também de estabelecer uma ordem meritocrática que valorize a propriedade, a autonomia e a colaboração. Neste mundo, a distribuição equitativa é o mais lucrativo, e não a maximização. 

Curiosamente, estes sistemas beneficiarão as grandes corporações tanto quanto capacitarão as pequenas empresas e os utilizadores individuais. Porque, afinal, dados de alta qualidade, preços justos e modelos de IA precisos são coisas de que todos precisam. 

Agora, com os incentivos alinhados, é do interesse comum da indústria abraçar e adotar modelos da nova era. Manter ganhos estreitos e míopes não ajudará no longo prazo. O futuro tem exigências diferentes das do passado. 

Leia mais: O que é melhor do que possuir seus ativos? Possuir seus dados | Opinião

Autor: William Simonin

William Simonin é presidente do Ta-da, um mercado de dados de IA que utiliza blockchain para gamificar a verificação de dados. Anteriormente, ele trabalhou como engenheiro de software e pesquisador para o Ministério da Defesa francês por cerca de seis anos e para a Associação de Segurança da Epitech Nancy, atuando como presidente e posteriormente como professor de Programação Funcional. Ele é um empresário francês e cofundador de várias empresas de IA, tecnologia e criptomoeda.