Artigo Reproduzido de: Blockchain em Linguagem Simples
Autor: Rituals
Tradução: Blockchain em Linguagem Simples
Nos últimos anos, o conceito de agente (Agent) tem se tornado cada vez mais importante em filosofia, jogos e inteligência artificial. Tradicionalmente, um agente refere-se a um ente que pode agir de forma autônoma, tomar decisões e ter intenções, características geralmente associadas aos humanos.
No campo da inteligência artificial, o conceito de agente se torna mais complexo. Com o surgimento de agentes autônomos, esses agentes podem observar, aprender e agir de forma independente no ambiente, atribuindo uma forma concreta ao conceito abstrato de agente. Esses agentes quase não requerem intervenção humana, demonstrando uma capacidade de intenção computacional, ainda que não consciente, podendo tomar decisões, aprender com a experiência e interagir com outros agentes ou humanos de maneiras cada vez mais complexas.
Este artigo discutirá o emergente campo dos agentes autônomos, especialmente os baseados em grandes modelos de linguagem (LLM) e seu impacto em jogos, governança, ciência, robótica e outros domínios. Com base na exploração dos princípios fundamentais dos agentes, o artigo analisará a arquitetura e as aplicações dos agentes de inteligência artificial. Através dessa perspectiva de classificação, podemos entender como esses agentes executam tarefas, processam informações e evoluem continuamente dentro de seus quadros operacionais específicos.
Os objetivos deste artigo incluem os seguintes dois aspectos:
Fornecer uma visão geral sistemática das bases dos agentes de inteligência artificial e suas arquiteturas, com foco na análise de componentes como memória, percepção, raciocínio e planejamento.
Explorar as últimas tendências na pesquisa de agentes de inteligência artificial, destacando casos de uso em redefinir possibilidades.
Nota: Devido à extensão do artigo, esta versão traduzida contém cortes em relação ao original.
1, Tendências na Pesquisa de Agentes
O desenvolvimento de agentes baseados em grandes modelos de linguagem (LLM) marca um avanço significativo na pesquisa em inteligência artificial, abrangendo múltiplos progressos de raciocínio simbólico, sistemas reativos, aprendizado por reforço e aprendizado adaptativo.
Agentes Simbólicos: Simulam o raciocínio humano através de regras e conhecimento estruturado, adequados para problemas específicos (como diagnóstico médico), mas difíceis de lidar com ambientes complexos e incertos.
Agentes Reativos: Respondem rapidamente ao ambiente através do ciclo 'perceber-agir', adequados para interações rápidas, mas incapazes de realizar tarefas complexas.
Agentes de Aprendizado por Reforço: Otimizam comportamentos através de aprendizado por tentativa e erro, amplamente aplicados em jogos e robótica, mas com longo tempo de treinamento, baixa eficiência de amostra e estabilidade ruim.
Agentes Baseados em LLM: Agentes baseados em LLM combinam raciocínio simbólico, feedback e aprendizagem adaptativa, com capacidade de aprendizado de poucos exemplos e zero exemplos, amplamente utilizados em desenvolvimento de software, pesquisa científica e outros campos, adequados para ambientes dinâmicos e capazes de colaborar com outros agentes.
2) Arquitetura de Agentes
Arquitetura de Agentes Modernos: Inclui múltiplos módulos, formando um sistema integrado.
1) Módulo de Arquivo
O módulo de arquivo determina o comportamento do agente, garantindo consistência através da atribuição de papéis ou personalidades, adequado para cenários que necessitam de uma personalidade estável. Os arquivos de agentes LLM são divididos em três categorias: papéis demográficos, papéis virtuais e papéis personalizados.
Do artigo (De Papéis a Personalização)
O Papel da Performance do Personagem: O estabelecimento de personagens pode melhorar significativamente a performance e a capacidade de raciocínio dos agentes. Por exemplo, o LLM responde de forma mais profunda e contextual quando atua como especialista. Em sistemas multi-agentes, o alinhamento de personagens promove a colaboração, aumentando a taxa de conclusão de tarefas e a qualidade da interação.
Métodos para Criação de Arquivos: Arquivos de agentes LLM podem ser construídos da seguinte forma:
Design Manual: Características de personagens definidas manualmente.
Geração de LLM: Expansão automática de configurações de personagens através de LLM.
Alinhamento de conjuntos de dados: Construído com base em conjuntos de dados reais, melhorando a autenticidade da interação.
2) Módulo de Memória
A memória é fundamental para agentes LLM, suportando planejamento e decisões adaptativas. A estrutura de memória simula processos humanos, dividindo-se principalmente em duas categorias:
Memória Unificada: Memória de curto prazo que processa informações recentes. Otimizada através de resumos de memória e mecanismos de atenção modificados, mas limitada pela janela de contexto.
Memória Híbrida: Combina memória de curto e longo prazo, com a memória de longo prazo armazenada em bancos de dados externos, facilitando a recuperação eficiente.
Formatos de Memória: Os formatos de armazenamento de memória mais comuns incluem:
Linguagem Natural: Flexível e semanticamente rica.
Vetores Embutidos: Facilitam a recuperação rápida.
Banco de Dados: Suporta consultas através de armazenamento estruturado.
Lista Estruturada: Organizada em formato de lista ou hierárquico.
Agentes de Operação de Memória interagem com a memória através das seguintes operações:
Leitura de Memória: Recuperar informações relevantes para apoiar decisões informadas.
Escrita de Memória: Armazenar novas informações, evitando repetições e transbordamentos.
Reflexão de Memória: Resumir experiências, aumentando a capacidade de raciocínio abstrato.
Conteúdo baseado no artigo (Agentes Geradores)
Significado e Desafios da Pesquisa
Embora o sistema de memória melhore as capacidades dos agentes, também traz desafios de pesquisa:
Escalabilidade e Eficiência: Sistemas de memória precisam suportar grandes quantidades de informações e garantir recuperação rápida, como otimizar a recuperação de memória de longo prazo ainda é um foco de pesquisa.
Gerenciamento de Limitações de Contexto: Atualmente, LLMs são limitados pela janela de contexto, dificultando o gerenciamento de grandes memórias, pesquisa explora mecanismos de atenção dinâmicos e técnicas de resumo para expandir a capacidade de processamento de memória.
Desvios e Deriva em Memórias de Longo Prazo: Memórias podem apresentar desvios, levando a uma priorização de informações e causando deriva de memória, necessitando de atualizações e correções regulares para manter o equilíbrio do agente.
Esquecimento Catastrófico: Novos dados sobrepõem dados antigos, levando à perda de informações cruciais, necessitando de técnicas de replay de experiência e consolidação de memória para reforçar memórias chave.
3) Capacidades de Percepção
Agentes LLM melhoram a compreensão e capacidade de decisão em ambientes processando fontes de dados diversificadas, semelhante à dependência humana em entradas sensoriais. A percepção multimodal integra entradas textuais, visuais e auditivas, aumentando a capacidade dos agentes de executar tarefas complexas. Abaixo estão os principais tipos de entrada e suas aplicações:
Entrada de Texto: O texto é o principal meio de comunicação dos agentes LLM. Embora os agentes tenham habilidades linguísticas avançadas, compreender o significado implícito por trás das instruções ainda é um desafio.
Compreensão Implícita: Ajusta preferências através do aprendizado por reforço, lidando com instruções ambíguas e inferindo intenções.
Capacidades de Zero-shot e Few-shot: Responder a novas tarefas sem treinamento adicional, adequadas para cenários de interação diversificados.
Entrada Visual: A percepção visual permite que os agentes compreendam as relações entre objetos e espaços.
Imagens para Texto: Gera descrições textuais para ajudar a processar dados visuais, mas pode perder detalhes.
Codificação baseada em Transformer: Como os Transformers de Visão, convertem imagens em tokens compatíveis com texto.
Ferramentas de Conexão: Como BLIP-2 e Flamingo, que utilizam camadas intermediárias para otimizar a interconexão visual e textual.
A entrada auditiva e a percepção auditiva permitem que os agentes reconheçam sons e fala, especialmente importantes em interações e cenários de alto risco.
Reconhecimento e Síntese de Voz: Como Whisper (de voz para texto) e FastSpeech (de texto para voz).
Processamento de Espectrogramas: Processa espectrogramas de áudio como imagens, melhorando a capacidade de decodificação de sinais auditivos.
Desafios e Considerações na Pesquisa de Percepção Multimodal:
Alinhamento e Integração de Dados: Dados multimodais precisam ser alinhados de forma eficiente para evitar erros de percepção e resposta, a pesquisa se concentra em otimizar Transformers multimodais e camadas de atenção cruzada.
Escalabilidade e Eficiência: A demanda por processamento multimodal é grande, especialmente ao lidar com imagens de alta resolução e áudio, desenvolvendo modelos com baixo consumo de recursos e escaláveis é fundamental.
Esquecimento Catastrófico: Agentes multimodais enfrentam o esquecimento catastrófico, necessitando de estratégias como replay de prioridade e aprendizado contínuo para reter informações cruciais efetivamente.
Geração de Respostas Sensíveis ao Contexto: Priorizar o processamento de dados sensoriais com base no contexto para gerar respostas ainda é um foco de pesquisa, especialmente em ambientes ruidosos ou visualmente dominantes.
4) Raciocínio e Planejamento
O módulo de raciocínio e planejamento ajuda os agentes a resolver problemas de forma eficiente, decompondo tarefas complexas. Semelhante aos humanos, pode formular planos estruturados, podendo construir planos completos antecipadamente ou ajustar estratégias em tempo real com base no feedback. Os métodos de planejamento são classificados por tipo de feedback:
Alguns agentes constroem planos completos previamente, executando-os em uma única trajetória ou em múltiplas opções, sem modificar o plano.
Alguns agentes ajustam suas estratégias em tempo real com base em feedback em ambientes dinâmicos.
Planejamento sem Feedback: Em situações sem feedback, os agentes desenvolvem planos completos desde o início e os executam, sem ajustes. Inclui planejamento de caminho único (execução passo a passo) e planejamento de múltiplos caminhos (explorando várias opções simultaneamente, escolhendo o melhor caminho).
Divisão de Tarefas de Raciocínio de Caminho Único em Passos Sequenciais, cada passo seguido pelo próximo:
Cadeia de Pensamento (CoT): Orientar agentes a resolver problemas passo a passo através de exemplos limitados, melhorando a qualidade da saída do modelo.
Zero-shot-CoT: Racione sem exemplos predefinidos, utilizando o prompt 'pensar passo a passo' para raciocínio, aplicável a aprendizado zero-shot.
Re-prompting: Descoberta automática de prompts CoT eficazes, sem necessidade de entrada manual.
Do artigo CoT
5) Raciocínio Multicaminho
Diferente do raciocínio de caminho único, o raciocínio de múltiplos caminhos permite que os agentes explorem vários passos simultaneamente, gerando e avaliando múltiplas soluções potenciais, escolhendo o melhor caminho, adequado para problemas complexos, especialmente em casos com várias alternativas possíveis.
Exemplo:
Auto-Coerência de Cadeia de Pensamento (CoT-SC): Amostra múltiplos caminhos de raciocínio a partir da saída de prompts CoT, escolhendo os passos mais frequentes para realizar 'auto-integração'.
Árvore de Pensamento (ToT): Armazena etapas lógicas como uma estrutura em árvore, avaliando a contribuição de cada 'pensamento' para a solução, utilizando busca em largura ou profundidade para navegação.
Árvore de Pensamento (GoT): Expande o ToT para uma estrutura gráfica, onde pensamentos são vértices e dependências são arestas, permitindo raciocínio mais flexível.
Através do raciocínio de planejamento (RAP): Usando busca de árvore de Monte Carlo (MCTS) para simular múltiplos planos, o modelo de linguagem constrói tanto a árvore de raciocínio quanto fornece feedback.
6) Planejador Externo
Quando o LLM enfrenta desafios de planejamento em campos específicos, um planejador externo oferece suporte, integrando conhecimentos especializados que o LLM não possui.
LLM+P: Transforma tarefas em Linguagem de Definição de Domínio de Planejamento (PDDL), resolvendo através de planejadores externos para ajudar o LLM a completar tarefas complexas.
CO-LLM: Colaboração de modelos para gerar textos, através da seleção alternada de modelos para gerar marcas, permitindo que o modo de colaboração mais otimizado surja naturalmente.
Planejamento com Feedback: O planejamento com feedback permite que os agentes ajustem tarefas em tempo real de acordo com mudanças no ambiente, adaptando-se a cenários imprevisíveis ou complexos.
Agentes de Feedback Ambiental: Ajustam planos com base em feedback em tempo real ao interagir com o ambiente, mantendo o progresso nas tarefas.
ReAct: Combina raciocínio com dicas de ação, criando planos ajustáveis durante a interação.
DEPS: Revisar planos durante o planejamento de tarefas, lidando com subobjetivos não concluídos.
SayPlan: Refinar estratégias utilizando gráficos de cenas e transições de estado, melhorando a percepção contextual.
Do artigo (ReAct)
7) Feedback Humano
Através da interação com humanos, ajuda agentes a alinhar-se com valores humanos, evitando erros. Exemplo:
Monólogo Interno: Integrar feedback humano no planejamento do agente, garantindo que as ações estejam alinhadas com as expectativas humanas.
Feedback do Modelo: O feedback de modelos pré-treinados ajuda os agentes na autoavaliação e otimização do raciocínio e ação. Exemplo:
SelfCheck: Verificador passo a passo de zero-shot, usado para autoidentificar erros na cadeia de raciocínio e avaliar a correção.
Reflexão: Os agentes refletem registrando sinais de feedback, promovendo aprendizado de longo prazo e correção de erros.
Do artigo (SelfCheck)
Desafios e Direções de Pesquisa em Raciocínio e Planejamento: Apesar de o módulo de raciocínio e planejamento melhorar as funções dos agentes, ainda enfrenta desafios:
Escalabilidade e Demanda Computacional: Métodos complexos como ToT ou RAP requerem grandes recursos computacionais, melhorar a eficiência ainda é um foco de pesquisa.
Complexidade da Integração de Feedback: A integração eficaz de feedbacks de múltiplas fontes, evitando sobrecarga de informações, é a chave para aumentar a adaptabilidade sem sacrificar o desempenho.
Desvios nas Decisões: Priorizar certas fontes de feedback ou caminhos pode levar a desvios, combinando técnicas de eliminação de desvios é fundamental para um planejamento equilibrado.
8) Ação
O módulo de ação é a fase final do processo decisório do agente, incluindo:
Objetivos de Ação: Agentes executam múltiplos objetivos, como concluir tarefas, comunicação ou exploração ambiental.
Geração de Ação: Gerar ações através da recuperação ou planejamento, como ações baseadas em memória ou planejamento.
Espaço de Ação: Inclui conhecimento intrínseco e ferramentas externas, como APIs, bancos de dados ou modelos externos para executar tarefas. Por exemplo, ferramentas como HuggingGPT e ToolFormer utilizam modelos externos ou APIs para a execução de tarefas.
Banco de Dados e Repositórios de Conhecimento: ChatDB usa consultas SQL para recuperar informações específicas do domínio, enquanto MRKL integra sistemas especialistas e ferramentas de planejamento para raciocínios complexos.
Modelos Externos: Os agentes podem depender de modelos não-API para executar tarefas especializadas. Por exemplo, ChemCrow realiza descobertas de medicamentos através de múltiplos modelos, enquanto MemoryBank melhora a recuperação de texto usando dois modelos.
Impacto da Ação: Ações podem ser classificadas de acordo com seus resultados:
Mudanças de Ambiente: Como a coleta de recursos ou construção de estruturas em Voyager e GITM, alteram o ambiente.
Auto-influência: Como Agentes Geradores atualizam memórias ou formulam novos planos.
Cadeia de Ações: Certas ações desencadeiam outras ações, como o Voyager que constrói estruturas após a coleta de recursos.
Espaço de Ação Expandido: Projetar agentes de IA requer uma arquitetura robusta e habilidades de tarefa. A aquisição de habilidades pode ser feita de duas maneiras: ajustando fino e não ajustando fino.
Aquisição de habilidades através de ajuste fino:
Conjunto de Dados Anotados Manualmente: Como RET-LLM e EduChat, melhorando o desempenho do LLM através de anotações manuais.
Conjunto de Dados Gerados por LLM: Como ToolBench, ajustando o LLaMA através de instruções geradas por LLM.
Conjunto de Dados do Mundo Real: Como MIND2WEB e SQL-PaLM, melhorando as capacidades dos agentes através de dados de aplicações reais.
Aquisição de Habilidades sem Ajuste Fino: Quando o ajuste fino não é viável, os agentes podem melhorar suas capacidades através de engenharia de prompts e engenharia de mecanismos.
Engenharia de Prompt: Guiar o comportamento do LLM através da concepção de prompts, melhorando o desempenho.
Cadeia de Pensamento (CoT): Adiciona etapas de raciocínio intermediárias, apoiando a resolução de problemas complexos.
SocialAGI: Ajusta diálogos com base no estado psicológico do usuário.
Retroformer: Otimiza decisões combinando reflexões sobre falhas passadas.
Engenharia de Mecanismos: Aumenta as capacidades dos agentes através de regras e mecanismos específicos.
DEPS: Otimiza planos, melhorando a correção de erros através da descrição do processo de execução, feedback e seleção de objetivos.
RoCo: Ajusta o planejamento de cooperação entre múltiplos robôs com base na verificação ambiental.
Mecanismo de Debate: Atingir consenso através da colaboração.
Acúmulo de Experiência
GITM: Mecanismo de memória baseado em texto que melhora a capacidade de aprendizado e generalização.
Voyager: Otimiza a execução de habilidades através de auto-feedback.
Evolução Autônoma
LMA3: Suporta a redefinição de objetivos e funções de recompensa, permitindo que os agentes aprendam habilidades em ambientes sem tarefas específicas.
Do artigo (Voyager)
O ajuste fino pode aumentar significativamente o desempenho em tarefas específicas, mas requer modelos de código aberto e consome muitos recursos. A engenharia de prompts e a engenharia de mecanismos são aplicáveis a modelos de código aberto e fechado, mas são limitadas pela janela de contexto de entrada e requerem um projeto cuidadoso.
3, Arquitetura de Sistema Envolvendo Múltiplos Agentes
Arquitetura Multi-Agente: Distribui tarefas entre múltiplos agentes, cada um focando em diferentes aspectos, aumentando robustez e adaptabilidade. A colaboração e o feedback entre os agentes melhoram a eficácia geral da execução e podem ajustar dinamicamente o número de agentes conforme a necessidade. No entanto, essa arquitetura enfrenta desafios de coordenação, sendo a comunicação crucial para evitar perda ou mal-entendidos de informações.
Para facilitar a comunicação e coordenação entre agentes, a pesquisa se concentra em duas estruturas organizacionais:
Estrutura Horizontal: Todos os agentes compartilham e otimizam decisões, agregando decisões pessoais através de decisões coletivas, adequada para cenários de consultoria ou uso de ferramentas.
Estrutura Vertical: Um agente propõe uma solução preliminar, enquanto outros agentes fornecem feedback ou são supervisionados por um gerente, adequada para tarefas que requerem soluções refinadas, como resolução de problemas matemáticos ou desenvolvimento de software.
Do artigo (ChatDev)
1) Estrutura Organizacional Híbrida
DyLAN combina estruturas verticais e horizontais em um método híbrido, onde os agentes colaboram horizontalmente dentro da mesma camada e trocam informações através de passos de tempo. DyLAN introduz um modelo de classificação e um sistema de pontuação de importância dos agentes, avaliando e selecionando dinamicamente os agentes mais relevantes para continuar a colaboração, enquanto agentes com desempenho insatisfatório são desativados, formando uma estrutura hierárquica. Agentes de alta classificação desempenham papéis críticos na tarefa e na composição da equipe.
Estruturas de múltiplos agentes cooperativos focam na maximização da eficiência através do compartilhamento de informações e coordenação de ações, explorando as vantagens de cada agente em colaboração complementar.
Do artigo (Agentverse)
Interações Colaborativas dividem-se em dois tipos:
Cooperação Desordenada: Múltiplos agentes interagem livremente, sem seguir uma ordem ou processo fixo, semelhante a um brainstorming. Cada agente fornece feedback, e o sistema coordena os agentes para integrar entradas e organizar respostas, evitando confusão, geralmente usando um mecanismo de votação da maioria para alcançar consenso.
Cooperação Ordenada: Agentes interagem em sequência, seguindo um processo estruturado, cada agente focando na saída do agente anterior, garantindo comunicação eficiente. Tarefas são concluídas rapidamente, evitando confusão, mas requer validação cruzada ou intervenção humana para evitar a amplificação de erros.
Do artigo MetaGPT
Estrutura de Multi-Agentes Adversaria: Estruturas colaborativas melhoram a eficiência e a colaboração, enquanto estruturas adversariais promovem a evolução dos agentes através de desafios. Inspirada na teoria dos jogos, a interação adversarial incentiva os agentes a melhorar seu comportamento através de feedback e reflexão. Por exemplo, AlphaGo Zero aprimorou suas estratégias através de auto-contra-jogo, enquanto sistemas LLM melhoraram a qualidade da saída através de debates e trocas de 'olho por olho'. Embora esse método promova a adaptabilidade dos agentes, também traz custos computacionais e riscos de erros.
Comportamentos Emergentes: Em sistemas multi-agentes, podem surgir três tipos de comportamentos emergentes:
Comportamento Voluntário: Agentes contribuem ativamente com recursos ou ajudam outros.
Comportamento de Consistência: Os agentes ajustam seu comportamento para alinhar com os objetivos da equipe.
Comportamento Destrutivo: Os agentes podem adotar comportamentos extremos para atingir metas rapidamente, podendo trazer riscos à segurança.
Testes de Referência e Avaliação: Testes de referência são ferramentas-chave para avaliar o desempenho dos agentes, com plataformas comuns como ALFWorld, IGLU e Minecraft, utilizadas para testar as capacidades dos agentes em planejamento, colaboração e execução de tarefas. Ao mesmo tempo, a avaliação do uso de ferramentas e habilidades sociais também é muito importante, com plataformas como ToolBench e SocKET avaliando a adaptabilidade e a compreensão social dos agentes, respectivamente.
Aplicações de jogos digitais se tornaram uma plataforma importante para pesquisas em IA, onde agentes de jogos baseados em LLM enfatizam as habilidades cognitivas, impulsionando a pesquisa em AGI.
Do artigo (Pesquisa sobre Agentes de Jogos Baseados em Grandes Modelos de Linguagem)
Percepção de Agentes em Jogos: Nos videogames, os agentes compreendem o estado do jogo através do módulo de percepção, com três métodos principais:
Acesso a Variáveis de Estado: Acesso a dados simbólicos através de APIs de jogos, adequados para jogos com requisitos visuais mais baixos.
Codificador Visual Externo: Usa codificadores visuais para converter imagens em texto, como o CLIP, ajudando os agentes a compreender o ambiente.
Modelos de Linguagem Multimodais: Combinando dados visuais e textuais, aumentando a adaptabilidade dos agentes, como o GPT-4V.
Estudo de Caso de Agentes de Jogos
Cradle (jogo de aventura): Este jogo exige que os agentes compreendam a narrativa, resolvam quebra-cabeças e naveguem, enfrentando desafios de suporte multimodal, memória dinâmica e tomada de decisões. O objetivo do Cradle é alcançar controle computacional geral (GCC), permitindo que os agentes executem qualquer tarefa computacional através de entradas visuais e auditivas, com maior versatilidade.
PokéLLMon (jogo competitivo): Jogos competitivos, devido às suas regras rigorosas e taxa de vitória comparável a jogadores humanos, se tornaram um benchmark para desempenho de raciocínio e planejamento. Vários quadros multi-agentes já mostraram desempenho competitivo. Por exemplo, os agentes LLM no artigo 'Grandes Modelos de Linguagem Jogando StarCraft II: Benchmark e Método de Resumo em Cadeia' competiram em uma versão textual de StarCraft II contra uma IA embutida. PokéLLMon é o primeiro agente LLM a alcançar desempenho em nível humano, obtendo 49% de taxa de vitória em partidas ranqueadas e 56% em torneios. O quadro melhora o conhecimento gerado e a geração de ações consistentes, evitando ilusões e ciclos de pânico no raciocínio encadeado. Os agentes transformam os logs de estado do servidor de batalha em texto, garantindo a coerência das rodadas e apoiando o raciocínio baseado em memória.
Os agentes otimizam estratégias através de quatro formas de feedback de aprendizado por reforço, incluindo mudanças de HP, efeitos de habilidades, estimativas de velocidade da sequência de ações e efeitos do estado das habilidades.
PokéLLMon utiliza recursos externos (como Bulbapedia) para adquirir conhecimento, como fraquezas de tipo e efeitos de habilidades, ajudando os agentes a usar habilidades especiais com maior precisão. Além disso, ao avaliar métodos CoT, Auto-Coerência e ToT, descobriu-se que a Auto-Coerência melhora significativamente as taxas de vitória.
ProAgent (jogo cooperativo): Jogos cooperativos exigem compreensão das intenções dos colegas e previsão de ações, completando tarefas através de cooperação explícita ou implícita. A cooperação explícita é eficiente, mas menos flexível, enquanto a cooperação implícita se baseia na previsão das estratégias dos colegas para interações adaptativas. No Overcooked, ProAgent demonstrou a capacidade de cooperação implícita, seu fluxo central dividido em cinco etapas:
Coleta de Conhecimento e Transição de Estado: Extrair conhecimento relevante para a tarefa e gerar descrições em linguagem.
Planejamento de Habilidades: Inferir intenções dos colegas e formular planos de ação.
Correção de Crenças: Atualizar dinamicamente a compreensão do comportamento dos colegas, reduzindo erros.
Validação e Execução de Habilidades: Ajuste iterativo de planos para garantir a eficácia das ações.
Armazenamento de Memória: Registra interações e resultados para otimizar decisões futuras.
Entre eles, o mecanismo de correção de crenças é especialmente crucial, garantindo que os agentes atualizem sua compreensão com as interações, aumentando a percepção contextual e a precisão nas decisões.
ProAgent superou cinco métodos de auto-contra-jogo e treinamento baseado em multidões.
2) Agentes Geradores (Simulação)
Como os personagens virtuais refletem a profundidade e complexidade do comportamento humano? Embora sistemas de IA anteriores, como SHRDLU e ELIZA, tenham tentado interações em linguagem natural, abordagens baseadas em regras e aprendizado por reforço também avançaram em jogos, mas enfrentam limitações em consistência e interações abertas. Hoje, agentes que combinam LLMs com arquiteturas em múltiplas camadas superaram essas limitações, apresentando a capacidade de armazenar memórias, refletir sobre eventos e se adaptar a mudanças. Pesquisas mostram que esses agentes não apenas simulam comportamentos humanos reais, mas também demonstram uma habilidade emergente de disseminar informações, estabelecer relacionamentos sociais e coordenar comportamentos, tornando os personagens virtuais mais realistas.
Do artigo (A Ascensão e Potencial dos Agentes de Grande Escala)
Visão Geral da Arquitetura: Esta arquitetura combina percepção, recuperação de memória, reflexão, planejamento e resposta. Os agentes processam observações em linguagem natural através de um módulo de memória, avaliando e recuperando informações com base em temporalidade, importância e relevância contextual, enquanto geram reflexões baseadas em memórias passadas, oferecendo insights profundos sobre relações e planejamento. O módulo de raciocínio e planejamento é semelhante ao ciclo de planejamento-ação.
Resultados da Simulação: A pesquisa simulou a disseminação de informações na festa de Dia dos Namorados e nas eleições municipais, onde em dois dias a conscientização sobre o candidato a prefeito aumentou de 4% para 32%, enquanto a conscientização sobre a festa saltou de 4% para 52%, com apenas 1,3% de informações falsas. Os agentes coordenaram espontaneamente a organização da festa, formando uma nova rede social, com densidade aumentando de 0,167 para 0,74. A simulação demonstrou um mecanismo de compartilhamento de informações e coordenação social sem intervenção externa, oferecendo referências para futuros experimentos em ciências sociais.
Voyager (Produção e Exploração): No Minecraft, os agentes podem executar tarefas de produção ou explorar de forma autônoma. As tarefas de produção dependem do planejamento LLM e da decomposição de tarefas, enquanto a exploração autônoma identifica tarefas através de aprendizado de curso, gerando objetivos com LLM. O Voyager é um agente de aprendizado contínuo, combinando cursos automáticos, repositórios de habilidades e mecanismos de feedback, demonstrando o potencial de exploração e aprendizado.
Cursos Automáticos: Utiliza LLM para gerar metas relacionadas ao estado do agente e ao progresso da exploração, tornando as tarefas progressivamente mais complexas. Os agentes geram código modular para executar tarefas e usam feedback de raciocínio encadeado para modificar o código, se necessário. Após o sucesso, o código é armazenado em um repositório de habilidades para uso posterior.
O framework Voyager melhorou significativamente a eficiência de desbloqueio de árvores tecnológicas, com as velocidades de desbloqueio de madeira, pedra e ferro sendo, respectivamente, 15,3x, 8,5x e 6,4x mais rápidas, tornando-se o único framework a desbloquear diamantes. A distância de exploração é 2,3x maior do que o benchmark, descobrindo novos itens 3,3x mais frequentemente, demonstrando uma capacidade excepcional de aprendizado contínuo.
4, Aplicações Potenciais no Domínio dos Jogos: 1) Jogabilidade impulsionada por agentes
Simulação Multi-Agente: Personagens de IA agem autonomamente, promovendo jogabilidade dinâmica.
Unidades Inteligentes de Jogos Estratégicos: Agentes adaptam-se ao ambiente e tomam decisões de forma autônoma com base nos objetivos dos jogadores.
Campo de Treinamento de IA: Jogadores projetam e treinam IA para completar tarefas.
2) NPCs e Mundos Virtuais Aprimorados por IA
NPCs do Mundo Aberto: NPCs impulsionados por LLM influenciam dinâmicas econômicas e sociais.
Diálogos Reais: Melhorando a experiência de interação de NPCs.
Ecossistema Virtual: A evolução de sistemas impulsionados por IA.
Eventos Dinâmicos: Gerenciamento em tempo real de atividades dentro do jogo.
3) Narrativa Dinâmica e Suporte ao Jogador
Narrativa Adaptativa: Agentes geram tarefas e histórias personalizadas.
Assistente do Jogador: Fornece dicas e suporte interativo.
AI com Resposta Emocional: Interage com base nas emoções dos jogadores.
4) Educação e Criação
Oponente AI: Adapta-se às estratégias dos jogadores em competições e simulações.
Jogos Educativos: Agentes fornecem ensino personalizado.
Assistência à Criação: Gera conteúdo de jogos, reduzindo as barreiras de desenvolvimento.
5) Criptografia e Domínio Financeiro
Agentes operam carteiras, transações e interagem com protocolos DeFi de forma autônoma através da blockchain.
Carteira de Contratos Inteligentes: Suporta múltiplas assinaturas e abstração de contas, aumentando a autonomia dos agentes.
Gerenciamento de Chave Privada: Usando computação multipartidária (MPC) ou ambientes de execução confiáveis (TEE) para garantir segurança, como as ferramentas de agentes de IA desenvolvidas pela Coinbase.
Essas tecnologias trazem novas oportunidades para a interação autônoma dos agentes na blockchain e aplicações no ecossistema criptográfico.
5, Aplicações de Agentes no Campo da Blockchain
1) Raciocínio de Agentes Verificadores
A validação fora da cadeia é um foco da pesquisa em blockchain, principalmente aplicada a cálculos de alta complexidade. Direções de pesquisa incluem provas de conhecimento zero, validação otimista, ambientes de execução confiáveis (TEE) e teoria dos jogos de economia criptográfica.
Validação da Saída do Agente: Confirmar resultados de raciocínio de agentes através de validadores em cadeia, permitindo que os agentes sejam executados externamente e que resultados de raciocínio confiáveis sejam registrados em cadeia, semelhante a oráculos descentralizados.
Caso: O 'Leela vs. the World' da Modulus Labs usa circuitos de conhecimento zero para validar ações em jogos, combinando mercados preditivos com saídas de IA verificáveis.
2) Colaboração de Agentes Criptográficos
Sistema de nós distribuídos que pode operar sistemas multi-agentes e alcançar consenso.
Caso Ritual: Através da execução em múltiplos nós do LLM, combinando validação em cadeia e votação para formar decisões de ação de agentes.
Protocolo Naptha: Fornece um mercado de tarefas e um sistema de validação de fluxo de trabalho para a colaboração e validação de tarefas dos agentes.
Oráculo AI Descentralizado: Como o Protocolo Ora, apoia a execução distribuída de agentes e o estabelecimento de consenso.
3) Estrutura Eliza
Desenvolvido pela a16z, um framework de múltiplos agentes de código aberto projetado para blockchain, suportando a criação e gerenciamento de agentes inteligentes personalizados.
Características: Arquitetura modular, memória de longo prazo, integração de plataforma (suporte a Discord, X, Telegram, etc.).
Motor de Confiança: Combinando transações automáticas de tokens, avaliando e gerenciando pontuações de confiança recomendadas.
4) Outras Aplicações de Agentes
Aquisição Descentralizada de Habilidades: Incentivar o desenvolvimento de ferramentas e conjuntos de dados através de mecanismos de recompensa, como a criação de repositórios de habilidades e navegação de protocolos.
Agentes de Mercado de Previsão: Combinando mercados de previsão com autotrading de agentes, como Gnosis e Autonolas, suportando previsões e serviços de resposta em cadeia.
Governança de Agentes: Analisando propostas automaticamente através de agentes em DAOs e votando.
Agentes Tokenizados: Compartilhamento de receitas de agentes, como MyShell e Protocolo Virtual, que apoiam mecanismos de dividendos.
Gerenciamento de Intenções DeFi: Agentes otimizam a experiência do usuário em ambientes multi-chain, executando transações automaticamente.
Emissão Autônoma de Tokens: Tokens emitidos por agentes para aumentar a atratividade de mercado dos tokens.
Artista Autônomo: Como Botto, combina votação da comunidade e emissão de NFT em cadeia, apoiando a criação e distribuição de receitas pelos agentes.
Agentes de Jogos Econômicos: Como AI Arena, combinam aprendizado por reforço e aprendizado por imitação, projetando competições de jogos online 24/7.
6, Dinâmicas Recentes e Perspectivas
Vários projetos estão explorando a interseção entre blockchain e IA, com uma ampla gama de aplicações. Em seguida, discutiremos especificamente agentes de IA na blockchain. 1) Capacidade de Previsão: A previsão é fundamental para a tomada de decisões. A previsão tradicional se divide em previsão estatística e previsão baseada em julgamento, que depende de especialistas, é cara e lenta.
Avanços na Pesquisa:
Através de busca de notícias e aumento de raciocínio, a precisão de previsão dos grandes modelos de linguagem (LLMs) aumentou de 50% para 71,5%, próximo da previsão humana de 77%.
Integração de 12 modelos, a previsão se aproxima da confiabilidade humana, demonstrando que a 'sabedoria coletiva' aumenta a confiabilidade.
2) Jogar o Papel (Roleplay)
LLMs se destacam no campo de atuação, combinando inteligência social e mecanismos de memória para simular interações complexas.
Aplicação: Pode ser utilizada para simulação de papéis, interações em jogos e diálogos personalizados.
Método: Combina geração aumentada por recuperação (RAG) e engenharia de diálogos para otimizar o desempenho através de prompts de poucos exemplos.
Inovação:
RoleGPT extrai dinamicamente o contexto do personagem, aumentando a verossimilhança.
O Character-LLM recria as características de figuras históricas usando dados biográficos, recuperando com precisão os personagens.
Essas tecnologias impulsionaram a expansão das aplicações de IA em simulação social e interações personalizadas.
Do artigo (Character-LLM)
Aplicação do RPLA (Agente de Linguagem de Jogos de Papel)
Abaixo está uma lista resumida de algumas aplicações do RPLA:
NPCs Interativos em Jogos: Criar personagens dinâmicos com inteligência emocional, aumentando a imersão do jogador.
Simulação de Personagens Históricos: Recria figuras históricas, como Sócrates ou Cleópatra, para educação ou diálogos exploratórios.
Assistente de Criação de Histórias: Fornece suporte narrativo e de diálogo rico para escritores, jogadores de RPG e criadores.
Performance Virtual: Interpretando atores ou figuras públicas para cenários de teatro interativo, eventos virtuais e entretenimento.
Co-criação de IA: Colaborar com IA para criar arte, música ou histórias em estilos específicos.
Parceiro de Aprendizado de Linguagem: Simula falantes nativos para oferecer práticas de linguagem imersivas.
Simulação Social: Construir sociedades futuras ou hipotéticas para testar cenários culturais, éticos ou comportamentais.
Companheiros Virtuais Personalizados: Criar assistentes ou parceiros personalizados com personalidade, características e memórias únicas.
7, Questões de Alinhamento de IA
Avaliar se o LLM está alinhado com os valores humanos é uma tarefa complexa, cheia de desafios devido à diversidade e abertura dos cenários de aplicação reais. Projetar testes de alinhamento abrangentes requer um esforço significativo, mas os conjuntos de dados de testes estáticos existentes são difíceis de refletir questões emergentes em tempo hábil.
Atualmente, o alinhamento de IA é frequentemente realizado através de supervisão humana externa, como o método RLHF da OpenAI (aprendizado por reforço baseado em feedback humano), que leva 6 meses e consome muitos recursos para otimizar o alinhamento do GPT-4.
Pesquisas também tentam reduzir a supervisão humana, usando LLMs maiores para revisão, mas novas direções estão utilizando estruturas de agentes para analisar a situação de alinhamento do modelo. Por exemplo:
1) Estrutura ALI-Agent
Detectar riscos sutis ou de 'cauda longa' através da geração dinâmica de cenários reais, superando as limitações dos testes tradicionais estáticos.
Fluxo de duas fases:
Geração de Cenários: Gera cenários de risco potenciais com base em conjuntos de dados ou consultas na web, utilizando o módulo de memória para chamar registros de avaliações passadas.
Otimização de Cenário: Se problemas de alinhamento não forem identificados, o feedback do modelo objetivo otimiza iterativamente o cenário.
Composição de Módulos: Módulo de memória, módulo de ferramentas (como pesquisa na web) e módulo de ação. Experimentos demonstraram que isso pode revelar problemas de alinhamento não identificados no LLM.
2) Método MATRIX
Baseado em uma abordagem de auto-alinhamento de 'multi-papel', inspirada em teorias sociológicas, para entender valores através da simulação de interações multifacetadas.
Características Principais:
Método Monopolylogue: Um único modelo desempenha múltiplos papéis e avalia o impacto social.
Regulador Social: Registra regras de interação e resultados simulados.
Inovação: Abandonar regras predefinidas, moldar a consciência social do LLM através de interações simuladas e usar dados simulados para ajustar rapidamente o modelo. Experimentos mostraram que o alinhamento MATRIX supera os métodos existentes e ultrapassa o GPT-4 em alguns testes de referência.
Do artigo (MATRIX)
Há muitas pesquisas sobre o alinhamento de agentes de IA que podem valer a pena escrever um artigo separado.
Governança e Organização: Organizações dependem de procedimentos operacionais padrão (SOP) para coordenar tarefas e alocar responsabilidades. Por exemplo, em uma empresa de software, gerentes de produto usam SOP para analisar o mercado e as necessidades dos usuários, e elaborar documentos de requisitos de produto (PRD) para orientar o processo de desenvolvimento. Essa estrutura é adequada para quadros multi-agentes, como o MetaGPT, onde os papéis dos agentes são claros, com ferramentas e capacidades de planejamento relevantes, além de otimizar o desempenho através do feedback.
A arquitetura baseada em agentes melhora o desempenho dos robôs em planejamento de tarefas complexas e interações adaptativas. Políticas robóticas sob condições de linguagem ajudam os robôs a entender o ambiente e gerar sequências de ações executáveis de acordo com as necessidades da tarefa.
Estrutura da Arquitetura: A combinação de LLMs com planejamento clássico pode efetivamente interpretar comandos em linguagem natural e transformá-los em sequências de tarefas executáveis. O framework SayCan combina aprendizado por reforço e planejamento de capacidades, permitindo que robôs executem tarefas no mundo real, assegurando a viabilidade e adaptabilidade das instruções. O Monólogo Interno aprimora ainda mais a adaptabilidade do robô, ajustando ações através de feedback para realizar auto-correções.
Exemplo de Framework: O framework SayCan permite que robôs avaliem e executem tarefas (como pegar uma bebida da mesa) ao enfrentar instruções em linguagem natural, garantindo que as ações correspondam às suas capacidades reais.
SayPlan: SayPlan utiliza 3DSGs para planejar tarefas em múltiplos quartos, mantendo a percepção do contexto espacial e validando planos para garantir a execução de tarefas em amplos espaços.
Monólogo Interno: Esta estrutura otimiza a execução através de feedback em tempo real, adaptando-se a mudanças no ambiente, aplicável a tarefas de cozinha e reorganização de mesas.
RoCo: Um método de colaboração de múltiplos robôs em zero-shot, combinando raciocínio em linguagem natural e planejamento de movimento, gerando planos de sub-tarefas e otimizando através da validação ambiental para garantir viabilidade.
A ciência (Capacitação da Descoberta Biomédica com Agentes de IA) propõe uma estrutura de múltiplos agentes, combinando ferramentas e especialistas para apoiar descobertas científicas. O artigo apresenta cinco planos de colaboração:
Agente de Brainstorming
Agente de Consultoria Especializada
Agente de Debate em Pesquisa
Agente de Discussão em Mesa Redonda
Agentes de Laboratório Autônomo
O artigo também discute os níveis de autonomia dos agentes de IA:
Nível 0: Modelos de ML ajudam cientistas a formular hipóteses, como o AlphaFold-Multimer que prevê interações entre proteínas.
Nível 1: Agentes como assistentes que suportam a definição de tarefas e objetivos. O ChemCrow usa ferramentas de aprendizado de máquina para expandir o espaço de ação, apoiando pesquisas em química orgânica e descobrindo novos pigmentos com sucesso.
Nível 2: Na fase Nível 2, os agentes de IA colaboram com cientistas para aprimorar hipóteses, realizar testes de hipóteses e usar ferramentas para descobertas científicas. O Coscientista é um agente inteligente baseado em múltiplos LLMs, capaz de planejar, projetar e executar experimentos complexos de forma autônoma, utilizando ferramentas como a internet, APIs e colaboração com outros LLMs, até mesmo controlando hardware diretamente. Sua capacidade se manifesta em planejamento de síntese química, busca de documentação de hardware, execução de comandos de alto nível, manipulação de líquidos e resolução de problemas científicos complexos.
Nível 3: Na fase Nível 3, os agentes de IA podem superar os limites existentes da pesquisa, inferindo novas hipóteses. Embora esta fase ainda não tenha sido realizada, a otimização do próprio trabalho pode acelerar o progresso do desenvolvimento de IA.
8, Resumo: O Futuro dos Agentes de IA
Agentes de IA estão mudando o conceito e a aplicação da inteligência, remodelando decisões e autonomia. Eles se tornaram participantes ativos em áreas como descobertas científicas e estruturas de governança, não apenas como ferramentas, mas também como parceiros colaborativos. À medida que a tecnologia avança, precisamos repensar como equilibrar o poder desses agentes com questões éticas e sociais potenciais, garantindo que seu impacto seja controlável, promovendo o desenvolvimento tecnológico e reduzindo riscos.