Nos últimos anos, agentes autônomos baseados em Modelos de Linguagem de Grande Escala (LLM) têm evoluído continuamente em arquitetura, memória, percepção, raciocínio e ação, demonstrando potencial para redefinir possibilidades em várias áreas. E como isso será aplicado em Agentes de IA, que estão no foco do mercado? Este artigo é uma adaptação de um texto escrito por Rituals, organizado e traduzido por 白話區塊鏈. (Prévia: Rumores da Apple sobre o lançamento em 2025 de uma versão aprimorada do "LLM Siri": um assistente de vida em IA mais poderoso que o ChatGPT) (Contexto adicional: Por que a meme de IA será uma grande pista? - Fundador da ai16z) Nos últimos anos, o conceito de agente tem ganhado cada vez mais importância em campos como filosofia, jogos e inteligência artificial. Tradicionalmente, um agente é visto como uma entidade capaz de agir de forma autônoma, fazer escolhas e ter intenções, características que geralmente estão associadas aos humanos. No entanto, no campo da inteligência artificial, o significado de agente torna-se mais complexo. Com a emergência de agentes autônomos, esses agentes são capazes de observar, aprender e agir de forma independente em um ambiente, conferindo uma forma concreta ao conceito abstrato de agente no contexto de sistemas computacionais. Esses agentes quase não requerem intervenção humana, exibindo uma capacidade de intenção computacional que, embora não consciente, lhes permite tomar decisões, aprender com a experiência e interagir de maneira cada vez mais complexa com outros agentes ou humanos. Este artigo explorará o emergente campo dos agentes autônomos, especialmente aqueles baseados em Modelos de Linguagem de Grande Escala (LLM) e suas influências em áreas como jogos, governança, ciência e robótica. Com base nos princípios fundamentais dos agentes, o artigo irá analisar a arquitetura e as aplicações dos agentes de inteligência artificial. Através desta perspectiva de classificação, poderemos entender melhor como esses agentes executam tarefas, processam informações e se desenvolvem continuamente dentro de suas estruturas operacionais específicas. Os objetivos deste artigo incluem os seguintes dois aspectos: Fornecer uma visão sistemática sobre agentes de inteligência artificial e suas arquiteturas, com foco na análise de componentes como memória, percepção, raciocínio e planejamento. Explorar as tendências atuais na pesquisa sobre agentes de inteligência artificial, destacando casos de uso que redefinem possibilidades. Nota: Devido à extensão do artigo, a tradução contém cortes em relação ao texto original. Tendências na pesquisa sobre agentes A evolução de agentes baseados em Modelos de Linguagem de Grande Escala (LLM) marca um progresso significativo na pesquisa em inteligência artificial, abrangendo múltiplos avanços desde raciocínio simbólico, sistemas reativos, aprendizado por reforço até aprendizado adaptativo. Agentes simbólicos: Simulam o raciocínio humano através de regras e conhecimento estruturado, adequados para problemas específicos (como diagnósticos médicos), mas difíceis de lidar em ambientes complexos e incertos. Agentes reativos: Respondem rapidamente ao ambiente através de um ciclo de "percepção – ação", adequados para cenários de interação rápida, mas incapazes de completar tarefas complexas. Agentes de aprendizado por reforço: Otimizam comportamentos por meio de aprendizado baseado em tentativas e erros, amplamente aplicados em jogos e robótica, mas com tempos de treinamento longos, baixa eficiência de amostra e instabilidade. Agentes baseados em LLM: Agentes LLM combinam raciocínio simbólico, feedback e aprendizado adaptativo, com capacidade de aprendizado de poucos e zero exemplos, amplamente aplicados em desenvolvimento de software, pesquisa científica e outros campos, adequados para ambientes dinâmicos e capazes de colaborar com outros agentes. Arquitetura dos Agentes A arquitetura moderna dos agentes inclui múltiplos módulos, formando um sistema integrado. 1. Módulo de Perfil O módulo de perfil determina o comportamento do agente, garantindo consistência através da atribuição de papéis ou personalidades, adequado para cenários que exigem uma personalidade estável. Os perfis dos agentes LLM são divididos em três categorias: papéis demográficos, papéis virtuais e papéis personalizados. Extraído do artigo (De Papéis a Personalização) O impacto dos papéis no desempenho A definição de papéis pode melhorar significativamente o desempenho e a capacidade de raciocínio do agente. Por exemplo, quando o LLM atua como um especialista, suas respostas são mais profundas e contextualmente apropriadas. Em sistemas de múltiplos agentes, a correspondência de papéis promove a colaboração e melhora a taxa de conclusão de tarefas e a qualidade da interação. Métodos de Criação de Perfis Perfis de agentes LLM podem ser construídos das seguintes maneiras: Design manual: Definição manual das características do papel. Geração pelo LLM: Expansão automática das definições de papéis pelo LLM. Alinhamento de conjuntos de dados: Construído com base em conjuntos de dados reais, melhorando a autenticidade das interações. 2. Módulo de Memória A memória é o núcleo dos agentes LLM, apoiando planejamento e decisão adaptativa. A estrutura da memória simula processos humanos, sendo dividida em duas categorias principais: Memória Unificada: Memória de curto prazo, que lida com informações recentes. Otimizada através de extração de texto, resumos de memória e mecanismos de atenção de modificação, mas limitada pela janela de contexto. Memória Híbrida: Combina memória de curto e longo prazo, onde a memória de longo prazo é armazenada em bancos de dados externos, facilitando a recuperação eficiente. Formatos de Memória Os formatos comuns de armazenamento de memória incluem: Linguagem Natural: Flexível e semanticamente rica. Vetores de Embedding: Facilita a recuperação rápida. Banco de Dados: Suporte a consultas através de armazenamento estruturado. Listas Estruturadas: Organiza em forma de lista ou hierarquia. Operações de Memória Os agentes interagem com a memória através das seguintes operações: Leitura de Memória: Recupera informações relevantes, apoiando decisões informadas. Escrita de Memória: Armazena novas informações, evitando repetições e transbordamentos. Reflexão de Memória: Resume experiências, aumentando a capacidade de raciocínio abstrato. Baseado no conteúdo do artigo (Agentes Geradores) Significado e Desafios da Pesquisa Embora os sistemas de memória aumentem as capacidades dos agentes, também trazem desafios de pesquisa: Escalabilidade e Eficiência: Os sistemas de memória precisam suportar grandes quantidades de informações e garantir recuperação rápida, como otimizar a recuperação de memória de longo prazo ainda é um foco de pesquisa. Gerenciamento de Limitações de Contexto: Os LLM atuais são limitados pela janela de contexto, dificultando o gerenciamento de grandes memórias, a pesquisa explora mecanismos de atenção dinâmica e técnicas de resumo para expandir a capacidade de processamento de memória. Viés e Deriva na Memória de Longo Prazo: A memória pode apresentar viés, levando a um processamento preferencial de informações e causando deriva na memória, exigindo atualizações e correções regulares para manter o equilíbrio do agente. Esquecimento Catastrófico: Novas informações podem sobrepor as antigas, levando à perda de informações críticas, necessitando de técnicas de replay de experiências e consolidação de memória para reforçar memórias essenciais. 3. Capacidade de Percepção Os agentes LLM melhoram sua compreensão e capacidade de decisão sobre o ambiente processando diversas fontes de dados, semelhante à dependência dos humanos em entradas sensoriais. A percepção multimodal integra entradas de texto, visão e audição, aumentando a capacidade do agente para realizar tarefas complexas. Aqui estão os principais tipos de entrada e suas aplicações: Entrada de Texto O texto é o principal meio de comunicação dos agentes LLM. Embora os agentes tenham habilidades linguísticas avançadas, compreender o significado implícito por trás das instruções ainda é um desafio. Compreensão Implícita: Ajusta preferências através de aprendizado por reforço, lidando com instruções ambíguas e inferindo intenções. Capacidades de Zero e Poucos Exemplos: Responde a novas tarefas sem treinamento adicional, adequado para cenários de interação diversificada. Entrada Visual A percepção visual permite que os agentes entendam relações entre objetos e espaço. Imagem para Texto: Gera descrições textuais para ajudar a processar dados visuais, mas pode perder detalhes. Codificação baseada em Transformer: Como os Transformers de Visão transformam imagens em tokens compatíveis com texto. Ferramentas de Conexão: Como BLIP-2 e Flamingo, utilizam camadas intermediárias para otimizar a conexão entre visão e texto. Entrada Auditiva A percepção auditiva permite que os agentes reconheçam sons e fala, especialmente importante em interações e cenários de alto risco. Reconhecimento e Síntese de Voz: Como Whisper (voz para texto) e FastSpeech (texto para voz). Processamento de Espectrograma: Processa espectrogramas de áudio como imagens, melhorando a capacidade de decodificação de sinais auditivos. Desafios e Considerações na Pesquisa de Percepção Multimodal: Alinhamento e Integração de Dados: A validação eficiente de dados multimodais é necessária para evitar erros de percepção e resposta, com pesquisa focada na otimização de Transformers multimodais e camadas de atenção cruzada. Escalabilidade e Eficiência: O processamento multimodal exige muito, especialmente ao lidar com imagens e áudios de alta resolução, desenvolvendo técnicas de baixo recurso para...