Foi uma boa semana para a IA de código aberto.
Na quarta-feira, a Meta anunciou uma atualização para seu modelo de linguagem de última geração, o Llama 3.2, e ele não apenas fala, ele vê.
O mais intrigante é que algumas versões podem ser instaladas no seu smartphone sem perder qualidade, o que significa que você pode ter interações, aplicativos e personalizações de IA locais privadas sem enviar seus dados para servidores de terceiros.
Revelado na quarta-feira durante o Meta Connect, o Llama 3.2 vem em quatro sabores, cada um com um impacto diferente. Os concorrentes de peso — modelos de parâmetros 11B e 90B — flexionam seus músculos com recursos de processamento de texto e imagem.
Eles podem realizar tarefas complexas, como analisar gráficos, legendar imagens e até mesmo localizar objetos em imagens com base em descrições em linguagem natural.
O Llama 3.2 chegou na mesma semana que o Molmo do Allen Institute, que alegou ser o melhor LLM de visão multimodal de código aberto em benchmarks sintéticos, tendo um desempenho em nossos testes equivalente ao GPT-4o, Claude 3.5 Sonnet e Reka Core.
A empresa de Zuck também apresentou dois novos campeões de peso-mosca: um par de modelos de parâmetros 1B e 3B projetados para eficiência, velocidade e tarefas limitadas, mas repetitivas, que não exigem muita computação.
Esses pequenos modelos são maestros de texto multilíngues com um talento especial para “chamada de ferramentas”, o que significa que podem se integrar melhor com ferramentas de programação. Apesar do seu tamanho diminuto, eles ostentam uma impressionante janela de contexto de token de 128K — a mesma do GPT4o e outros modelos poderosos — tornando-os ideais para sumarização no dispositivo, acompanhamento de instruções e tarefas de reescrita.
A equipe de engenharia da Meta fez uma ginástica digital séria para fazer isso acontecer. Primeiro, eles usaram poda estruturada para aparar os dados desnecessários de modelos maiores, depois empregaram destilação de conhecimento — transferindo conhecimento de modelos grandes para menores — para espremer inteligência extra.
O resultado foi um conjunto de modelos compactos que superaram concorrentes rivais em sua categoria de peso, superando modelos como o Gemma 2 2.6B do Google e o Phi-2 2.7B da Microsoft em vários benchmarks.
A Meta também está trabalhando duro para impulsionar a IA no dispositivo. Eles formaram alianças com titãs de hardware como Qualcomm, MediaTek e Arm para garantir que o Llama 3.2 funcione bem com chips móveis desde o primeiro dia. Gigantes da computação em nuvem também não ficam de fora — AWS, Google Cloud, Microsoft Azure e uma série de outros estão oferecendo acesso instantâneo aos novos modelos em suas plataformas.
Sob o capô, os recursos de visão do Llama 3.2 vêm de ajustes arquitetônicos inteligentes. Os engenheiros da Meta assaram pesos adaptadores no modelo de linguagem existente, criando uma ponte entre codificadores de imagem pré-treinados e o núcleo de processamento de texto.
Em outras palavras, os recursos de visão do modelo não prejudicam sua competência de processamento de texto, então os usuários podem esperar resultados de texto semelhantes ou melhores quando comparados ao Llama 3.1.
O lançamento do Llama 3.2 é Open Source — pelo menos para os padrões da Meta. A Meta está disponibilizando os modelos para download no Llama.com e no Hugging Face, bem como por meio de seu amplo ecossistema de parceiros.
Os interessados em executá-lo na nuvem podem usar seu próprio Google Collab Notebook ou usar o Groq para interações baseadas em texto, gerando quase 5.000 tokens em menos de 3 segundos.
Montando a Lhama
Colocamos o Llama 3.2 à prova, testando rapidamente suas capacidades em diversas tarefas.
Em interações baseadas em texto, o modelo tem desempenho equivalente aos seus predecessores. No entanto, suas habilidades de codificação produziram resultados mistos.
Quando testado na plataforma da Groq, o Llama 3.2 gerou com sucesso código para jogos populares e programas simples. No entanto, o modelo menor 70B tropeçou quando solicitado a criar código funcional para um jogo personalizado que criamos. O 90B mais poderoso, no entanto, foi muito mais eficiente e gerou um jogo funcional na primeira tentativa.
Você pode ver o código completo gerado pelo Llama-3.2 e todos os outros modelos que testamos clicando neste link.
Identificando estilos e elementos subjetivos em imagens
O Llama 3.2 se destaca na identificação de elementos subjetivos em imagens. Quando apresentado a uma imagem futurista, estilo cyberpunk, e perguntado se ela se encaixava na estética steampunk, o modelo identificou com precisão o estilo e seus elementos. Ele forneceu uma explicação satisfatória, notando que a imagem não se alinhava com o steampunk devido à ausência de elementos-chave associados a esse gênero.
Análise de gráficos (e reconhecimento de imagem SD)
A análise de gráficos é outro ponto forte do Llama 3.2, embora exija imagens de alta resolução para desempenho ideal. Quando inserimos uma captura de tela contendo um gráfico — um que outros modelos como Molmo ou Reka pudessem interpretar — as capacidades de visão do Llama falharam. O modelo se desculpou, explicando que não conseguia ler as letras corretamente devido à qualidade da imagem.
Identificação de texto em imagem
Embora o Llama 3.2 tenha tido dificuldades com texto pequeno em nosso gráfico, ele teve um desempenho impecável ao ler texto em imagens maiores. Mostramos a ele um slide de apresentação apresentando uma pessoa, e o modelo entendeu o contexto com sucesso, distinguindo entre o nome e a função sem erros.
Veredito
No geral, o Llama 3.2 é uma grande melhoria em relação à geração anterior e é uma ótima adição à indústria de IA de código aberto. Seus pontos fortes estão na interpretação de imagens e no reconhecimento de texto grande, com algumas áreas para potencial melhoria, particularmente no processamento de imagens de qualidade inferior e no enfrentamento de tarefas complexas de codificação personalizadas.
A promessa de compatibilidade no dispositivo também é boa para o futuro das tarefas de IA privadas e locais e é um ótimo contrapeso para fechar ofertas como Gemini Nano e modelos proprietários da Apple.
Editado por Josh Quittner e Sebastian Sinclair