Gemini 2.0 - Um Modelo para "Tudo"

A Google apresentou o Gemini 2.0, um modelo de IA experimental aclamado como um passo transformador em direção a um "assistente universal."

Capaz de navegar autonomamente em sites, o modelo visa capacitar os usuários a desenvolver agentes de IA avançados.

O CEO Sundar Pichai o descreveu como a criação mais capaz da Google até agora, projetada para a "era agentiva."

Estamos dando início à nossa era Gemini 2.0 com o Gemini 2.0 Flash, que supera o 1.5 Pro em benchmarks-chave a uma velocidade 2X (veja o gráfico abaixo). Estou especialmente animado para ver o rápido progresso na codificação, com mais por vir.

Os desenvolvedores podem experimentar uma versão experimental em IA… pic.twitter.com/iEAV8dzkaW

— Sundar Pichai (@sundarpichai) 11 de dezembro de 2024

Esse lançamento ressalta o compromisso da Google em liderar a corrida de IA em meio à feroz concorrência de gigantes da indústria como Meta e Microsoft.

O Modelo Será Lançado em Produtos

Pichai anunciou que o Gemini 2.0, com capacidades multimodais avançadas, será em breve integrado à sua suíte de produtos, suportando saída nativa de imagem e áudio.

Estamos empolgados em apresentar o Gemini 2.0 - nosso modelo de IA mais capaz até agora - com o 2.0 Flash Experimental.

A partir de hoje, todos os usuários do Gemini podem experimentar uma versão otimizada para chat do Gemini 2.0 Flash Experimental, com desempenho aprimorado em vários benchmarks-chave e velocidade.… pic.twitter.com/HTIn1dDg7J

— Google Gemini App (@GeminiApp) 11 de dezembro de 2024

Isso segue o lançamento do Gemini 1.0 em dezembro de 2023, considerado o primeiro modelo "nativamente multimodal" capaz de processar e responder a consultas de texto, vídeo, imagens, áudio e código.

A versão mais recente reflete o empenho da Google em permanecer à frente no competitivo cenário de IA.

Pichai observou:

“Se o Gemini 1.0 era sobre organizar e entender informações, o Gemini 2.0 é sobre torná-las muito mais úteis.”

O Gemini 2.0, que estreia quase 10 meses após o modelo intermediário 1.5, permanece em prévia experimental.

Atualmente, apenas a variante 2.0 Flash, menor e econômica, está disponível, principalmente para desenvolvedores e testadores.

Demis Hassabis, CEO da Google DeepMind, descreveu o lançamento como um marco significativo para a empresa, apesar de seu lançamento inicial limitado.

Hassabis explicou:

“É tão bom quanto o modelo Pro atual. Então, você pode pensar nisso como um nível inteiro melhor, pela mesma eficiência de custo e eficiência de desempenho e velocidade. Estamos realmente felizes com isso.”

Outros usuários do Gemini ainda têm acesso ao 1.5 Flash, reconhecido por sua velocidade e eficiência.

Embora nossos modelos experimentais estejam ajustados para segurança, em alinhamento com nossa abordagem e diretrizes, eles são uma prévia inicial e podem não funcionar como esperado. Além disso, alguns recursos do Gemini não serão compatíveis com esses modelos em seu estado experimental.

— Google Gemini App (@GeminiApp) 11 de dezembro de 2024

Não Apenas Gemini 2.0, Google Anuncia uma Plétora de Recursos

A Google delineou planos ambiciosos para seu mais recente modelo de IA, Gemini 2.0, que Pichai afirma que melhorará o recurso de Visões Gerais de IA já disponível para um bilhão de usuários.

Pichai observou que as Visões Gerais de IA estão rapidamente se tornando uma das ferramentas de pesquisa mais populares da Google.

Com a integração do Gemini 2.0, o recurso será capaz de lidar com consultas complexas de múltiplas etapas, como resolver equações matemáticas e abordar questões multimodais.

Os testes limitados para o modelo começaram esta semana, mas o acesso mais amplo às suas capacidades de raciocínio está previsto para o início do próximo ano.

O modelo opera no chip de IA de 6ª geração da Google, Trillium, que estreou junto com o anúncio.

De acordo com a empresa, o Trillium oferece quatro vezes o desempenho e é 67% mais eficiente em termos de energia do que seu predecessor.

Os clientes do Google Cloud agora têm acesso a este hardware de ponta.

Entre os novos recursos impulsionados pelo Gemini 2.0 está o "Pesquisa Profunda", um assistente de pesquisa avançado disponível dentro do Gemini Avançado.

Esta ferramenta utiliza capacidades de raciocínio e contexto longo para compilar relatórios de pesquisa detalhados.

Estamos investindo nas fronteiras das capacidades agentivas com alguns protótipos iniciais. O Projeto Mariner é construído com o Gemini 2.0 e é capaz de entender e raciocinar sobre informações - pixels, texto, código, imagens + formulários - na tela do seu navegador, e então usa essas informações para… pic.twitter.com/zM1SKahg86

— Sundar Pichai (@sundarpichai) 11 de dezembro de 2024

O CEO da Google DeepMind, Demis Hassabis, comentou que esses avanços preparam o cenário para um 2025 transformador:

“Vemos realmente 2025 como o verdadeiro início da era baseada em agentes.”

A Google também apresentou o Projeto Mariner, uma extensão experimental do Chrome capaz de navegar autonomamente em navegadores da web, e introduziu Jules, um agente de IA projetado para ajudar os desenvolvedores a identificar e corrigir erros de codificação.

Outro recurso impulsionado pelo Gemini, descrito como um "Easter egg" por Hassabis, é um assistente de jogos capaz de analisar a tela de um usuário e melhorar a jogabilidade — um testemunho das verdadeiras capacidades multimodais do modelo.

ICYMI: Estamos na nossa era Gemini 2.0 🧵↓ https://t.co/w2pHRWutgJ

— Google Gemini App (@GeminiApp) 12 de dezembro de 2024