O modelo de inteligência artificial do Google, Gemini, está sendo integrado em grande parte da tecnologia da gigante da tecnologia, com a IA em breve aparecendo no Gmail, no YouTube e nos smartphones da empresa.

Em um discurso de abertura na conferência de desenvolvedores I/O 2024 da empresa em 14 de maio, o CEO Sundar Pichai revelou alguns dos próximos lugares em que seu modelo de IA aparecerá.

Pichai mencionou a IA 121 vezes em sua palestra de 110 minutos enquanto o tópico ganhava destaque – o Gemini, lançado em dezembro, ganhou o centro das atenções.

O Google está incorporando o modelo de linguagem grande (LLM) em praticamente todas as suas ofertas, incluindo Android, Pesquisa e Gmail, e aqui está o que os usuários podem esperar daqui para frente.

Sundar Pichai no Google I/O 2024. Fonte: interações do Google App

Gemini está ganhando mais contexto, pois poderá interagir com aplicativos. Em uma atualização futura, os usuários poderão ligar para o Gemini para interagir com aplicativos, como arrastar e soltar uma imagem gerada por IA em uma mensagem.

Os usuários do YouTube também poderão tocar em “Perguntar a este vídeo” para encontrar informações específicas no vídeo da IA.

Gêmeos no Gmail

A plataforma de e-mail do Google, Gmail, também está obtendo integração de IA, pois os usuários poderão pesquisar, resumir e redigir seus e-mails usando o Gemini.

O assistente de IA poderá agir em e-mails para tarefas mais complexas, como auxiliar no processamento de devoluções de comércio eletrônico pesquisando a caixa de entrada, encontrando o recibo e preenchendo formulários online.

Gêmeos ao vivo

O Google também revelou uma nova experiência chamada Gemini Live, onde os usuários podem ter bate-papos de voz “aprofundados” com a IA em seus smartphones.

O chatbot pode ser interrompido no meio da resposta para esclarecimentos e se adaptará aos padrões de fala dos usuários em tempo real. Além disso, o Gemini também pode ver e responder ao ambiente físico por meio de fotos ou vídeos capturados no dispositivo.

Captura de tela do vídeo promocional do Gemini. Fonte: Avanços multimodais do Google

O Google está trabalhando no desenvolvimento de agentes inteligentes de IA que possam raciocinar, planejar e concluir tarefas complexas de várias etapas em nome do usuário, sob supervisão. Multimodal significa que a IA pode ir além do texto e lidar com entradas de imagem, áudio e vídeo.

Exemplos e casos de uso iniciais incluem automatizar devoluções de compras e explorar uma nova cidade.

Relacionado: O Gemini ‘GPT-4 killer’ do Google foi lançado, veja como você pode experimentá-lo

Outras atualizações em andamento para o modelo de IA da empresa incluem uma substituição do Google Assistant no Android com o Gemini totalmente integrado ao sistema operacional móvel.

Um novo recurso “Ask Photos” permite pesquisar na biblioteca de fotos usando consultas em linguagem natural desenvolvidas pelo Gemini. Ele pode compreender o contexto, reconhecer objetos e pessoas e resumir memórias fotográficas em resposta a perguntas.

Resumos de lugares e áreas gerados por IA serão mostrados no Google Maps utilizando insights dos dados de mapeamento da plataforma.

Revista: ‘Sic AIs uns contra os outros’ para evitar o apocalipse da IA: David Brin, autor de ficção científica