O modelo de inteligência artificial do Google, Gemini, está sendo integrado em grande parte da tecnologia da gigante da tecnologia, com a IA em breve aparecendo no Gmail, no YouTube e nos smartphones da empresa.
Em um discurso de abertura na conferência de desenvolvedores I/O 2024 da empresa em 14 de maio, o CEO Sundar Pichai revelou alguns dos próximos lugares em que seu modelo de IA aparecerá.
Pichai mencionou a IA 121 vezes em sua palestra de 110 minutos enquanto o tópico ganhava destaque – o Gemini, lançado em dezembro, ganhou o centro das atenções.
O Google está incorporando o modelo de linguagem grande (LLM) em praticamente todas as suas ofertas, incluindo Android, Pesquisa e Gmail, e aqui está o que os usuários podem esperar daqui para frente.
Sundar Pichai no Google I/O 2024. Fonte: interações do Google App
Gemini está ganhando mais contexto, pois poderá interagir com aplicativos. Em uma atualização futura, os usuários poderão ligar para o Gemini para interagir com aplicativos, como arrastar e soltar uma imagem gerada por IA em uma mensagem.
Os usuários do YouTube também poderão tocar em “Perguntar a este vídeo” para encontrar informações específicas no vídeo da IA.
Gêmeos no Gmail
A plataforma de e-mail do Google, Gmail, também está obtendo integração de IA, pois os usuários poderão pesquisar, resumir e redigir seus e-mails usando o Gemini.
O assistente de IA poderá agir em e-mails para tarefas mais complexas, como auxiliar no processamento de devoluções de comércio eletrônico pesquisando a caixa de entrada, encontrando o recibo e preenchendo formulários online.
Gêmeos ao vivo
O Google também revelou uma nova experiência chamada Gemini Live, onde os usuários podem ter bate-papos de voz “aprofundados” com a IA em seus smartphones.
O chatbot pode ser interrompido no meio da resposta para esclarecimentos e se adaptará aos padrões de fala dos usuários em tempo real. Além disso, o Gemini também pode ver e responder ao ambiente físico por meio de fotos ou vídeos capturados no dispositivo.
Captura de tela do vídeo promocional do Gemini. Fonte: Avanços multimodais do Google
O Google está trabalhando no desenvolvimento de agentes inteligentes de IA que possam raciocinar, planejar e concluir tarefas complexas de várias etapas em nome do usuário, sob supervisão. Multimodal significa que a IA pode ir além do texto e lidar com entradas de imagem, áudio e vídeo.
Exemplos e casos de uso iniciais incluem automatizar devoluções de compras e explorar uma nova cidade.
Relacionado: O Gemini ‘GPT-4 killer’ do Google foi lançado, veja como você pode experimentá-lo
Outras atualizações em andamento para o modelo de IA da empresa incluem uma substituição do Google Assistant no Android com o Gemini totalmente integrado ao sistema operacional móvel.
Um novo recurso “Ask Photos” permite pesquisar na biblioteca de fotos usando consultas em linguagem natural desenvolvidas pelo Gemini. Ele pode compreender o contexto, reconhecer objetos e pessoas e resumir memórias fotográficas em resposta a perguntas.
Resumos de lugares e áreas gerados por IA serão mostrados no Google Maps utilizando insights dos dados de mapeamento da plataforma.
Revista: ‘Sic AIs uns contra os outros’ para evitar o apocalipse da IA: David Brin, autor de ficção científica