Four Things Google Gemini Users Will Be Able to Do Soon

Cointelegraph · 2024-05-15T06:33:03.000Z

Google’s artificial intelligence model Gemini is getting weaved into much of the tech giant’s technology, with the AI soon to show up in Gmail, on YouTube, and on the company’s smartphones. In a keynote speech at the company’s I/O 2024 developer conference on May 14, CEO Sundar Pichai revealed some of the upcoming places its AI model will appear. Pichai mentioned AI 121 times in his 110-minute keynote as the topic took center stage — Gemini, which launched in December, took the limelight. Google is incorporating the large language model (LLM) into virtually all of its offerings, including Android, Search, and Gmail, and here is what users can expect going forward. Sundar Pichai at Google I/O 2024. Source: Google App interactions Gemini is getting more context in that it will be able to interact with applications. In an upcoming update, users will be able to call Gemini to interact with apps such as dragging and dropping an AI-generated image into a message. YouTube users will also be able to tap “Ask this video” to find specific information from within the video from the AI. Gemini in Gmail Google’s email platform, Gmail, is also getting AI integration as users will be able to search, summarize, and draft their emails using Gemini. The AI assistant will be able to take action on emails for more complex tasks, such as assisting in processing e-commerce returns by searching the inbox, finding the receipt, and filling out online forms. Gemini Live Google also unveiled a new experience called Gemini Live where users can have “in-depth” voice chats with the AI on their smartphones. The chatbot can be interrupted mid-answer for clarification and it will adapt to users’ speech patterns in real-time. Additionally, Gemini can also see and respond to physical surroundings via photos or videos captured on the device. Screenshot from Gemini promotional video. Source: Google Multimodal advancements Google is working on developing intelligent AI agents that can reason, plan, and complete complex multi-step tasks on the user’s behalf under supervision. Multimodal means that the AI can go beyond text and handle image, audio, and video inputs. Examples and early use cases include automating shopping returns and exploring a new city. Related: Google’s ‘GPT-4 killer’ Gemini is out, here’s how you can try it Other updates in the pipeline for the firm’s AI model include a replacement for Google Assistant on Android with Gemini fully integrated into the mobile operating system. A new “Ask Photos” feature allows searching the photo library using natural language queries powered by Gemini. It can understand context, recognize objects and people, and summarize photo memories in response to questions. AI-generated summaries of places and areas will be shown in Google Maps utilizing insights from the platform’s mapping data. Magazine: ‘Sic AIs on each other’ to prevent AI apocalypse: David Brin, sci-fi author

El modelo de inteligencia artificial Gemini de Google se está integrando en gran parte de la tecnología del gigante tecnológico, y la IA pronto aparecerá en Gmail, YouTube y los teléfonos inteligentes de la compañía.
En un discurso de apertura en la conferencia de desarrolladores I/O 2024 de la compañía el 14 de mayo, el director ejecutivo Sundar Pichai reveló algunos de los próximos lugares en los que aparecerá su modelo de IA.
Pichai mencionó la IA 121 veces en su discurso de apertura de 110 minutos cuando el tema ocupó un lugar central: Gemini, que se lanzó en diciembre, tomó el centro de atención.
Google está incorporando el modelo de lenguaje grande (LLM) en prácticamente todas sus ofertas, incluidos Android, Búsqueda y Gmail, y esto es lo que los usuarios pueden esperar en el futuro.
Sundar Pichai en Google I/O 2024. Fuente: Interacciones de aplicaciones de Google
Gemini está adquiriendo más contexto en el sentido de que podrá interactuar con aplicaciones. En una próxima actualización, los usuarios podrán llamar a Gemini para interactuar con aplicaciones, como arrastrar y soltar una imagen generada por IA en un mensaje.
Los usuarios de YouTube también podrán tocar "Preguntar a este video" para encontrar información específica dentro del video de la IA.
Géminis en Gmail
La plataforma de correo electrónico de Google, Gmail, también se está integrando con IA, ya que los usuarios podrán buscar, resumir y redactar sus correos electrónicos utilizando Gemini.
El asistente de IA podrá tomar medidas en los correos electrónicos para tareas más complejas, como ayudar a procesar devoluciones de comercio electrónico buscando en la bandeja de entrada, encontrando el recibo y completando formularios en línea.
Géminis en vivo
Google también presentó una nueva experiencia llamada Gemini Live donde los usuarios pueden tener chats de voz "profundos" con la IA en sus teléfonos inteligentes.
El chatbot se puede interrumpir a mitad de una respuesta para solicitar una aclaración y se adaptará a los patrones de habla de los usuarios en tiempo real. Además, Gemini también puede ver y responder al entorno físico a través de fotos o vídeos capturados en el dispositivo.
Captura de pantalla del vídeo promocional de Gemini. Fuente: Avances multimodales de Google
Google está trabajando en el desarrollo de agentes inteligentes de IA que puedan razonar, planificar y completar tareas complejas de varios pasos en nombre del usuario bajo supervisión. Multimodal significa que la IA puede ir más allá del texto y manejar entradas de imágenes, audio y video.
Los ejemplos y casos de uso iniciales incluyen la automatización de devoluciones de compras y la exploración de una nueva ciudad.
Relacionado: Gemini, el 'asesino GPT-4' de Google, ya está disponible, así es como puedes probarlo
Otras actualizaciones en proceso para el modelo de inteligencia artificial de la empresa incluyen un reemplazo del Asistente de Google en Android con Gemini completamente integrado en el sistema operativo móvil.
Una nueva función "Preguntar fotos" permite buscar en la biblioteca de fotos mediante consultas en lenguaje natural impulsadas por Gemini. Puede comprender el contexto, reconocer objetos y personas y resumir recuerdos fotográficos en respuesta a preguntas.
Los resúmenes de lugares y áreas generados por IA se mostrarán en Google Maps utilizando información de los datos cartográficos de la plataforma.
Revista: 'Sic AI entre sí' para prevenir el apocalipsis de la IA: David Brin, autor de ciencia ficción

Explora más de este creador

Lo más reciente

Explora más de este creador

Lo más reciente

Artículos populares