Vier Dinge, die Google Gemini-Nutzer bald tun können

Googles künstliches Intelligenzmodell Gemini wird in viele Technologien des Technologiegiganten integriert. Schon bald wird die KI in Gmail, auf YouTube und auf den Smartphones des Unternehmens zu finden sein.
In einer Grundsatzrede auf der Entwicklerkonferenz I/O 2024 des Unternehmens am 14. Mai enthüllte CEO Sundar Pichai einige der Orte, an denen sein KI-Modell in Zukunft erscheinen wird.
Pichai erwähnte KI in seiner 110-minütigen Keynote 121 Mal, als das Thema im Mittelpunkt stand – Gemini, das im Dezember auf den Markt kam, stand dabei im Rampenlicht.
Google integriert das Large Language Model (LLM) in nahezu alle seine Angebote, darunter Android, die Suche und Gmail. Hier erfahren Sie, was die Benutzer in der Zukunft erwarten können.
Sundar Pichai bei Google I/O 2024. Quelle: Google App-Interaktionen
Gemini erhält mehr Kontext, da es mit Anwendungen interagieren kann. In einem kommenden Update können Benutzer Gemini aufrufen, um mit Apps zu interagieren, beispielsweise durch Ziehen und Ablegen eines KI-generierten Bilds in eine Nachricht.
YouTube-Benutzer können außerdem auf „Dieses Video fragen“ tippen, um im Video spezifische Informationen von der KI zu erhalten.
Zwillinge in Gmail
Auch die E-Mail-Plattform von Google, Gmail, erhält eine KI-Integration, da Benutzer mit Gemini ihre E-Mails suchen, zusammenfassen und verfassen können.
Der KI-Assistent kann bei E-Mails auch komplexere Aufgaben ausführen und beispielsweise bei der Bearbeitung von E-Commerce-Retouren helfen, indem er den Posteingang durchsucht, die Quittung findet und Online-Formulare ausfüllt.
Zwillinge Live
Google stellte außerdem ein neues Erlebnis namens Gemini Live vor, bei dem Benutzer „ausführliche“ Sprachchats mit der KI auf ihren Smartphones führen können.
Der Chatbot kann zur Klärung mitten in der Antwort unterbrochen werden und passt sich in Echtzeit an die Sprachmuster der Benutzer an. Darüber hinaus kann Gemini auch die physische Umgebung anhand von mit dem Gerät aufgenommenen Fotos oder Videos sehen und darauf reagieren.
Screenshot aus dem Gemini-Werbevideo. Quelle: Google Multimodal Advancements
Google arbeitet an der Entwicklung intelligenter KI-Agenten, die unter Aufsicht des Benutzers komplexe mehrstufige Aufgaben begründen, planen und ausführen können. Multimodal bedeutet, dass die KI über Text hinausgehen und Bild-, Audio- und Videoeingaben verarbeiten kann.
Beispiele und erste Anwendungsfälle sind die Automatisierung von Einkaufsrückgaben und das Erkunden einer neuen Stadt.
Verwandt: Googles „GPT-4-Killer“ Gemini ist da – so können Sie ihn ausprobieren
Zu den weiteren Updates, die für das KI-Modell des Unternehmens in Planung sind, gehört ein Ersatz für Google Assistant auf Android durch Gemini, das vollständig in das mobile Betriebssystem integriert ist.
Eine neue Funktion „Fotos fragen“ ermöglicht die Suche in der Fotobibliothek mithilfe von natürlichsprachlichen Abfragen auf Basis von Gemini. Die Funktion kann Kontexte verstehen, Objekte und Personen erkennen und Fotoerinnerungen als Antwort auf Fragen zusammenfassen.
KI-generierte Zusammenfassungen von Orten und Gebieten werden in Google Maps angezeigt und nutzen dabei Erkenntnisse aus den Kartendaten der Plattform.
Magazin: „Hetzen Sie KIs aufeinander“, um eine KI-Apokalypse zu verhindern: David Brin, Science-Fiction-Autor
Vier Dinge, die Google Gemini-Nutzer bald tun können

Weitere Inhalte des Erstellers entdecken

Aktuelle Nachrichten