Cztery rzeczy, które wkrótce będą mogli zrobić użytkownicy Google Gemini

Model sztucznej inteligencji Google, Gemini, zostaje wpleciony w dużą część technologii giganta technologicznego, a sztuczna inteligencja wkrótce pojawi się w Gmailu, YouTube i smartfonach firmy.
W przemówieniu programowym wygłoszonym 14 maja na konferencji programistów I/O 2024 firmy dyrektor generalny Sundar Pichai ujawnił niektóre z nadchodzących miejsc, w których pojawi się model sztucznej inteligencji.
Pichai wspomniał o sztucznej inteligencji 121 razy w swoim 110-minutowym przemówieniu, gdy temat znalazł się w centrum uwagi – w centrum uwagi znalazł się Gemini, którego premiera odbyła się w grudniu.
Google włącza model dużego języka (LLM) do praktycznie wszystkich swoich usług, w tym Androida, wyszukiwarki i Gmaila, i oto, czego użytkownicy mogą się spodziewać w przyszłości.
Sundar Pichai na Google I/O 2024. Źródło: interakcje z aplikacją Google
Gemini zyskuje większy kontekst, ponieważ będzie mógł wchodzić w interakcję z aplikacjami. W nadchodzącej aktualizacji użytkownicy będą mogli dzwonić do Gemini i korzystać z aplikacji, na przykład przeciągając i upuszczając obraz wygenerowany przez sztuczną inteligencję do wiadomości.
Użytkownicy YouTube będą mogli także kliknąć „Zadaj pytanie o ten film”, aby znaleźć w filmie określone informacje od sztucznej inteligencji.
Bliźnięta w Gmailu
Platforma e-mailowa Google, Gmail, również zostanie zintegrowana ze sztuczną inteligencją, ponieważ użytkownicy będą mogli wyszukiwać, podsumowywać i redagować swoje e-maile za pomocą Gemini.
Asystent AI będzie mógł podejmować działania na e-mailach w celu realizacji bardziej złożonych zadań, takich jak pomoc w przetwarzaniu zwrotów e-commerce poprzez przeszukiwanie skrzynki odbiorczej, znajdowanie paragonu i wypełnianie formularzy online.
Bliźnięta na żywo
Google zaprezentowało także nowe rozwiązanie o nazwie Gemini Live, w którym użytkownicy mogą prowadzić „dogłębne” czaty głosowe z sztuczną inteligencją na swoich smartfonach.
Chatbot może zostać przerwany w połowie odpowiedzi w celu wyjaśnienia, a chatbot dostosuje się do wzorców mowy użytkowników w czasie rzeczywistym. Ponadto Gemini może także widzieć fizyczne otoczenie i reagować na nie za pomocą zdjęć lub filmów zarejestrowanych na urządzeniu.
Zrzut ekranu z filmu promocyjnego Gemini. Źródło: postępy Google w zakresie multimodalności
Google pracuje nad opracowaniem inteligentnych agentów AI, którzy potrafią rozumować, planować i wykonywać złożone, wieloetapowe zadania w imieniu użytkownika pod nadzorem. Multimodalność oznacza, że ​​sztuczna inteligencja może wykraczać poza tekst i obsługiwać wejścia obrazu, audio i wideo.
Przykłady i wczesne przypadki użycia obejmują automatyzację zwrotów zakupów i odkrywanie nowego miasta.
Powiązane: Gemini, „zabójca GPT-4” firmy Google, jest już dostępny. Oto, jak możesz go wypróbować
Inne planowane aktualizacje modelu sztucznej inteligencji firmy obejmują zastąpienie Asystenta Google na Androidzie przez Gemini w pełni zintegrowane z mobilnym systemem operacyjnym.
Nowa funkcja „Zapytaj zdjęcia” umożliwia przeszukiwanie biblioteki zdjęć przy użyciu zapytań w języku naturalnym obsługiwanych przez Gemini. Potrafi rozumieć kontekst, rozpoznawać przedmioty i osoby oraz podsumowywać wspomnienia fotograficzne w odpowiedzi na pytania.
Wygenerowane przez sztuczną inteligencję podsumowania miejsc i obszarów będą wyświetlane w Mapach Google z wykorzystaniem danych mapowych platformy.
Magazyn: „Sic AI na siebie”, aby zapobiec apokalipsie AI: David Brin, autor science-fiction
Cztery rzeczy, które wkrótce będą mogli zrobić użytkownicy Google Gemini

Odkryj więcej od twórcy

Najnowsze wiadomości