Model sztucznej inteligencji Google, Gemini, zostaje wpleciony w dużą część technologii giganta technologicznego, a sztuczna inteligencja wkrótce pojawi się w Gmailu, YouTube i smartfonach firmy.

W przemówieniu programowym wygłoszonym 14 maja na konferencji programistów I/O 2024 firmy dyrektor generalny Sundar Pichai ujawnił niektóre z nadchodzących miejsc, w których pojawi się model sztucznej inteligencji.

Pichai wspomniał o sztucznej inteligencji 121 razy w swoim 110-minutowym przemówieniu, gdy temat znalazł się w centrum uwagi – w centrum uwagi znalazł się Gemini, którego premiera odbyła się w grudniu.

Google włącza model dużego języka (LLM) do praktycznie wszystkich swoich usług, w tym Androida, wyszukiwarki i Gmaila, i oto, czego użytkownicy mogą się spodziewać w przyszłości.

Sundar Pichai na Google I/O 2024. Źródło: interakcje z aplikacją Google

Gemini zyskuje większy kontekst, ponieważ będzie mógł wchodzić w interakcję z aplikacjami. W nadchodzącej aktualizacji użytkownicy będą mogli dzwonić do Gemini i korzystać z aplikacji, na przykład przeciągając i upuszczając obraz wygenerowany przez sztuczną inteligencję do wiadomości.

Użytkownicy YouTube będą mogli także kliknąć „Zadaj pytanie o ten film”, aby znaleźć w filmie określone informacje od sztucznej inteligencji.

Bliźnięta w Gmailu

Platforma e-mailowa Google, Gmail, również zostanie zintegrowana ze sztuczną inteligencją, ponieważ użytkownicy będą mogli wyszukiwać, podsumowywać i redagować swoje e-maile za pomocą Gemini.

Asystent AI będzie mógł podejmować działania na e-mailach w celu realizacji bardziej złożonych zadań, takich jak pomoc w przetwarzaniu zwrotów e-commerce poprzez przeszukiwanie skrzynki odbiorczej, znajdowanie paragonu i wypełnianie formularzy online.

Bliźnięta na żywo

Google zaprezentowało także nowe rozwiązanie o nazwie Gemini Live, w którym użytkownicy mogą prowadzić „dogłębne” czaty głosowe z sztuczną inteligencją na swoich smartfonach.

Chatbot może zostać przerwany w połowie odpowiedzi w celu wyjaśnienia, a chatbot dostosuje się do wzorców mowy użytkowników w czasie rzeczywistym. Ponadto Gemini może także widzieć fizyczne otoczenie i reagować na nie za pomocą zdjęć lub filmów zarejestrowanych na urządzeniu.

Zrzut ekranu z filmu promocyjnego Gemini. Źródło: postępy Google w zakresie multimodalności

Google pracuje nad opracowaniem inteligentnych agentów AI, którzy potrafią rozumować, planować i wykonywać złożone, wieloetapowe zadania w imieniu użytkownika pod nadzorem. Multimodalność oznacza, że ​​sztuczna inteligencja może wykraczać poza tekst i obsługiwać wejścia obrazu, audio i wideo.

Przykłady i wczesne przypadki użycia obejmują automatyzację zwrotów zakupów i odkrywanie nowego miasta.

Powiązane: Gemini, „zabójca GPT-4” firmy Google, jest już dostępny. Oto, jak możesz go wypróbować

Inne planowane aktualizacje modelu sztucznej inteligencji firmy obejmują zastąpienie Asystenta Google na Androidzie przez Gemini w pełni zintegrowane z mobilnym systemem operacyjnym.

Nowa funkcja „Zapytaj zdjęcia” umożliwia przeszukiwanie biblioteki zdjęć przy użyciu zapytań w języku naturalnym obsługiwanych przez Gemini. Potrafi rozumieć kontekst, rozpoznawać przedmioty i osoby oraz podsumowywać wspomnienia fotograficzne w odpowiedzi na pytania.

Wygenerowane przez sztuczną inteligencję podsumowania miejsc i obszarów będą wyświetlane w Mapach Google z wykorzystaniem danych mapowych platformy.

Magazyn: „Sic AI na siebie”, aby zapobiec apokalipsie AI: David Brin, autor science-fiction