Čtyři věci, které budou uživatelé Google Gemini moci brzy dělat

Model umělé inteligence společnosti Google Gemini se začleňuje do velké části technologií tohoto technologického giganta, přičemž AI se brzy objeví v Gmailu, na YouTube a na chytrých telefonech společnosti.
V hlavním projevu na vývojářské konferenci společnosti I/O 2024 dne 14. května generální ředitel Sundar Pichai odhalil některá z nadcházejících míst, kde se její model AI objeví.
Pichai zmínil AI 121krát ve své 110minutové keynote, když se toto téma dostalo do centra pozornosti — Gemini, který byl spuštěn v prosinci, se dostal do centra pozornosti.
Google začleňuje velký jazykový model (LLM) prakticky do všech svých nabídek, včetně Androidu, Vyhledávání a Gmailu, a zde je to, co mohou uživatelé v budoucnu očekávat.
Sundar Pichai na Google I/O 2024. Zdroj: Google App Interakce
Gemini získává více kontextu v tom, že bude moci interagovat s aplikacemi. V nadcházející aktualizaci budou uživatelé moci zavolat Gemini, aby mohli interagovat s aplikacemi, jako je přetažení obrázku generovaného umělou inteligencí do zprávy.
Uživatelé YouTube budou také moci klepnout na „Zeptat se na toto video“, aby našli konkrétní informace z videa od AI.
Blíženci v Gmailu
E-mailová platforma Google, Gmail, také získává integraci AI, protože uživatelé budou moci vyhledávat, shrnout a navrhovat své e-maily pomocí Gemini.
Asistent umělé inteligence bude schopen zasahovat do e-mailů pro složitější úkoly, jako je pomoc při zpracování vratek z elektronického obchodu prohledáváním doručené pošty, nalezením účtenky a vyplňováním online formulářů.
Blíženci žijí
Google také představil novou zkušenost s názvem Gemini Live, kde uživatelé mohou mít „hloubkové“ hlasové chaty s AI na svých chytrých telefonech.
Chatbot může být přerušen uprostřed odpovědi pro upřesnění a přizpůsobí se řečovým vzorům uživatelů v reálném čase. Gemini navíc může také vidět a reagovat na fyzické okolí prostřednictvím fotografií nebo videí pořízených na zařízení.
Snímek obrazovky z propagačního videa Gemini. Zdroj: Multimodální vylepšení Google
Google pracuje na vývoji inteligentních agentů umělé inteligence, kteří dokážou za uživatele pod dohledem uvažovat, plánovat a provádět složité vícekrokové úkoly. Multimodální znamená, že AI může jít nad rámec textu a zpracovávat obrazové, zvukové a obrazové vstupy.
Příklady a případy časného použití zahrnují automatizaci vracení nákupů a prozkoumávání nového města.
Související: „GPT-4 killer“ Gemini od Googlu je venku, zde je návod, jak to můžete vyzkoušet
Mezi další připravované aktualizace pro firemní model AI patří náhrada za Google Assistant na Androidu s Gemini plně integrovanou do mobilního operačního systému.
Nová funkce „Ask Photos“ umožňuje prohledávat knihovnu fotografií pomocí dotazů v přirozeném jazyce poháněných Gemini. Dokáže porozumět kontextu, rozpoznávat předměty a lidi a shrnout fotografické vzpomínky jako odpovědi na otázky.
Souhrny míst a oblastí vygenerované umělou inteligencí se zobrazí v Mapách Google s využitím poznatků z mapových dat platformy.
Časopis: ‚Sic AIs on each other‘, aby se zabránilo apokalypse AI: David Brin, autor sci-fi
Prozkoumat více od tvůrce

Nejnovější zprávy