Модель штучного інтелекту Google Gemini вплітається в більшість технологій технічного гіганта, а ШІ незабаром з’явиться в Gmail, на YouTube і на смартфонах компанії.

У програмній промові на конференції розробників компанії I/O 2024 14 травня генеральний директор Сундар Пічаї розповів про деякі з найближчих місць, де з’явиться модель ШІ.

Пічаї згадав штучний інтелект 121 раз у своєму 110-хвилинному виступі, коли ця тема займала центральне місце — Gemini, який був запущений у грудні, потрапив у центр уваги.

Google використовує велику мовну модель (LLM) практично в усіх своїх пропозиціях, включаючи Android, Пошук і Gmail, і ось на що можуть розраховувати користувачі в майбутньому.

Сундар Пічаї на Google I/O 2024. Джерело: взаємодія з додатком Google

Gemini отримує більше контексту, оскільки він зможе взаємодіяти з програмами. У майбутньому оновленні користувачі зможуть викликати Gemini, щоб взаємодіяти з додатками, наприклад перетягувати зображення, створене штучним інтелектом, у повідомлення.

Користувачі YouTube також зможуть натиснути «Запитати це відео», щоб знайти певну інформацію у відео від ШІ.

Близнюки в Gmail

Платформа електронної пошти Google, Gmail, також отримує інтеграцію зі штучним інтелектом, оскільки користувачі зможуть шукати, узагальнювати та створювати свої електронні листи за допомогою Gemini.

Помічник зі штучним інтелектом зможе виконувати дії з електронними листами для більш складних завдань, таких як допомога в обробці повернень електронної комерції шляхом пошуку в папці "Вхідні", пошуку квитанції та заповнення онлайн-форм.

Gemini Live

Google також представила новий досвід під назвою Gemini Live, де користувачі можуть проводити «поглиблені» голосові чати зі штучним інтелектом на своїх смартфонах.

Чат-бот можна перервати під час відповіді для роз’яснення, і він адаптуватиметься до моделей мовлення користувачів у режимі реального часу. Крім того, Gemini також може бачити та реагувати на фізичне оточення за допомогою фотографій або відео, знятих на пристрій.

Скріншот з рекламного відео Gemini. Джерело: Google Multimodal advancements

Google працює над розробкою інтелектуальних агентів ШІ, які можуть міркувати, планувати та виконувати складні багатоетапні завдання від імені користувача під наглядом. Мультимодальний означає, що штучний інтелект може виходити за межі тексту та обробляти зображення, аудіо та відео.

Приклади та випадки раннього використання включають автоматизацію повернення покупок і вивчення нового міста.

За темою: «Вбивця GPT-4» від Google Gemini вийшов, ось як ви можете його спробувати

Серед інших оновлень, які плануються для моделі штучного інтелекту компанії, — заміна Google Assistant на Android з Gemini, повністю інтегрованою в мобільну операційну систему.

Нова функція «Запитувати фотографії» дозволяє здійснювати пошук у бібліотеці фотографій за допомогою запитів на природній мові, розроблених Gemini. Він може розуміти контекст, розпізнавати об’єкти та людей і узагальнювати фотоспогади у відповідь на запитання.

Створені штучним інтелектом підсумки місць і областей відображатимуться на Картах Google, використовуючи аналітику картографічних даних платформи.

Журнал: «Sic AI один проти одного», щоб запобігти AI-апокаліпсису: Девід Брін, автор наукової фантастики