Автор оригіналу: Рокі
Переклад: Дейзі, Mars Finance
Вам слід ознайомитися з #AI Agent, ця книга (стаття) є обов'язковою для читання для всіх. Лі Фейфей (AGENT AI), це одна з найбільш захоплюючих та перспективних книг, які я читав цього року, і її легко зрозуміти, без складних професійних термінів та алгоритмічної логіки, варто прочитати кожній звичайній людині, в кінці статті є посилання на повний текст.
Можу з упевненістю сказати всім: AI Agent є однією з найбільш перспективних сфер інвестицій у штучний інтелект (незалежно від того, чи це американські акції, чи Web3), це також найближче до споживачів, що можна відчути, для звичайних людей це найбільш безпосередня сфера, до якої можна дотягнутися та яка може бути масштабно використана.
Як описано у вступній статті: огляд системи AI Agent, яка здатна сприймати та діяти в різних сферах та застосуваннях. AI Agent є багатообіцяючим шляхом до загального штучного інтелекту (AGI). Навчання AI Agent уже показало здатність до мультимодального розуміння у фізичному світі. Це надає рамки для навчання, не пов'язаного з реальністю, використовуючи генеративний штучний інтелект у поєднанні з кількома незалежними джерелами даних. Ми пропонуємо загальний огляд агентної системи штучного інтелекту, здатної сприймати та діяти в багатьох різних сферах і застосуваннях, як агента парадигми до AGI.
У статті акцентується на технологічному стані, перспективі застосування та напрямках майбутнього розвитку AI Agent у мультимодальній людиномашинній взаємодії (HCI), демонструючи деякі основні технології та інноваційні напрямки, які варто глибоко розглянути та дослідити, не дозволяйте AI Agent обмежуватися лише голосовою та візуальною взаємодією, його потенціал набагато ширший:
1. Основні поняття та значення мультимодальної HCI
Мультимодальна HCI реалізує природну, гнучку та ефективну взаємодію між людиною та комп'ютером шляхом інтеграції голосу, тексту, зображень, тактильних та інших інформаційних модусів. Основна мета цієї технології:
• Поліпшення природності та занурення взаємодії.
• Розширення застосування сценаріїв взаємодії людина-машина.
• Сприяння здатності комп'ютера розуміти різноманітні людські вхідні моделі.
2. Напрямки майбутнього розвитку
У статті систематизовано п'ять дослідницьких напрямків:
1. Взаємодія візуалізації великих даних
Концепція: перетворення складних даних на легкі для розуміння графічні представлення, посилення досвіду користувача через багатосенсорні канали (зір, дотик, слух тощо).
Прогрес:
• Дослідження візуалізації даних на основі віртуальної реальності (VR) та доповненої реальності (AR);
• У медичній та науковій сферах, через тактильний зворотний зв'язок (такі як відчуття сили та вібрації) допомагає користувачам краще розуміти розподіл даних.
Застосування:
• Інтелектуальний моніторинг міст: динамічна тепловизуалізація для реального показу даних про трафік у місті.
• Аналіз медичних даних: дослідження багатовимірних даних у поєднанні з тактильним зворотним зв'язком.
2. Взаємодія на основі сприймання звукового поля
Концепція: Використання масиву мікрофонів і алгоритмів машинного навчання для аналізу змін звукового поля в середовищі, що допомагає реалізувати невізуальну взаємодію людина-машина.
Прогрес:
• Підвищення точності технологій локалізації джерела звуку;
• Технології надійної голосової взаємодії в умовах шуму.
Застосування:
• Інтелектуальний будинок: голосове керування пристроями, без необхідності дотикати їх для виконання завдань.
• Технології допомоги: надання звукових способів взаємодії для користувачів з вадами зору.
3. Взаємодія з фізичними об'єктами в змішаній реальності
Концепція: за допомогою технології змішаної реальності (MR) злиття віртуальної інформації з фізичним світом, користувач може використовувати фізичні об'єкти для управління віртуальним середовищем.
Прогрес:
• Оптимізація віртуальної взаємодії з фізичними об'єктами на основі фізичного дотику;
• Технологія високоточних фізичних-вірутуальних об'єктів.
Застосування:
• Освіта: забезпечення занурювального навчання шляхом моделювання реальних умов.
• Промисловий дизайн: використання віртуальних прототипів для верифікації продуктів.
4. Носима взаємодія
Концепція:
Завдяки розумним годинникам, пристроям моніторингу здоров'я та іншим носимим пристроям, використовуючи жести, дотики або електронні технології на шкірі, здійснюється взаємодія.
Прогрес:
• Підвищення чутливості та довговічності шкірних сенсорів;
• Алгоритми багатоканальної інтеграції підвищують точність взаємодії.
Застосування:
• Моніторинг здоров'я: реальний моніторинг частоти серцебиття, сну та фізичної активності;
• Ігри та розваги: управління віртуальними персонажами за допомогою носимих пристроїв.
5. Взаємодія людина-машина
Концепція:
Дослідження технологій розпізнавання голосу, розпізнавання емоцій, синтезу мови, щоб комп'ютери краще розуміли та реагували на мовні запити користувачів.
Прогрес:
• Поширення великих мовних моделей (як GPT тощо) значно підвищує природність діалогових систем;
• Підвищення точності технологій розпізнавання емоцій у голосі.
Застосування:
• Роботи для обслуговування клієнтів: підтримка багатомовної голосової взаємодії.
• Інтелектуальний асистент: персоналізовані голосові команди.
Тому ми бачимо багато проектів AI Agent, особливо в Web3, які в основному ще перебувають на рівні розумних асистентів для взаємодії людина-машина, таких як публікація твітів 24 години на добу, AI-голосові чати для кожного, спілкування для пар тощо. Але нещодавно ми також спостерігали за деякими проектами, які поєднують розумні носимі пристрої з #Depin + #AI, щоб забезпечити інновації в області здоров'я, такі як кільця (яка саме компанія, я не скажу, можете самі пошукати, це теж екосистема #SOL), наприклад, годинники, кулони тощо. Тут є більше можливостей, ніж у традиційних проектах, які займаються лише єдиним #AI публічним блокчейном або застосуванням, це більш цінно та цікаво, інвестори також будуть більш зацікавлені, адже ми інвестували в 2 компанії, апаратне забезпечення + програмне забезпечення + AI, це стане потенційним напрямком!
3. Сфери, в які активно інвестують технологічні компанії
1. Розширення способів взаємодії: дослідження нових методів взаємодії, таких як сприйняття запахів та температури, для подальшого підвищення вимірів мультимодальної інтеграції.
2. Оптимізація мультимодальних комбінацій: проектування ефективних, гнучких способів мультимодальних комбінацій, щоб різні модуси могли більш природно співпрацювати.
3. Мініатюризація пристроїв: розробка легших, енергоефективніших пристроїв для щоденного використання.
4. Розподілена взаємодія між пристроями: підвищення взаємодії між пристроями для безшовної мультимодальної взаємодії.
5. Підвищення надійності алгоритмів: особливо в відкритих середовищах, підвищення стабільності та своєчасності мультимодального сприйняття та алгоритмів інтеграції.
4. Застосування, які варто інвестувати
• Медична реабілітація: через голосовий, зображувальний та тактильний зворотний зв'язок допомагає пацієнтам у реабілітаційних тренуваннях та психологічній підтримці.
• Офісна освіта: надання інтелектуальних офісних асистентів та персоналізованих освітніх платформ для підвищення ефективності та досвіду.
• Військове моделювання: використання технології змішаної реальності для моделювання бою та тактичного навчання.
• Розваги та ігри: створення занурювальних ігрових та розважальних вражень, посилення взаємодії користувача з віртуальним середовищем.
Висновок: стаття доктора Лі, використовуючи сценарії застосування AI Agent у майбутньому, систематично охоплює основні технології мультимодальної HCI, а також поєднує реальні застосування та майбутні напрямки досліджень, вказуючи інвесторам #AIAgent на напрямок та логіку інвестицій. Ця стаття може вважатися обов'язковою для читання в 2024 році, вона допомогла мені краще усвідомити ключову роль технологій мультимодальної людсько-машинної взаємодії у просуванні майбутнього розумного життя, виявивши її величезний потенціал в умовах відкритого середовища та складних сцен.