Původní autor: Rocky

Převzato: Daisy, Mars Finance

Pokud chcete pochopit #AI Agent, tato kniha (dokument) je povinným čtením pro každého. Li Fei Fei (AGENT AI), je to jedna z nejpříjemnějších a perspektivních knih, které jsem letos četl, a její porozumění není obtížné, bez hluboké odborné terminologie a algoritmické logiky, stojí za přečtení pro každého obyčejného člověka, na konci článku je odkaz na plný text.

Mohu vám s odpovědností říci: AI Agent je jednou z nejzajímavějších oblastí umělé inteligence, do které investovat (ať už jde o americké akcie nebo Web3), a je nejblíže tomu, co si běžní lidé mohou vnímat, pro obyčejného člověka je to nejpřímější oblast, kterou může kontaktovat a používat ve velkém měřítku.

Jak je popsáno v úvodním dokumentu: Přehled systému AI Agent, který dokáže vnímat a jednat v různých oblastech a aplikacích. AI Agent je slibnou cestou k obecnému umělému inteligenci (AGI). Výcvik AI Agent již prokázal schopnost multimodálního porozumění ve fyzickém světě. Poskytuje rámec pro trénink, který není spojen s realitou, kombinováním generativní umělé inteligence a několika nezávislými datovými zdroji. Představujeme celkový přehled agentního umělého inteligentního systému, který dokáže vnímat a jednat v mnoha různých oblastech a aplikacích jako agentní paradigma vedoucí k AGI.

Článek se zaměřuje na aktuální stav technologií AI Agent v multimodální interakci člověk-stroj (HCI), výhledy aplikací a budoucí směry vývoje, přičemž zdůrazňuje některé klíčové technologie a inovativní směry, které stojí za hluboké zamyšlení a objevování. Neměli bychom nechat AI Agent zůstat pouze na úrovni hlasové interakce a vizuální interakce, jeho rozsah je mnohem širší:

1. Hlavní koncept a význam multimodální HCI

Multimodální HCI dosahuje přirozené, flexibilní a efektivní interakce mezi lidmi a počítači prostřednictvím integrace různých informačních módů, jako jsou hlas, text, obraz, hmat atd. Hlavním cílem této technologie je:

• Zvyšování přirozenosti a imerzivity interakce.

• Rozšíření použitelnosti scénářů interakce mezi člověkem a strojem.

• Podpora schopnosti počítačů porozumět lidem různorodým vstupním vzorcům.

2. Budoucí směry vývoje

Článek systematicky zpracovává pět výzkumných oblastí:

1. Vizualizace dat pomocí velkých dat

Koncept: Převod složitých dat na snadno pochopitelné grafické reprezentace, které posilují uživatelský zážitek prostřednictvím různých smyslových kanálů (vizuální, hmatové, sluchové atd.).

Pokrok:

• Vizualizace dat založená na virtuální realitě (VR) a rozšířené realitě (AR);

• V oblasti medicíny a výzkumu pomáhá haptická zpětná vazba (např. sílová a vibrační zpětná vazba) uživatelům lépe porozumět distribučním datům.

Aplikace:

• Inteligentní městský monitoring: Real-time zobrazení dat o městském provozu prostřednictvím dynamických teplotních map.

• Analýza medicínských dat: Prozkoumání vícerozměrných dat pomocí haptické zpětné vazby.

2. Interakce založená na vnímání akustického pole

Koncept: Využití mikrofonového pole a algoritmů strojového učení k analýze změn akustického pole v prostředí, což pomáhá realizovat neviditelnou interakci mezi člověkem a strojem.

Pokrok:

• Zlepšení přesnosti technologie lokalizace zvukových zdrojů;

• Robustní hlasová interakční technologie v hlučném prostředí.

Aplikace:

• Inteligentní domácnost: Hlasové ovládání zařízení, úkoly lze splnit bez dotyku.

• Asistivní technologie: Poskytování hlasově řízených interakčních metod pro uživatele se zrakovým postižením.

3. Interakce s fyzickými objekty ve smíšené realitě

Koncept: Integrace virtuálních informací s fyzickým světem pomocí technologie smíšené reality (MR), uživatelé mohou manipulovat s virtuálním prostředím pomocí fyzických objektů.

Pokrok:

• Optimalizace interakcí s virtuálními objekty na základě fyzického hmatového vnímání;

• Technologie vysoké přesnosti pro mapování fyzických a virtuálních objektů.

Aplikace:

• Vzdělávání: Imerzivní výuka prostřednictvím simulace reálného prostředí.

• Průmyslový design: Použití virtuálních prototypů pro ověřování produktů.

4. Nositelná interakce

Koncept:

Interakce pomocí nositelných zařízení, jako jsou inteligentní hodinky a zdravotní monitorovací zařízení, pomocí gest, dotyků nebo elektroniky na kůži.

Pokrok:

• Zlepšení citlivosti a trvanlivosti kožních senzorů;

• Algoritmus fúze více kanálů zvyšuje přesnost interakce.

Aplikace:

• Zdravotní monitoring: Sledování srdečního tepu, spánku a pohybového stavu v reálném čase;

• Hry a zábava: Ovládání virtuálních postav pomocí nositelných zařízení.

5. Interakce mezi člověkem a strojem

Koncept:

Studium technologií rozpoznávání hlasu, rozpoznávání emocí a syntézy hlasu, aby počítače lépe porozuměly a reagovaly na jazykové vstupy uživatelů.

Pokrok:

• Popularita velkých jazykových modelů (jako GPT) výrazně zvyšuje přirozenost dialogových systémů;

• Zlepšení přesnosti technologie rozpoznávání emocionálních projevů hlasu.

Aplikace:

• Zákaznický servisní robot: Podpora vícejazyčné hlasové interakce.

• Inteligentní asistent: Personalizované hlasové reakce na pokyny.

Takže vidíme mnoho projektů AI Agent, zejména v oblasti Web3, většina z nich se stále zaměřuje na úroveň inteligentních asistentů interakce mezi člověkem a strojem, jako je 24hodinové tweetování, AI hlasové chaty na míru pro každého, chaty pro páry atd. Ale nedávno jsme si také všimli některých projektů zaměřených na inteligentní nositelná zařízení #Depin v kombinaci s #AI, které přinášejí inovace v oblasti zdravotních dat, jako jsou prsteny (které konkrétně nebudu zmiňovat, můžete si je sami vyhledat, také jsou součástí ekosystému řetězce #SOL), jako jsou hodinky, přívěsky atd. Příležitosti v tomto směru jsou cennější a zajímavější než tradiční zaměření pouze na jediný #AI veřejný řetězec nebo aplikaci, investoři budou také více nakloněni, koneckonců jsme investovali do dvou firem, hardware + software + AI, to bude potenciální směr!

3. Oblasti, do kterých technologické firmy v současnosti investují

1. Rozšíření interakčních metod: Prozkoumání nových interakčních prostředků, jako je vnímání vůně a teploty, pro další zvýšení rozměru multimodální fúze.

2. Optimalizace multimodálních kombinací: Návrh efektivních a flexibilních způsobů kombinace multimodálních vstupů, aby různé režimy mohly spolupracovat přirozeněji.

3. Miniaturizace zařízení: Vývoj lehčích a energeticky úspornějších zařízení pro každodenní použití.

4. Distribuovaná interakce napříč zařízeními: Zlepšení interoperability mezi zařízeními a dosažení bezproblémové interakce s více zařízeními.

5. Zlepšení robustnosti algoritmů: Zejména v otevřeném prostředí zvyšování stability a reálného času algoritmů multimodálního vnímání a fúze.

4. Aplikace, které stojí za investici

• Léčebná rehabilitace: Pomoc pacientům při rehabilitačních cvičeních a psychologické podpoře prostřednictvím hlasové, obrazové a haptické zpětné vazby.

• Kancelářské vzdělávání: Poskytování inteligentních kancelářských asistentů a personalizovaných vzdělávacích platforem ke zvýšení efektivity a zážitku.

• Vojenská simulace: Využití technologie smíšené reality pro simulace bojových scénářů a taktické školení.

• Zábava a hry: Vytváření imerzivních her a zábavních zážitků, které posilují interakci uživatelů s virtuálním prostředím.

Shrnutí: Tato práce doktora Li systematicky zkoumá hlavní technologie multimodální HCI s ohledem na budoucí aplikace AI Agent, a kombinuje skutečné aplikace a budoucí výzkumné směry, aby investorům AI Agent ukázala směr a logiku investic. Tento článek můžeme považovat za povinné čtení v oblasti AI v roce 2024, které mi lépe objasnilo klíčovou roli technologie multimodální interakce mezi člověkem a strojem v podpoře budoucí inteligentní životní styl, odhalilo její obrovský potenciál v otevřených a složitých scénářích. Investice do budoucnosti znamená uchopení bohatství! Stále platí: investujte do #AI, učte se #AI, investujte do #AI. Není na co čekat!