Článek je převzat z: Bílá mluva blockchainu
Autor: Rituals
Překlad: Bílá mluva blockchainu
V posledních letech se pojem agenta (Agent) stává čím dál důležitějším v několika oblastech, jako je filozofie, hry a umělá inteligence. Z tradičního hlediska agent označuje entitu, která může jednat autonomně, činit rozhodnutí a mít záměry, což jsou vlastnosti, které se obvykle spojují s lidmi.
V oblasti umělé inteligence se obsah agentů stává složitějším. S příchodem autonomních agentů mohou tito agenti pozorovat, učit se a samostatně jednat v prostředí, čímž se dříve abstraktní koncept agentů dostává do konkrétní formy výpočetních systémů. Tito agenti téměř nevyžadují lidský zásah a vykazují schopnost, která, ačkoliv není vědomá, má výpočetní záměr, schopnost rozhodování, učení se z zkušeností a interakci s jinými agenty nebo lidmi stále složitějším způsobem.
Tento článek se zaměří na novou oblast autonomních agentů, zejména agentů založených na velkých jazykových modelech (LLM) a jejich vliv v různých oblastech, jako jsou hry, správa, věda a robotika. Na základě zkoumání základních principů agentů tento článek analyzuje architekturu a aplikace umělých inteligentních agentů. Přes tuto klasifikační perspektivu můžeme podrobněji porozumět tomu, jak tito agenti plní úkoly, zpracovávají informace a neustále se vyvíjejí v rámci svých specifických operačních rámců.
Cíle článku zahrnují následující dva aspekty:
Poskytování systematického přehledu o umělých inteligentních agentech a jejich základní architektuře se zaměřením na analýzu složek, jako jsou paměť, vnímání, uvažování a plánování.
Zkoumá nejnovější trendy v výzkumu umělých inteligentních agentů a zdůrazňuje jejich případové studie v redefinici možností.
Poznámka: Vzhledem k rozsahu článku došlo k zkrácení originálního textu.
1) Trendy v výzkumu agentů
Rozvoj agentů založených na velkých jazykových modelech (LLM) představuje významný pokrok v výzkumu umělé inteligence, zahrnující více pokroků od symbolického uvažování, reaktivních systémů, posilovaného učení až po adaptivní učení.
Symboličtí agenti: Simulují lidské uvažování prostřednictvím pravidel a strukturovaných znalostí, vhodné pro specifické problémy (jako je lékařská diagnostika), ale těžko se vyrovnávají se složitými a nejistými prostředími.
Reakční agenti: Rychle reagují na prostředí prostřednictvím cyklu „vnímat-akce“, vhodné pro rychle interaktivní scénáře, ale nejsou schopni provádět složité úkoly.
Posilovaní učení agenti: Optimalizace chování prostřednictvím pokusů a omylů, široce používané v hrách a robotice, ale s dlouhým tréninkovým časem, nízkou efektivitou vzorků a špatnou stabilitou.
Agenti založení na LLM: LLM agenti kombinují symbolické uvažování, zpětnou vazbu a adaptivní učení, mají schopnosti učení s malým nebo žádným vzorkem, široce se používají v oblastech jako je vývoj softwaru, vědecký výzkum a jsou vhodní pro dynamická prostředí a spolupráci s jinými agenty.
2) Architektura agentů
Moderní architektura agentů zahrnuje více modulů, které tvoří integrovaný systém.
1) Modul archivu
Modul archivu určuje chování agentů, zajišťuje konzistenci prostřednictvím přidělování rolí nebo osobností, vhodné pro scénáře vyžadující stabilní osobnost. Archivy agentů LLM se dělí na tři kategorie: demografické role, virtuální role a personalizované role.
Z článku (Od rolí k personalizaci)
Zvýšení výkonu prostřednictvím rolí: Nastavení rolí může významně zlepšit výkonnost a schopnost uvažování agentů. Například, LLM reagují hlubším a kontextuálním způsobem, když fungují jako odborníci. V systémech s více agenty, shoda rolí podporuje spolupráci, zvyšuje míru plnění úkolů a kvalitu interakcí.
Metody pro vytváření archivu agentů LLM mohou být sestaveny následujícími způsoby:
Ruční návrh: Ruční nastavení charakterových vlastností.
Generování LLM: Automatické rozšíření nastavení rolí pomocí LLM.
Zarovnání datové sady: Na základě skutečných datových sad, které zvyšují realističnost interakcí.
2) Modul paměti
Paměť je jádrem agentů LLM, podporuje adaptivní plánování a rozhodování. Struktura paměti simuluje lidské procesy, přičemž se dělí na dvě hlavní kategorie:
Jednotná paměť: Krátkodobá paměť, zpracovává nedávné informace. Optimalizace prostřednictvím textového vystřižení, shrnutí paměti a úprav mechanismu pozornosti, ale je omezena velikostí kontextového okna.
Smíšená paměť: Kombinace krátkodobé a dlouhodobé paměti, dlouhodobá paměť uchovává v externích databázích, což usnadňuje efektivní vzpomínání.
Běžné formáty ukládání paměti zahrnují:
Přirozený jazyk: Flexibilní a s bohatým významem.
Vkládací vektory: Usnadňují rychlé vyhledávání.
Databáze: Podporují dotazování prostřednictvím strukturovaného ukládání.
Strukturovaný seznam: Organizace v seznamu nebo hierarchické formě.
Agenti interagují s pamětí prostřednictvím následujících operací:
Čtení paměti: Vyhledávání relevantních informací pro podporu rozumného rozhodování.
Zápis paměti: Ukládání nových informací, vyhýbání se opakování a přetékání.
Reflexe paměti: Shrnutí zkušeností, posílení schopnosti abstraktního uvažování.
Obsah založený na článku (Generative Agents)
Význam a výzvy výzkumu
I když systémy paměti zlepšují schopnosti agentů, přinášejí také výzkumné výzvy:
Škálovatelnost a efektivita: Systémy paměti musí podporovat velké množství informací a zajišťovat rychlé vyhledávání; optimalizace vyhledávání dlouhodobé paměti zůstává klíčovým výzkumným cílem.
Zpracování omezení kontextu: Aktuální LLM jsou omezeny kontextovým oknem, což komplikuje správu velké paměti; výzkum zkoumá dynamické mechanismy pozornosti a techniky shrnutí pro rozšíření schopnosti zpracování paměti.
Odchylky a odklony v dlouhodobé paměti: Paměť může vykazovat odchylky, což vede k prioritnímu zpracování informací a vzniku odchylek, je třeba ji pravidelně aktualizovat a opravovat, aby agent zůstal vyvážený.
Katastrofické zapomínání: Nová data přepisují stará, což vede k ztrátě klíčových informací, je třeba posílit klíčové vzpomínky prostřednictvím technik replayu a konsolidace paměti.
3) Vnímací schopnosti
Agenti LLM zvyšují své porozumění prostředí a rozhodovací schopnosti zpracováním různorodých datových zdrojů, podobně jako lidé spoléhající se na senzorické vstupy. Vícekanálové vnímání integruje textové, vizuální a sluchové vstupy, což zvyšuje schopnost agentů plnit složité úkoly. Následují hlavní typy vstupů a jejich aplikace:
Textový vstup: Text je hlavním komunikačním prostředkem LLM agentů. I když agenti mají pokročilé jazykové dovednosti, porozumění implicitnímu významu za pokyny zůstává výzvou.
Implicitní porozumění: Úprava preferencí pomocí posilovaného učení, zpracování nejednoznačných instrukcí a odhady záměrů.
Schopnosti učení bez vzorku a s malým vzorkem: Bez dalšího trénování reagují na nové úkoly, vhodné pro různé interakční scénáře.
Vizuální vstupy: Vizuální percepce umožňuje agentům porozumět vztahům mezi objekty a prostorem.
Obrázek na text: Generování textových popisů pro zpracování vizuálních dat, ale může ztratit detaily.
Kódování založené na Transformeru: Například Vision Transformers převádějí obrázky na textově kompatibilní tokeny.
Nástroje pro propojení: Například BLIP-2 a Flamingo využívají zprostředkovávací vrstvy pro optimalizaci napojení vizuálních a textových dat.
Sluchové vstupy a sluchová percepce umožňují agentům rozpoznávat zvuky a řeč, což je zvlášť důležité v interaktivních a vysoce rizikových scénářích.
Rozpoznávání a syntéza řeči: Například Whisper (převod řeči na text) a FastSpeech (převod textu na řeč).
Zpracování spektrálních obrazů: Zpracování zvukových spektrálních obrazů do obrázků zvyšuje schopnost rozpoznávání sluchových signálů.
Výzkumné výzvy a úvahy o vícekanálovém vnímání:
Zarovnání dat a integrace: Vícekanálová data vyžadují efektivní zarovnání, aby se předešlo chybám v percepci a reakcích, výzkum se zaměřuje na optimalizaci vícekanálových Transformerů a křížové pozornosti.
Škálovatelnost a efektivita: Vícekanálové zpracování má vysoké nároky, zejména při zpracování vysoce rozlišených obrazů a zvuku. Klíčové je vyvinout modely s nízkou spotřebou zdrojů a vysokou škálovatelností.
Katastrofické zapomínání: Vícekanáloví agenti čelí katastrofickému zapomínání, vyžadují strategie jako prioritizované přehrávání a kontinuální učení pro efektivní uchovávání klíčových informací.
Generování odpovědí citlivých na kontext: Prioritizace zpracování senzorických dat pro generování odpovědí podle kontextu zůstává klíčovým výzkumným cílem, zejména v hlučných nebo vizuálně dominantních prostředích.
4) Uvažování a plánování
Moduly pro uvažování a plánování pomáhají agentům efektivně řešit problémy rozkladem složitých úkolů. Podobně jako lidé mohou vytvářet strukturované plány, a to buď předem, nebo na základě zpětné vazby v reálném čase upravovat strategie. Plánovací metody jsou klasifikovány podle typu zpětné vazby:
Někteří agenti předem vytvářejí kompletní plány, vykonávají je podle jediné cesty nebo různých možností, neprovádějí úpravy plánů.
Další agenti v dynamickém prostředí upravují své strategie v reálném čase na základě zpětné vazby.
Plánování bez zpětné vazby: V případě absence zpětné vazby agenti od samého začátku vytvářejí kompletní plány a provádějí je, neprovádějí žádné úpravy. Zahrnuje plánování jednotlivými cestami (provádění krok za krokem) a plánování více cestami (současné prozkoumávání více možností, výběr nejlepší cesty).
Úkoly deduktivního uvažování rozdělené do sekvenčních kroků, každý krok následuje dalším:
Chain of Thought (CoT): Vedení agentů krok za krokem k vyřešení problémů prostřednictvím několika příkladů, zlepšující kvalitu výstupu modelu.
Zero-shot-CoT: Nevyžaduje předem dané příklady, provádí uvažování pomocí nápovědy „myslet krok za krokem“, vhodné pro učení bez příkladů.
Znovu nápověda: Automatické objevování účinných nápověd CoT bez nutnosti lidského vstupu.
Z článku CoT
5) Vícekanálové uvažování
Na rozdíl od deduktivního uvažování umožňuje vícekanálové uvažování agentům současně prozkoumat více kroků, generovat a hodnotit více potenciálních řešení a z nich vybrat nejlepší cestu, vhodné pro složité problémy, zejména v případě různých možných cest.
Příklad:
Auto-konzistence chain of thought (CoT-SC): Vzorkování více uvažovacích cest z výstupů nápověd CoT, výběr kroků s nejvyšší frekvencí pro dosažení „autointegrace“.
Strom myšlení (ToT): Ukládání logických kroků jako stromové struktury, hodnocení příspěvků každého „myšlení“ k řešení, použití procházení do šířky nebo do hloubky.
Graf myšlení (GoT): Rozšiřuje ToT na grafovou strukturu, myšlení jako vrcholy, závislosti jako hrany, což umožňuje flexibilnější uvažování.
Plánovací uvažování (RAP): Použití Monte Carlo Tree Search (MCTS) pro simulaci více plánů, jazykový model nejenže vytváří strom uvažování, ale také poskytuje zpětnou vazbu.
6) Externí plánovač
Když LLM čelí plánovacím výzvám v určité oblasti, externí plánovač poskytuje podporu a integruje odborné znalosti, které LLM postrádají.
LLM+P: Převod úkolů na jazyk definující plánování (PDDL), aby se vyřešily externí plánovače, pomáhá LLM plnit složité úkoly.
CO-LLM: Kooperativní generování textu prostřednictvím modelů, vytváření značek prostřednictvím střídavého výběru modelů, což umožňuje přirozenému vzniku optimálního kooperativního modelu.
Plánování se zpětnou vazbou: Plánování se zpětnou vazbou umožňuje agentům v reálném čase upravovat úkoly na základě změn v prostředí, přizpůsobovat se nepředvídatelným nebo složitým scénářům.
Agenti zpětné vazby: Při interakci s prostředím upravují plány na základě zpětné vazby v reálném čase, aby udrželi pokrok úkolů.
ReAct: Kombinuje uvažování a akční nápovědy, vytváří přizpůsobitelné plány v interakci.
DEPS: Revize plánů v plánování úkolů, zpracování nedokončených podcílů.
SayPlan: Použití scénických diagramů a přenosových stavů k zpřesnění strategií, zvyšuje situational awareness.
Z článku (ReAct)
7) Lidská zpětná vazba
Pomocí interakce s lidmi pomáhá agentům sladit se s hodnotami lidí a vyhnout se chybám. Příklad:
Vnitřní monolog: Integrace lidské zpětné vazby do plánování agentů, aby se zajistilo, že akce odpovídají lidským očekáváním.
Zpětná vazba modelu: Zpětná vazba z předtrénovaných modelů pomáhá agentům sebereflexi a optimalizaci uvažování a akcí. Příklad:
SelfCheck: Nástroj pro postupné kontroly bez příkladů, používaný k identifikaci chyb v řetězci uvažování a hodnocení správnosti.
Reflexe: Agenti reflektují prostřednictvím zaznamenávání signálů zpětné vazby, což podporuje dlouhodobé učení a opravy chyb.
Z článku (SelfCheck)
Výzvy a směry výzkumu v uvažování a plánování: I když moduly pro uvažování a plánování zlepšují funkce agentů, stále čelí výzvám:
Škálovatelnost a výpočetní požadavky: Složitější metody jako ToT nebo RAP vyžadují značné výpočetní zdroje a zvyšování efektivity zůstává hlavním výzkumným cílem.
Komplexnost integrace zpětné vazby: Efektivní integrace více zdrojů zpětné vazby a vyhnutí se informačnímu přetížení je klíčem k zvyšování adaptivity, aniž by se obětoval výkon.
Odchylky v rozhodování: Prioritizace určitých zdrojů zpětné vazby nebo cest může vést k odchylkám, kombinace technologií pro eliminaci odchylek je klíčová pro vyvážené plánování.
8) Akce
Akční modul je posledním fází rozhodovacího procesu agentů, zahrnuje:
Cíle akcí: Agenti provádějí různé cíle, jako je dokončení úkolu, komunikace nebo prozkoumávání prostředí.
Generování akcí: Generování akcí prostřednictvím vzpomínání nebo plánování, jako jsou akce založené na paměti nebo plánu.
Akční prostor: Zahrnuje vnitřní znalosti a externí nástroje, jako jsou API, databáze nebo externí modely pro provádění úkolů. Například nástroje jako HuggingGPT a ToolFormer využívají externí modely nebo API k provádění úkolů.
Databáze a znalostní báze: ChatDB používá SQL dotazy pro vyhledávání specifických informací, zatímco MRKL integruje expertní systémy a plánovací nástroje pro složité uvažování.
Externí modely: Agenti mohou záviset na ne-API modelech pro provádění specializovaných úkolů. Například ChemCrow provádí objevování léčiv pomocí více modelů, MemoryBank zlepšuje vyhledávání textu pomocí dvou modelů.
Dopad akcí: Akce mohou být rozděleny podle výsledků na:
Změny v prostředí: Například v Voyageru a GITM, sběr prostředků nebo stavba struktur mění prostředí.
Sebevliv: Jak Generative Agents aktualizují paměť nebo vytvářejí nové plány.
Kaskádové akce: Některé akce spouštějí další akce, jako například Voyager, který staví struktury po sběru zdrojů.
Rozšíření akčního prostoru: Návrh AI agentů vyžaduje silnou architekturu a dovednosti úkolů. Získání schopností má dvě cesty: jemné ladění a bez jemného ladění.
Akvizice schopností jemným laděním:
Ruční anotace datových sad: Například RET-LLM a EduChat, zlepšující výkon LLM prostřednictvím ruční anotace.
LLM generované datové sady: Například ToolBench, pomocí LLM generovaných instrukcí pro jemné ladění LLaMA.
Datové sady z reálného světa: Například MIND2WEB a SQL-PaLM, zlepšují schopnosti agentů pomocí skutečných aplikačních dat.
Získání schopností bez jemného ladění: Když jemné ladění není možné, agenti mohou zlepšit schopnosti prostřednictvím inženýrství nápověd a mechanismů.
Inženýrství nápověd: Vedení chování LLM prostřednictvím návrhu nápověd, zlepšení výkonu.
Chain of Thought (CoT): Přidání mezikroků pro podporu řešení složitých problémů.
SocialAGI: Přizpůsobení dialogu na základě psychického stavu uživatele.
Retroformer: Kombinuje reflexi minulých neúspěchů pro optimalizaci rozhodování.
Inženýrství mechanismů posiluje schopnosti agentů prostřednictvím specializovaných pravidel a mechanismů.
DEPS: Optimalizace plánů zlepšováním popisů prováděcích procesů, zpětné vazby a výběru cílů pro zlepšení oprav chyb.
RoCo: Úprava plánů pro spolupráci více robotů na základě kontrol prostředí.
Mechanismus debat: Dosažení konsensu prostřednictvím spolupráce.
Akumulace zkušeností
GITM: Mechanismus paměti založený na textu zvyšuje schopnost učení a generalizace.
Voyager: Optimalizuje provádění dovedností prostřednictvím sebereflexe.
Automaticky řízená evoluce
LMA3: Podporuje přenastavení cílů a funkcí odměňování, což umožňuje agentům učit se dovednostem v prostředí bez konkrétních úkolů.
Z článku (Voyager)
Jemné ladění může výrazně zlepšit výkon specifických úkolů, ale vyžaduje otevřené modely a má vysokou spotřebu zdrojů. Inženýrství nápověd a inženýrství mechanismů jsou vhodné pro otevřené i uzavřené modely, ale jsou omezovány velikostí vstupního kontextového okna a vyžadují pečlivý design.
3. Systémová architektura zahrnující více agentů
Architektura více agentů přiděluje úkoly více agentům, kteří se zaměřují na různé aspekty, čímž zvyšují robustnost a adaptabilitu. Spolupráce a zpětná vazba mezi agenty posilují celkovou výkonnost a mohou dynamicky upravovat počet agentů podle potřeby. Tato architektura však čelí výzvám koordinace a komunikace, aby se předešlo ztrátě informací nebo nedorozuměním.
Aby se podpořila komunikace a koordinace mezi agenty, výzkum se zaměřuje na dvě organizační struktury:
Horizontální struktura: Všichni agenti sdílejí a optimalizují rozhodování, agregují osobní rozhodnutí prostřednictvím kolektivního rozhodování, což je vhodné pro poradenské nebo scénáře používání nástrojů.
Vertikální struktura: Jeden agent navrhuje počáteční řešení, ostatní agenti poskytují zpětnou vazbu nebo jsou řízeni správcem, vhodné pro úkoly, které vyžadují zdokonalení řešení, jako je řešení matematických problémů nebo vývoj softwaru.
Z článku (ChatDev)
1) Smíšená organizační struktura
DyLAN kombinuje vertikální a horizontální struktury do smíšené metody, agenti v horizontálních úrovních spolupracují a vyměňují si informace napříč časovými kroky. DyLAN zavádí systém hodnocení důležitosti agentů a modely hodnocení, dynamicky hodnotí a vybírá nejrelevantnější agenty pro pokračování spolupráce, agenti s nízkou výkonností jsou deaktivováni, což vytváří hierarchickou strukturu. Vysoce hodnocení agenti hrají klíčovou roli v úkolech a složení týmu.
Kooperativní rámec více agentů zaměřuje na sdílení informací a koordinaci akcí, soustředí se na výhody jednotlivých agentů, aby dosáhli vzájemně se doplňující spolupráce pro maximalizaci efektivity.
Z článku (Agentverse)
Spolupráce se dělí na dva typy:
Neuspořádaná spolupráce: Více agentů interaguje volně, bez pevného pořadí nebo procesu, podobně jako brainstorming. Každý agent poskytuje zpětnou vazbu, systém koordinuje agenty, aby integroval vstupy a organizoval odpovědi, vyhýbá se zmatku, obvykle pomocí mechanismu většinového hlasování pro dosažení konsensu.
Sekvenční spolupráce: Agenti interagují v pořadí, dodržují strukturované procesy, každý agent se zaměřuje na výstup předchozího agenta a zajišťuje efektivní komunikaci. Úkoly se rychle dokončují, vyhýbají se zmatku, ale je třeba provádět křížové ověřování nebo lidský zásah, aby se předešlo zesílení chyb.
Z článku MetaGPT
Konfrontační rámec více agentů zvyšuje efektivitu a spolupráci, zatímco konfrontační rámec stimuluje evoluci agentů prostřednictvím výzev. Inspirováno teorií her, konfrontační interakce podporují agenty ve zlepšování chování prostřednictvím zpětné vazby a reflexe. Například AlphaGo Zero zlepšilo strategii prostřednictvím sebevražedné hry, zatímco LLM systémy zvyšují kvalitu výstupu prostřednictvím debat a výměny „oko za oko“. Ačkoli tato metoda podporuje adaptabilitu agentů, přináší také výpočetní náklady a riziko chyb.
Emergentní chování v systémech s více agenty může vykazovat tři typy emergentního chování:
Dobrovolné chování: Agenti aktivně přispívají zdroji nebo pomáhají ostatním.
Konzistentní chování: Agenti upravují své chování, aby odpovídalo týmovým cílům.
Destruktivní chování: Agenti mohou přijmout extrémní chování, aby rychle dosáhli cílů, což může představovat bezpečnostní riziko.
Benchmarky a hodnocení: Benchmarky jsou klíčovými nástroji pro hodnocení výkonu agentů, běžné platformy zahrnují ALFWorld, IGLU a Minecraft, které testují schopnosti agentů v plánování, spolupráci a plnění úkolů. Hodnocení používání nástrojů a sociálních dovedností je také velmi důležité, platformy jako ToolBench a SocKET hodnotí adaptabilitu a sociální porozumění agentů.
Aplikace digitálních her se stávají důležitou platformou pro výzkum AI, herní agenti založení na LLM se zaměřují na kognitivní schopnosti a podporují výzkum AGI.
Z článku (Průzkum herních agentů založených na velkých jazykových modelech)
Vnímání agentů ve hrách: V videohrách agenti rozumí stavu hry prostřednictvím modulů vnímání, přičemž hlavní metody zahrnují tři:
Přístup k proměnným stavu: Přístup k symbolickým datům prostřednictvím herního API, vhodné pro vizuálně méně náročné hry.
Externí vizuální kodér: Použití vizuálního kodéru pro převod obrázků na text, jako je CLIP, což pomáhá agentům porozumět prostředí.
Vícekanálové jazykové modely: Kombinují vizuální a textová data, zvyšují adaptabilitu agentů, jako je GPT-4V.
Případové studie herních agentů
Cradle (dobrodružná hra): Tato hra vyžaduje, aby agenti porozuměli příběhu, řešili hádanky a navigovali, čelí výzvám vícekanálové podpory, dynamické paměti a rozhodování. Cílem Cradle je dosáhnout univerzálního počítačového řízení (GCC), což umožňuje agentům vykonávat jakýkoli počítačový úkol prostřednictvím obrazového a zvukového vstupu, což zajišťuje větší univerzálnost.
PokéLLMon (konkurenční hra): Konkurenční hry se svými přísnými pravidly a srovnatelnými mírami úspěšnosti s lidskými hráči se stávají měřítkem výkonu uvažování a plánování. Rámce více agentů již prokázaly soutěžní výkon. Například LLM agenti v textové verzi (StarCraft II) se utkali s vestavěným AI. PokéLLMon je první LLM agent, který dosáhl výkonu na úrovni člověka, získal 49% míru vítězství v žebříčku a 56% míru vítězství v pozvaných soutěžích. Tento rámec zabraňuje iluzím a panickým cyklům v chain of thought generováním koherentních stavových logů herního serveru do textu, čímž zajišťuje plynulost kol a podporuje dedukci založenou na paměti.
Agenti optimalizují strategie prostřednictvím čtyř typů zpětné vazby posilovaného učení, včetně změny HP, efektů dovedností, odhadu rychlosti sekvencí akcí a efektů stavů dovedností, aby se vyhnuli cyklům s neúčinnými dovednostmi.
PokéLLMon využívá externí zdroje (například Bulbapedia) pro získávání znalostí, jako jsou typové odolnosti a efekty schopností, aby pomohlo agentům přesněji používat speciální dovednosti. Navíc, hodnocením metod CoT, Self-Consistency a ToT bylo zjištěno, že Self-Consistency významně zvyšuje míru vítězství.
ProAgent (kooperativní hra): Kooperativní hry vyžadují porozumění záměrům spoluhráčů a předpovídání akcí, splnění úkolu prostřednictvím explicitní nebo implicitní spolupráce. V Overcooked ProAgent ukazuje schopnost implicitní spolupráce, jejíž hlavní proces se skládá z pěti kroků:
Shromažďování znalostí a přechody stavu: Extrakce znalostí relevantních k úkolu a generování jazykových popisů.
Plánování schopností: Odhadnutí záměrů spoluhráčů a vypracování akčního plánu.
Opravy přesvědčení: Dynamická aktualizace porozumění chování spoluhráčů, snížení chyb.
Ověřování dovedností a provádění: Iterativní úpravy plánů k zajištění účinnosti akcí.
Ukládání paměti: Zaznamenává interakce a výsledky pro optimalizaci budoucího rozhodování.
Mezi nimi je mechanismus opravy přesvědčení zvláště klíčový, zajišťuje, že agenti aktualizují porozumění v průběhu interakcí, což zvyšuje situational awareness a přesnost rozhodování.
ProAgent překonal pět metod sebevražené hry a trénování založeného na davu.
2) Generativní agenti (simulace)
Jak mohou virtuální postavy odrážet hloubku a složitost lidského chování? I když se rané systémy AI, jako SHRDLU a ELIZA, snažily o interakci v přirozeném jazyce, metody založené na pravidlech a posilované učení také dosáhly pokroku ve hrách, ale měly omezení v konzistenci a otevřené interakci. Dnes agenti kombinující LLM s vícestupňovou architekturou překonávají tato omezení, mají schopnosti uchovávat paměť, reflektovat události a přizpůsobovat se změnám. Výzkum ukazuje, že tito agenti nejenže dokážou simulovat skutečné lidské chování, ale také vykazují emergentní schopnosti při šíření informací, budování sociálních vztahů a koordinaci chování, čímž posouvají virtuální postavy k větší realističnosti.
Z článku (Vzestup a potenciál agentů velkých jazykových modelů: Přehled)
Architektura: Tato architektura kombinuje vnímání, ukládání paměti, reflexi, plánování a reakce. Agenti zpracovávají pozorování v přirozeném jazyce prostřednictvím modulu paměti, hodnotí a vyhledávají informace na základě aktuálnosti, důležitosti a kontextu, zároveň generují reflexe založené na předchozí paměti, poskytují hluboké postřehy o vztazích a plánech. Moduly pro uvažování a plánování se podobají cyklu plánování-akce.
Simulované výsledky: Studie simulovala šíření informací během Valentýnské párty a starostenských voleb, během dvou dnů se povědomí o starostenských kandidátech zvýšilo z 4% na 32%, povědomí o párty z 4% na 52%, podíl dezinformací pouze 1,3%. Agenti spontánně koordinovali organizaci párty, vytvářeli novou sociální síť, jejíž hustota vzrostla z 0,167 na 0,74. Simulace ukázala mechanismy sdílení informací a sociální koordinace bez potřeby externího zásahu, což poskytuje referenci pro budoucí experimenty v sociálních vědách.
Voyager (tvorba a objevování): V Minecraftu mohou agenti vykonávat výrobní úkoly nebo autonomně objevovat. Výrobní úkoly závisí na plánování LLM a rozkladu úkolů, zatímco autonomní objevování identifikuje úkoly prostřednictvím učení a generuje cíle. Voyager je embodiment lifelong learning agent, kombinuje automatizované kurzy, knihovnu dovedností a mechanismy zpětné vazby a ukazuje potenciál pro objevování a učení.
Automatizované kurzy: Využití LLM k generování cílů souvisejících se stavem agentů a pokrokem v exploraci, což zvyšuje složitost úkolů postupně. Agenti generují modulární kód pro provádění úkolů a prostřednictvím chain of thought (CoT) poskytují zpětnou vazbu na výsledky, a pokud je to nutné, upravují kód. Po úspěšném provedení je kód uložen do knihovny dovedností pro budoucí použití.
Rámec Voyager výrazně zvyšuje efektivitu odemykání technologického stromu, rychlost odemykání dřeva, kamene a železa se zvýšila 15,3krát, 8,5krát a 6,4krát, a stal se jediným rámcem, který odemyká diamanty. Jeho vzdálenost prozkoumání je 2,3krát delší než základna a objevuje nové předměty 3,3krát více, což ukazuje na vynikající schopnosti celoživotního učení.
4. Potenciální aplikace v herním průmyslu 1) Hraní her řízené agenty
Simulace více agentů: AI postavy autonomně jednají a podporují dynamickou hratelnost.
Inteligentní jednotky ve strategických hrách: Agenti se přizpůsobují prostředí a autonomně se rozhodují na základě cílů hráčů.
Tréninkové prostředí AI: Hráči navrhují a trénují AI k plnění úkolů.
2) NPC obohacené AI a virtuální svět
Otevřený svět NPC: NPC řízené LLM ovlivňují ekonomiku a sociální dynamiku.
Skutečné dialogy: Zlepšení interakce NPC.
Virtuální ekologie: AI poháněné evolucí ekosystému.
Dynamické události: Real-time správa aktivit ve hrách.
3) Dynamické narativy a podpora hráčů
Adaptivní narativ: Agenti generují personalizované úkoly a příběhy.
Herní asistent: Poskytuje nápovědy a interaktivní podporu.
Emocionální odpovědi AI: Interakce na základě emocí hráčů.
4) Vzdělávání a vytváření
AI protivníci: Přizpůsobení strategiím hráčů v soutěžích a simulacích.
Vzdělávací hry: Agenti poskytují personalizované výuky.
Podpora tvorby: Generování herního obsahu, snižující překážky pro vývoj.
5) Oblast kryptografie a financí
Agenti autonomně operují s peněženkami, transakcemi a interakcemi s protokoly DeFi prostřednictvím blockchainu.
Chytré smlouvy peněženek: Podporují vícestupňové podepisování a abstrakci účtů, což zvyšuje autonomii agentů.
Správa soukromých klíčů: Použití více stran pro výpočet (MPC) nebo důvěryhodné výpočetní prostředí (TEE) pro zajištění bezpečnosti, jako nástroj AI vyvinutý Coinbase.
Tyto technologie přinášejí nové příležitosti pro autonomní interakci agentů na blockchainu a aplikace v kryptoměnovém ekosystému.
5) Aplikace agentů v oblasti blockchainu
1) Verifikační agentní uvažování
Off-chain ověřování je horké téma ve výzkumu blockchainu, zejména v oblastech s vysokou komplexností výpočtů. Výzkumné směry zahrnují zero-knowledge důkazy, optimistické ověřování, důvěryhodné výpočetní prostředí (TEE) a teorie her v kryptografii.
Ověření výstupů agentů: Potvrzení výsledků uvažování agentů prostřednictvím on-chain ověřovatelů, což umožňuje agentům být provozováni externě a spolehlivé výsledky uvažování být zaznamenány na blockchainu, podobně jako decentralizované orákuly.
Příklad: „Leela vs. the World“ od Modulus Labs využívá zero-knowledge circuits pro ověření tahů v šachové hře, kombinující předpovědní trhy a ověřitelné výstupy AI.
2) Kryptografičtí agenti spolupráce
Distribuovaný uzlový systém může provozovat více agentních systémů a dosáhnout konsensu.
Případ Ritual: Vytváření rozhodnutí o akcích agentů prostřednictvím provozu LLM na více uzlech, kombinující on-chain ověřování a hlasování.
Protokol Naptha: Poskytuje trh úkolů a systém ověřování pracovních toků pro spolupráci a ověřování úkolů agentů.
Decentralizované AI orákuly: Například protokol Ora podporuje provoz distribuovaných agentů a vybudování konsensu.
3) Rámec Eliza
Open-source více agentní rámec vyvinutý a16z, navržený pro blockchain, podporující vytváření a správu personalizovaných inteligentních agentů.
Vlastnosti: Modulární architektura, dlouhodobá paměť, integrace platforem (podporující Discord, X, Telegram atd.).
Důvěryhodnostní motor: Kombinace automatizovaného obchodování s tokeny, hodnocení a správa doporučujících skóre důvěry.
4) Další aplikace agentů
Decentralizované schopnosti: Motivování vývoje nástrojů a datových sad prostřednictvím mechanismu odměn, například vytváření knihoven dovedností a navigace protokolem.
Předpovědní tržní agenti: Kombinování předpovědních trhů s autonomním obchodováním agentů jako Gnosis a Autonolas podporují on-chain předpovědi a služby odpovědí.
Oprávnění agentů: Automatická analýza návrhů a hlasování prostřednictvím agentů v DAO.
Tokenizovaní agenti: Sdílení příjmů agentů, jako MyShell a Virtuals Protocol, podporují mechanismus rozdělení zisků.
Správa DeFi: Agenti optimalizují uživatelskou zkušenost v prostředí více řetězců a automaticky provádějí transakce.
Autonomní vydávání tokenů: Agenti vydávají tokeny, což zvyšuje atraktivitu tokenů na trhu.
Autonomní umělec: Například Botto, kombinuje komunitní hlasování a minting na blockchainu NFT, podporuje agentní kreativitu a rozdělování příjmů.
Ekonomizované herní agenty: AI Arena a další kombinují posilované učení a imitaci, navrhují online herní soutěže 24/7.
6) Nedávné trendy a výhledy
Více projektů zkoumá body spojení mezi blockchainem a AI, s bohatými aplikačními oblastmi. V budoucnu se zaměříme na on-chain AI agenty. 1) Předpovědní schopnosti: Předpovědi jsou klíčové pro rozhodování. Tradiční předpovědi se dělí na statistické a soudní predikce, přičemž druhé závisí na expertech, což je nákladné a pomalé.
Pokrok v výzkumu:
Přesnost předpovědí velkých jazykových modelů (LLMs) se zvýšila z 50% na 71,5% díky vyhledávání zpráv a posílení uvažování, což je blízko k lidské předpovědi 77%.
Integrace 12 modelů dosahuje výsledků blízkých lidským týmům, což ukazuje na zvýšení spolehlivosti díky „kolektivní inteligenci“.
2) Hraní rolí (Roleplay)
LLM vykazují v oblasti hraní rolí vynikající výkon, kombinují sociální inteligenci a mechanismy paměti a dokážou simulovat složité interakce.
Aplikace: Může být použita pro simulaci rolí, herní interakci a personalizované dialogy.
Metody: Kombinování generování s posílením vyhledávání (RAG) a inženýrství dialogu pro optimalizaci výkonu pomocí malého vzorku nápověd.
Inovace:
RoleGPT dynamicky extrahuje kontext rolí pro zvýšení realismu.
Character-LLM reprodukuje vlastnosti historických postav pomocí biografických dat, přesně obnovuje role.
Tyto technologie podporují rozšíření aplikací AI v oblastech, jako je sociální simulace a personalizovaná interakce.
Z článku (Character-LLM)
Aplikace RPLA (Role-Playing Language Agent) role-playing jazykových agentů
Následuje stručný seznam některých aplikací RPLA:
Interaktivní NPC v hrách: Vytváření dynamických postav s emocionální inteligencí, zvyšující pocit ponoření hráče.
Simulace historických postav: Oživení historických osobností, jako je Sókratés nebo Kleopatra, pro vzdělávací nebo explorativní dialog.
Nástroj pro psaní příběhů: Poskytuje bohatou narativní a dialogovou podporu pro autory, RPG hráče a tvůrce.
Virtuální herectví: Ztělesnění herců nebo veřejných osobností pro interaktivní dramatické scénáře, virtuální akce a další zábavní scénáře.
Spolupráce s AI: Spolupráce s AI na vytváření specifického stylu umění, hudby nebo příběhů.
Jazykoví učitelé: Simulují rodilé mluvčí a poskytují pohlcující jazykové cvičení.
Sociální simulace: Budování budoucích nebo fiktivních společností, testování kulturních, etických nebo behaviorálních scénářů.
Přizpůsobený virtuální společník: Vytváření personalizovaných asistentů nebo partnerů s jedinečnými osobnostmi, vlastnostmi a pamětí.
7) Problémy sladění AI
Hodnocení, zda LLM odpovídají lidským hodnotám, je složitý úkol, plný výzev kvůli rozmanitosti a otevřenosti skutečných aplikačních scénářů. Návrh komplexního testu na sladění vyžaduje značné úsilí, ale stávající statické testovací datové sady mají potíže s včasným odrážením nově vznikajících problémů.
V současnosti se sladění AI často provádí prostřednictvím externí manuální kontroly, například metodou RLHF (posilované učení na základě lidské zpětné vazby) od OpenAI, která trvá 6 měsíců a vyžaduje značné zdroje na optimalizaci sladění GPT-4.
Také existují výzkumy zkoušející redukovat manuální dohled a využívat větší LLM pro revizi, ale novým směrem je analýza stavu sladění modelu pomocí rámce agentů. Například:
1) Rámec ALI-Agent
Dynamická generace realistických scénářů pro detekci jemných nebo „dlouhých ocasových“ rizik, překonávající omezení tradičního statického testování.
Dvoufázový proces:
Generování scénářů: Generování potenciálních rizikových scénářů na základě datových sad nebo dotazů na internetu, využívající modul paměti pro vyvolání předchozích hodnotících záznamů.
Optimalizace scénářů: Pokud nebyly zjištěny problémy se sladěním, provádí se iterativní optimalizace scénáře na základě zpětné vazby cílového modelu.
Složení modulů: Modul paměti, modul nástrojů (např. vyhledávání na internetu) a akční modul. Experimenty ukazují, že účinně odhalují problémy se sladěním agentů v LLM.
2) Metoda MATRIX
Na základě metody „Více rolí“ pro seřízení, inspirované sociologickou teorií, se snaží pochopit hodnoty prostřednictvím simulace interakcí mezi více stranami.
Hlavní rysy:
Metoda Monopolylogue: Jeden model hraje více rolí a hodnotí sociální dopad.
Sociální regulátor: Zaznamenávání pravidel interakce a simulačních výsledků.
Inovace: Opuštění předem daných pravidel, formování sociálního vědomí LLM prostřednictvím simulované interakce a využití simulačních dat k jemnému ladění modelu pro rychlé seřízení. Experimenty ukazují, že MATRIX má lepší efekty seřízení než stávající metody a překonává GPT-4 v některých benchmarkových testech.
Z článku (MATRIX)
O výzkumu sladění AI agentů je mnoho, což by mohlo stát za to napsat samostatný článek.
Správa a organizace: Organizace se spoléhají na standardní operační postupy (SOP) pro koordinaci úkolů a přidělování odpovědnosti. Například produktoví manažeři ve softwarových firmách používají SOP k analýze trhu a potřeb uživatelů a vytvářejí dokumenty požadavků na produkty (PRD), aby řídili proces vývoje. Tato struktura je vhodná pro rámce s více agenty, jako je MetaGPT, kde jsou role agentů jasné, mají relevantní nástroje a plánovací schopnosti a optimalizují výkon prostřednictvím zpětné vazby.
Architektura založená na agentech zlepšuje výkon robotů v plánování složitých úkolů a adaptivní interakci. Politiky robotů v jazykových podmínkách pomáhají robotům porozumět prostředí a generovat proveditelné akční sekvence na základě požadavků úkolu.
Architektonický rámec: Kombinace LLM a klasického plánování, efektivně interpretuje příkazy v přirozeném jazyce a převádí je na proveditelné sekvence úkolů. Rámec SayCan kombinuje posilované učení a plánování schopností, což umožňuje robotům provádět úkoly v reálném světě, zajišťuje proveditelnost a přizpůsobivost pokynů. Inner Monologue dále zvyšuje adaptabilitu robotů, upravuje akce prostřednictvím zpětné vazby k sebereflexi.
Příklad rámce: Rámec SayCan umožňuje robotům hodnotit a vykonávat úkoly (např. vzít nápoj ze stolu) při čelní interakci s pokyny v přirozeném jazyce a zajišťuje shodu s skutečnými schopnostmi.
SayPlan: SayPlan efektivně plánuje úkoly v několika místnostech pomocí 3DSG, udržuje prostorové kontextové povědomí a ověřuje plány, aby zajistil provádění úkolů v širokém prostoru.
Inner Monologue: Tento rámec optimalizuje provádění prostřednictvím zpětné vazby, přizpůsobuje se změnám v prostředí a je vhodný pro aplikace, jako jsou úkoly v kuchyni a přeskupování na stole.
RoCo: Zero-shot metoda spolupráce více robotů, kombinuje přirozené jazykové uvažování a plánování pohybu, generuje plány subúkolů a ověřuje je prostřednictvím prostředí pro optimalizaci a zajištění proveditelnosti.
Vědecký článek (Empowering Biomedical Discovery with AI Agents) představuje rámec více agentů, který kombinuje nástroje a experty, podporující vědecké objevy. Článek popisuje pět spoluprací:
Brainstorming agenti
Agent pro odborné poradenství
Výzkum debatních agentů
Agent pro kulatý stůl
Autonomní laboratoř agentů
Článek také diskutuje úrovně autonomie agentů AI:
Úroveň 0: ML modely pomáhají vědcům formulovat hypotézy, jako je AlphaFold-Multimer, který predikuje interakce proteinů.
Úroveň 1: Agent jako asistent podporuje úkoly a cíle. ChemCrow rozšiřuje akční prostor pomocí strojového učení, podporuje výzkum organické chemie a úspěšně objevuje nové pigmenty.
Úroveň 2: Ve fázi úrovně 2 spolupracují AI agenti se vědci na zdokonalování hypotéz, provádějí testování hypotéz a používají nástroje pro vědecké objevy. Coscientist je inteligentní agent založený na více LLM, který dokáže autonomně plánovat, navrhovat a provádět složité experimenty, využívající nástroje jako internet, API a spolupráci s jinými LLM, dokonce přímo řídit hardware. Jeho schopnosti se projevují v šesti aspektech: plánování chemické syntézy, vyhledávání dokumentace hardwaru, provádění pokročilých příkazů, manipulace s kapalinami, řešení složitých vědeckých problémů.
Úroveň 3: Ve fázi úrovně 3 dokážou AI agenti překonat současný rozsah výzkumu a předpovědět nové hypotézy. I když tato fáze dosud nebyla dosažena, optimalizací vlastní práce by mohli urychlit proces vývoje AI.
8. Shrnutí: Budoucnost AI agentů
AI agenti mění koncept a aplikaci inteligence, přetvářejí rozhodování a autonomii. V oblastech jako vědecké objevy a rámce správy se stávají aktivními účastníky, nikoli pouze nástroji, ale i spolupracovníky. S pokrokem technologií potřebujeme znovu promyslet, jak vyvážit sílu těchto agentů s potenciálními etickými a sociálními problémy, abychom zajistili, že jejich dopad bude kontrolovatelný, podpoří technologický pokrok a sníží rizika.