W ostatnich latach koncepcja autonomicznych agentów opartych na dużych modelach językowych (LLM) rozwija się w zakresie architektury, pamięci, percepcji, wnioskowania i działania, wykazując potencjał do redefinicji możliwości w wielu dziedzinach. Jak to będzie mieć zastosowanie w AI Agent, który jest w centrum uwagi rynku? Artykuł pochodzi z tekstu autorstwa Rituals, zredagowanego i przetłumaczonego przez Białą Strefę Blockchain. (Wprowadzenie: Apple planuje wydanie zaktualizowanej wersji „LLM Siri” w 2025 roku: AI asystent życia silniejszy od ChatGPT) (Uzupełnienie kontekstu: Twórca AI16z wyjaśnia, dlaczego AI meme stanie się ogromnym rynkiem?) W ostatnich latach koncepcja agenta (Agent) zyskuje na znaczeniu w filozofii, grach i sztucznej inteligencji. W tradycyjnym rozumieniu agent to byt, który może działać autonomicznie, podejmować decyzje i mieć intencje, cechy te zwykle kojarzone są z ludźmi. W obszarze sztucznej inteligencji znaczenie agenta staje się coraz bardziej złożone. Wraz z pojawieniem się autonomicznych agentów, ci agenci mogą obserwować, uczyć się i działać niezależnie w środowisku, co nadaje przestarzałej koncepcji agenta konkretną formę w systemach obliczeniowych. Ci agenci niemal nie wymagają interwencji człowieka, wykazując zdolność do podejmowania decyzji, uczenia się na podstawie doświadczeń i interakcji z innymi agentami lub ludźmi w coraz bardziej złożony sposób. Artykuł ten zbada nową dziedzinę autonomicznych agentów, szczególnie agentów opartych na dużych modelach językowych (LLM) i ich wpływ w różnych dziedzinach, takich jak gry, rządy, nauka i robotyka. Na podstawie omówienia podstawowych zasad agentów, artykuł przeanalizuje architekturę i zastosowanie agentów sztucznej inteligencji. Dzięki temu klasyfikacyjnemu podejściu będziemy mogli głębiej zrozumieć, jak ci agenci wykonują zadania, przetwarzają informacje i rozwijają się w ramach swoich specyficznych ram operacyjnych. Cele tego artykułu obejmują następujące dwa aspekty: 1. Zapewnienie systematycznego przeglądu agentów sztucznej inteligencji i ich podstawowych architektur, koncentrując się na takich składnikach jak pamięć, percepcja, wnioskowanie i planowanie. 2. Zbadanie najnowszych trendów badań nad agentami sztucznej inteligencji, podkreślając ich zastosowania w redefiniowaniu możliwości. Uwaga: Z uwagi na długość artykułu, tłumaczenie jest skrócone w stosunku do oryginału. Trendy w badaniach nad agentami Rozwój agentów opartych na dużych modelach językowych (LLM) oznacza znaczący postęp w badaniach sztucznej inteligencji, obejmujący wiele postępów, od wnioskowania symbolicznego, poprzez systemy reaktywne, uczenie przez wzmacnianie, aż po uczenie adaptacyjne. Agenci symboliczni: symulują ludzkie wnioskowanie za pomocą reguł i zorganizowanej wiedzy, nadają się do rozwiązywania specyficznych problemów (np. diagnoza medyczna), ale mają trudności w radzeniu sobie z złożonymi, niepewnymi środowiskami. Agenci reaktywni: szybko reagują na środowisko za pomocą pętli „percepcja – działanie”, nadają się do scenariuszy szybkiej interakcji, ale nie mogą wykonywać złożonych zadań. Agenci uczenia przez wzmocnienie: optymalizują zachowanie poprzez uczenie się przez próbę i błąd, szeroko stosowani w grach i robotyce, ale mają długi czas szkolenia, niską efektywność próbek i słabą stabilność. Agenci oparte na LLM: Agenci LLM łączą wnioskowanie symboliczne, sprzężenie zwrotne i uczenie adaptacyjne, posiadając zdolności do uczenia się na małych i zerowych próbkach, są szeroko stosowani w rozwoju oprogramowania, badaniach naukowych i innych dziedzinach, nadają się do dynamicznych środowisk i mogą współpracować z innymi agentami. Architektura agenta Nowoczesna architektura agenta obejmuje wiele modułów, tworząc zintegrowany system. 1. Moduł profilu Moduł profilu określa zachowanie agenta, zapewniając spójność poprzez przypisywanie ról lub osobowości, nadaje się do scenariuszy wymagających stabilnej osobowości. Profile agentów LLM dzielą się na trzy kategorie: role demograficzne, role wirtualne i role personalizowane. Wyciąg z (od roli do personalizacji) artykułu Rola w poprawie wydajności Ustawienie roli może znacząco poprawić wydajność i zdolności wnioskowania agenta. Na przykład, gdy LLM działa jako ekspert, odpowiedzi są bardziej dogłębne i kontekstowe. W systemach wieloagentowych dopasowanie ról wspomaga współpracę, zwiększając wskaźnik realizacji zadań i jakość interakcji. Metody tworzenia profili Profile agentów LLM mogą być tworzone w następujący sposób: Projekt ręczny: ręczne ustawienie cech roli. Generacja LLM: automatyczne rozszerzenie ustawień ról przez LLM. Dopasowanie do zbioru danych: budowa w oparciu o rzeczywiste zbiory danych, zwiększająca autentyczność interakcji. 2. Moduł pamięci Pamięć jest kluczowym elementem agentów LLM, wspierającym adaptacyjne planowanie i podejmowanie decyzji. Struktura pamięci symuluje procesy ludzkie i dzieli się na dwie główne kategorie: Pamięć jednolita: pamięć krótkoterminowa, przetwarzająca najnowsze informacje. Optymalizowana przez wydobywanie tekstu, podsumowywanie pamięci i modyfikację mechanizmu uwagi, ale ograniczona przez kontekstowe okno. Pamięć mieszana: łączy pamięć krótkoterminową i długoterminową, długoterminowa pamięć przechowywana jest w zewnętrznych bazach danych, co ułatwia efektywne przypominanie. Powszechne formaty przechowywania pamięci obejmują: Naturalny język: elastyczny i bogaty w znaczenie. Wektory osadzeń: ułatwiają szybkie wyszukiwanie. Bazy danych: wspierają zapytania poprzez strukturalne przechowywanie. Zorganizowane listy: zorganizowane w formie listy lub hierarchii. Operacje pamięci Agenci interagują z pamięcią poprzez następujące operacje: Odczyt pamięci: wyszukiwanie istotnych informacji, wspierające mądre decyzje. Zapis pamięci: przechowywanie nowych informacji, unikanie duplikatów i przepełnienia. Refleksja pamięci: podsumowywanie doświadczeń, wzmacniające zdolność do abstrakcyjnego wnioskowania. Na podstawie treści artykułu (Generative Agents) Znaczenie badań i wyzwania Mimo że systemy pamięci zwiększają zdolności inteligentnych bytów, stawiają również przed badaniami wyzwania: Możliwości skalowalności i efektywności: systemy pamięci muszą wspierać dużą ilość informacji i zapewniać szybkie wyszukiwanie, jak optymalizować długoterminowe wyszukiwanie pamięci pozostaje kluczowym obszarem badań. Radzenie sobie z ograniczeniami kontekstowymi: obecne LLM są ograniczone przez okno kontekstowe, co utrudnia zarządzanie dużą pamięcią, badania eksplorują dynamiczne mechanizmy uwagi i techniki podsumowywania, aby zwiększyć zdolność przetwarzania pamięci. Stronniczość i dryf w długoterminowej pamięci: pamięć może zawierać stronniczość, co prowadzi do priorytetowego przetwarzania informacji i generowania dryfu pamięci, dlatego konieczne jest regularne aktualizowanie i korekty stronniczości, aby zachować równowagę inteligentnego bytu. Katastrofalne zapomnienie: nowe dane zastępują stare, powodując utratę kluczowych informacji, dlatego konieczne jest wzmocnienie kluczowej pamięci poprzez techniki odtwarzania doświadczenia i konsolidacji pamięci. 3. Zdolności percepcyjne Agenci LLM poprawiają swoje zrozumienie środowiska i zdolności podejmowania decyzji poprzez przetwarzanie różnorodnych źródeł danych, podobnie jak ludzie polegają na danych sensorycznych. Percepcja multimodalna integruje tekst, obraz i dźwięk, wzmacniając zdolność agentów do wykonywania złożonych zadań. Oto główne typy wejść i ich zastosowanie: Wejście tekstowe Tekst jest głównym sposobem komunikacji agentów LLM. Mimo że agenci posiadają zaawansowane umiejętności językowe, zrozumienie ukrytego znaczenia poleceń nadal stanowi wyzwanie. Zrozumienie ukryte: dostosowywanie preferencji za pomocą uczenia przez wzmocnienie, przetwarzanie niejednoznacznych poleceń i wnioskowanie intencji. Zdolności zero- i mało-przykładowe: reagowanie na nowe zadania bez dodatkowego szkolenia, nadające się do różnorodnych scenariuszy interakcji. Wejście wizualne Percepcja wizualna pozwala agentom zrozumieć relacje między obiektami a przestrzenią. Obraz na tekst: generowanie opisów tekstowych wspomagających przetwarzanie danych wizualnych, ale może prowadzić do utraty szczegółów. Kodowanie oparte na Transformatorze: takie jak Vision Transformers, które przekształcają obrazy w tokeny zgodne z tekstem. Narzędzia połączeniowe: takie jak BLIP-2 i Flamingo, które optymalizują połączenia wizualne z tekstem za pomocą warstw pośrednich. Wejście dźwiękowe Percepcja dźwiękowa pozwala agentom rozpoznawać dźwięki i mowę, co jest szczególnie ważne w interakcji i w scenariuszach wysokiego ryzyka. Rozpoznawanie i syntezowanie mowy: takie jak Whisper (przekształcanie mowy na tekst) i FastSpeech (przekształcanie tekstu na mowę). Przetwarzanie spektrogramu: przetwarzanie spektrogramu dźwiękowego w obrazy, co zwiększa zdolność rozpoznawania sygnałów dźwiękowych. Wyzwania badawcze i rozważania dotyczące percepcji multimodalnej: Dopasowanie i integracja danych: dane multimodalne wymagają efektywnego dopasowania, aby uniknąć błędów w percepcji i odpowiedziach, badania koncentrują się na optymalizacji transformatorów multimodalnych i warstw uwagi krzyżowej. Skalowalność i efektywność: przetwarzanie multimodalne wymaga dużych zasobów, zwłaszcza podczas przetwarzania obrazów i dźwięków o wysokiej rozdzielczości, konieczne jest opracowanie technik o niskich zasobach...