Останніми роками концепція агентів (Agent) у філософії, іграх та штучному інтелекті стає все більш важливою. В традиційному розумінні агент - це сутність, яка може самостійно діяти, приймати рішення та має наміри, ці характеристики зазвичай асоціюються з людьми. У сфері штучного інтелекту зміст агента стає ще більш складним. З появою автономних агентів ці агенти можуть спостерігати, вчитися та діяти незалежно в середовищі, що надає абстрактному поняттю агента конкретну форму обчислювальної системи. Ці агенти майже не потребують людського втручання, демонструючи здатність, хоч і не свідому, але з обчислювальними намірами, приймати рішення, вчитися на досвіді і взаємодіяти з іншими агентами або людьми все більш складними способами. У цій статті ми розглянемо нову галузь автономних агентів, особливо агентів на основі великих мовних моделей (LLM) та їх вплив у різних сферах, таких як ігри, управління, наука, робототехніка тощо. На основі аналізу основних принципів агентів, ця стаття розгляне структуру та застосування штучних інтелектуальних агентів. Завдяки цьому класифікаційному підходу ми зможемо глибше зрозуміти, як ці агенти виконують завдання, обробляють інформацію та постійно розвиваються в своїх специфічних оперативних рамках. Мета цієї статті включає два аспекти: надати систематичний огляд штучних інтелектуальних агентів та їх основних структур, зосереджуючи увагу на таких компонентах, як пам’ять, сприйняття, міркування та планування. Дослідити останні тенденції у дослідженнях штучних інтелектуальних агентів, підкреслюючи їх приклади застосування в переосмисленні можливостей. Примітка: через обсяг статті, цей переклад скорочений. Тенденції дослідження агентів. Розвиток агентів на основі великих мовних моделей (LLM) є значним прогресом у дослідженнях штучного інтелекту, охоплюючи численні досягнення, від символічного міркування, реактивних систем до підкріплювального навчання та адаптивного навчання. Символічні агенти: моделюють людське міркування через правила та структуровані знання, підходять для конкретних завдань (наприклад, медична діагностика), але важко справляються з комплексними та невизначеними середовищами. Реактивні агенти: швидко реагують на середовище через цикл «сприйняття - дія», підходять для швидких сценаріїв взаємодії, але не можуть виконувати складні завдання. Агенти з підкріплювальним навчанням: оптимізують поведінку через навчання з проб і помилок, широко застосовуються в іграх та робототехніці, але мають тривалий час навчання, низьку ефективність зразків, погану стабільність. Агенти на основі LLM: агенти LLM поєднують символічне міркування, зворотній зв'язок та адаптивне навчання, мають можливості навчання з невеликої кількості зразків і нульових зразків, широко використовуються в розробці програмного забезпечення, наукових дослідженнях тощо, підходять для динамічного середовища та можуть співпрацювати з іншими агентами. Архітектура агентів Сучасна архітектура агентів складається з кількох модулів, формуючи інтегровану систему. 1. Модуль профілю Модуль профілю визначає поведінку агента, забезпечуючи узгодженість через призначення ролей або особистостей, підходить для сценаріїв, які потребують стабільної особистості. Профілі агентів LLM поділяються на три категорії: демографічні ролі, віртуальні ролі та персоналізовані ролі. Витяг з (від ролі до персоналізації) статті Ролі можуть суттєво підвищити ефективність агентів та їх здатність до міркування. Наприклад, LLM реагує більш детально та контекстуально, коли виступає в ролі експерта. У багатогранних системах відповідність ролей сприяє співпраці, підвищуючи рівень виконання завдань та якість взаємодії. Методи створення профілів Профілі агентів LLM можна створити наступними способами: Ручний дизайн: ручне налаштування характеристик ролі. Генерація LLM: автоматичне розширення налаштувань ролі за допомогою LLM. Узгодження з набором даних: побудова на основі реального набору даних для підвищення реалістичності взаємодії. 2. Модуль пам’яті Пам’ять є основою агентів LLM, підтримуючи адаптивне планування та прийняття рішень. Структура пам’яті моделює людські процеси, головним чином поділяється на два типи: Уніфікована пам’ять: короткочасна пам’ять, обробляє нещодавню інформацію. Оптимізується через витяг тексту, резюмує пам’ять та модифікує механізм уваги, але обмежена контекстним вікном. Змішана пам’ять: поєднує короткочасну та довгострокову пам’ять, довгострокова пам’ять зберігається в зовнішніх базах даних, що полегшує ефективне згадування. Загальні формати зберігання пам’яті включають: Природна мова: гнучка і семантично багата. Векторні вклади: зручно для швидкого пошуку. Бази даних: підтримують запити через структуроване зберігання. Структуровані списки: організовані у вигляді списків або ієрархій. Операції пам’яті Агенти взаємодіють з пам’яттю через такі операції: Читання пам’яті: витягування відповідної інформації, підтримка розумного прийняття рішень. Запис пам’яті: зберігання нової інформації, уникнення повторень та переповнень. Роздуми про пам’ять: узагальнення досвіду, посилення абстрактних здібностей до міркування. На основі змісту статті (Генеративні агенти) Значення дослідження та виклики Незважаючи на те, що системи пам’яті підвищують можливості агентів, вони також приносять дослідницькі виклики: Масштабованість і ефективність: системи пам’яті повинні підтримувати велику кількість інформації та забезпечувати швидкий пошук, питання оптимізації пошуку довгострокової пам’яті залишається важливим напрямком дослідження. Обробка обмежень контексту: нинішні LLM обмежені контекстним вікном, важко управляти великою пам’яттю, дослідження зосереджуються на динамічних механізмах уваги та технологіях резюмування для розширення можливостей обробки пам’яті. Упередження та зміщення в довгостроковій пам’яті: пам’ять може мати упередження, що призводить до пріоритетної обробки інформації та виникнення зміщення пам’яті, що потребує регулярного оновлення та корекції упереджень для підтримки балансу агентів. Катастрофічне забування: нові дані перекривають старі, що призводить до втрати критично важливої інформації, потрібно зміцнити критичну пам’ять через техніки відтворення досвіду та консолідації пам’яті. 3. Спостережливість Агенти LLM підвищують своє розуміння та здібності до прийняття рішень шляхом обробки різноманітних джерел даних, подібно до того, як люди покладаються на сенсорний ввід. Багатомодальне сприймання об'єднує текстові, візуальні та аудіо входи, підсилюючи здатність агентів виконувати складні завдання. Ось основні типи входів і їх застосування: Текстовий ввід Текст є основним способом спілкування агентів LLM. Незважаючи на те, що агенти мають високі мовні здібності, розуміння прихованих значень за командами залишається викликом. Приховане розуміння: налаштування уподобань через підкріплювальне навчання, обробка нечітких команд та припущення намірів. Нульові та невеликі зразки: реагування на нові завдання без додаткового навчання, підходить для різноманітних сценаріїв взаємодії. Візуальний ввід Візуальне сприйняття дозволяє агентам розуміти об'єкти та просторові відносини. Перетворення зображень у текст: генерує текстові описи, що допомагають обробити візуальні дані, але можуть втратити деталі. Кодування на основі трансформерів: такі як Vision Transformers, які перетворюють зображення у токени, що сумісні з текстом. Мости інструментів: такі як BLIP-2 та Flamingo, що використовують проміжні шари для оптимізації зв'язків між візуальними та текстовими даними. Аудіовхід Аудіальне сприйняття дозволяє агентам розпізнавати звуки та мову, особливо важливо в сценаріях взаємодії та високого ризику. Розпізнавання та синтез мови: такі як Whisper (перетворення мови в текст) та FastSpeech (перетворення тексту в мову). Обробка спектрограм: перетворення аудіоспектрограм у зображення, підвищення здібностей до розпізнавання аудіосигналів. Дослідження та важливість багатомодального сприйняття: Синхронізація та інтеграція даних. Багатомодальні дані потребують ефективної синхронізації, щоб уникнути помилок сприйняття та реакції, дослідження зосереджуються на оптимізації багатомодальних трансформерів та крос-уваги. Масштабованість та ефективність. Багатомодальне оброблення вимагає великих ресурсів, особливо при обробці зображень та аудіо високої роздільної здатності, розробка рішень з низькими ресурсами є важливою.