Оригінальна назва: Яка платформа створює найкращих AI-агентів? Ми тестуємо ChatGPT, Claude, Gemini та інші.

Оригінальний автор: Хосе Антоніо Ланс

Джерело: https://decrypt.co/

Компільовано: Дейзі, Mars Finance

Яка платформа може створити найкращих AI-агентів? Ми протестували ChatGPT, Claude, Gemini та інші платформи

Порівняйте п’ять провідних платформ, щоб дізнатися, яка з них найкраще підходить для розміщення вашого майбутнього AI-агента в повсякденних ситуаціях.

AI-агенти можуть виконувати багато завдань: шукати інформацію у вашій документаційній базі, писати код, збирати дані з веб-сторінок, досягати глибокого аналізу складних даних і навіть більше. Ви також можете створити віртуальний офіс, що складається з групи AI-агентів, які зосереджені на різних завданнях, працюючи разом, як команда професійних цифрових співробітників.

Але наскільки це важко? Якщо звичайна людина хоче створити свого AI-фінансового консультанта, наприклад, без використання API, без дивних кодів, без Github, яка платформа може надати найкращу підтримку для користувача? Ми просто хочемо подивитися, як ці провідні AI-компанії допомагають звичайним користувачам створювати AI-агентів, не вимагаючи від них високих технічних навичок.

Звичайно, ви отримуєте те, за що платите. У цьому випадку ми також хочемо подивитися, чи існує зв'язок між легкістю налаштування агента звичайною людиною та якістю результатів, які кожна платформа постачає.

Наш експеримент порівняв п’ять основних платформ: ChatGPT, Claude, Huggingface, Mistral AI і Gemini. Кожна платформа отримала однакові базові інструкції, що вимагали створити фінансового консультанта.

Тестування було зосереджено на можливості платформи «з коробки». Основна увага зверталася на те, чи може агент справлятися з поширеним сценарієм - у цьому випадку допомогти комусь збалансувати інвестиції в 25,000 доларів з боргами в 30,000 доларів. Ми також хотіли подивитися на їхню здатність аналізувати торгові графіки. Ми уникали використання додаткових інструментів для підвищення продуктивності агентів, натомість намагалися застосувати найпростіший підхід.

Коротко кажучи, ось наші висновки та рейтинг моделей:

Рейтинг платформ

1) GPT від OpenAI (8.5/10)

  • Легкість налаштування: 4/5

  • Якість результату: 4.5/5

ChatGPT є найбільш збалансованою платформою, пропонуючи складні варіанти створення агентів, одночасно маючи як підказки, так і ручні опції, що можуть задовольнити потреби абсолютно новачків та користувачів з певним досвідом.

Незважаючи на те, що останні оновлення інтерфейсу заховали деякі функції в меню, ця платформа показує себе чудово в перетворенні складних потреб користувачів на функціональні агенти. Ми протестували цю модель, створивши фінансового консультанта, і результати показали, що цей агент має видатне усвідомлення контексту та структуровані можливості вирішення проблем, пропонуючи детальну та узгоджену стратегію для управління боргами та розподілу інвестицій.

2) Google Gemini (7/10)

  • Легкість налаштування: 4/5

  • Якість результату: 3/5

Gemini вирізняється своїм витонченим, інтуїтивно зрозумілим інтерфейсом та відмінною обробкою помилок. Хоча для отримання найкращих результатів потрібні більш детальні підказки, його буквальне трактування інструкцій створює консистентні та прогнозовані результати.

Агент під час надання фінансових порад акцентує на зборі контексту перед рекомендаціями, що нагадує професійну практику. Однак у нульових відповідях він може бути занадто обережним.

3) HuggingChat (6.5/10)

  • Легкість налаштування: 2/5

  • Якість результату: 4.5/5

Ця відкрита платформа пропонує безпрецедентну налаштовуваність і варіанти вибору моделей. Для тих, хто прагне мати контроль над кожною деталею, це відмінний вибір, але для тих, хто шукає простоти, це може не підійти. (Це можна порівняти з системами Linux та macOS). Її складний часовий формат і інтеграція утиліт демонструють її передові можливості.

Ми побудували чистий агент без жодних додаткових функцій. Ми використали Nvidia's Nemomotron як базову велику мовну модель, чия якість виходу достатня для порівняння з ChatGPT. Для відкритої платформи - непогано.

4) Claude (5.5/10)

  • Легкість налаштування: 2.5/5

  • Якість результату: 3/5

Платформа Anthropic демонструє відмінні результати в певних областях, особливо в завданнях, які потребують великої обробки контексту та розуміння коду. Її простий інтерфейс приховує складні можливості, але поле «додаткові» інструкції може заплутати користувачів.

Наш агент є дуже обережним і розмитим у наданні порад, але демонструє гарне усвідомлення ризиків і стратегічне мислення. Йому потрібні більш обережні підказки, щоб справді реалізувати свій потенціал, але якщо тестування використовуватиме адаптивні підказки, це суперечитиме припущенню про подібні умови, тому це не буде справедливо.

5) Mistral AI (5/10)

Легкість налаштування: 2.5/5

Якість результату: 2.5/5

Ця французька платформа пропонує унікальні можливості навчання на основі прикладів і глибокі параметри налаштування. Однак її інтерфейс, орієнтований на розробників, і час від часу виникаючі мовні проблеми створюють перешкоди для нетехнічних користувачів. Також потрібно модифікувати конфігурацію агента, щоб адаптуватися до різних моделей, які виконують різні завдання, такі як аналіз зображень або обробка коду. Це не ідеально.

Фінансовий консультант продемонстрував потенціал у взаємодизайні, але зіткнувся з труднощами в базовій математичній перевірці, видаючи найгірші результати. Не можна сказати, що результати погані, але в нульових тестах це було найменш задовільно.

Глибокий аналіз

Враховуючи попередні рейтинги, немає єдиного універсального рішення, всі платформи мають свої переваги та недоліки. Завдяки деяким зосередженим та уважним підказкам результати можуть суттєво відрізнятися, навіть перевершуючи інші платформи. У підсумку всі мовні моделі (LLM) мають свої різні стилі підказок.

Якщо ви хочете дізнатися більше про причини нашого рейтингу, ось більш детальний аналіз нашого досвіду та результатів агентів. Ми налаштували всіх агентів на однакові системні підказки, без додаткових параметрів та функцій, і запитали їх одні й ті ж основні питання: «У мене є 25 тисяч доларів для інвестування і 30 тисяч боргу. Складіть для мене фінансовий план.»

OpenAI

Інтерфейс ChatGPT нещодавно було оновлено, що фактично ускладнило процес. Опції створення GPT зараз заховані в меню, але як тільки ви їх знайдете, вони пропонують два шляхи: один - діалогове налаштування, де AI допомагає створити вашого агента; інший - ручна конфігурація, яка підходить для тих, хто точно знає, чого хоче.

Платформа GPT від OpenAI є всебічним «швейцарським ножем» - вона може читати код, шукати в Інтернеті, обробляти зображення, генерувати та аналізувати. Процес налаштування, що ведеться AI, робить її особливо підходящою для новачків, хоча для просунутих користувачів, які потребують тонкого контролю, може здаватися обмеженою. (Наприклад, якщо ви попросите модель бути більш конкретною або детальною, вона може змінити всю системну підказку, що призведе до погіршення результатів.)

У реальному використанні агент ChatGPT є дуже прямолінійним, інтерфейс зрозумілий і легкий у використанні.

Ці агенти можуть в рідному режимі читати документи та розуміти зображення, що дає їм певну перевагу над іншими платформами.

Тепер поговоримо про якість агентів, які ви можете створити за допомогою базових підказок. Наш фінансовий консультант MoneyGPT продемонстрував нам магістерський курс структурованого вирішення проблем, показуючи досить вражаючі результати.

Крім його точного розподілу коштів - «$20,000 на високопроцентні борги» та детального розподілу портфелю - агент також демонструє складні фінансові міркування. Він пропонує п'ятиступеневу дорожню карту, яка є не просто списком, а узгодженою стратегією, що враховує короткострокові потреби та довгострокове планування.

Перевага цього агента полягає в його здатності балансувати деталі та контекст. Хоча він рекомендує конкретний портфель (40% інвестувати в S&P 500, 30% в облігації), він також пояснює причини рекомендацій: «Погашення високих відсотків кредитів схоже на отримання гарантованої інвестиційної прибутковості». Ця усвідомленість контексту поширюється на довгострокове планування, пропонуючи регулярно переглядати цикли та коригувати стратегію відповідно до змінних обставин.

Однак, ця інформаційна насиченість також виявляє потенційний недолік: може вразити користувача надмірною кількістю деталей за один раз. Хоча технічно це надзвичайно всеосяжно, швидке надання конкретних розподілів, інвестиційних стратегій і планів моніторингу може видатися фінансовим новачкам трохи лякаючим.

Google

В цілому, платформа створення агентів Google Gemini вирізняється естетикою, маючи витончений, інтуїтивний інтерфейс, що робить процес створення агента майже надто простим. Система буквально розуміє інструкції, що допомагає уникнути плутанини, а простий інтерфейс користувача усуває тягар розробки AI.

Однак, щоб отримати якісні результати, йому потрібні більш детальні підказки. Він не буде сприймати все за замовчуванням: короткі підказки дають низькоякісні відповіді.

У фоновому режимі вона має потужні можливості - інтеграцію веб-пошуку, підтримувану Google, аналіз коду та здатність обробки зображень, що порівняно з функціоналом ChatGPT, але більшість із них покладається на технології Microsoft.

Інтерфейс користувача Gemini виглядає так, ніби його розробляли люди, які дійсно розуміють досвід користувачів. Інтерфейс веде користувача через чіткі позначення, вся інформація може бути відображена на одному екрані.

Такий витончений підхід робить його особливо привабливим для новачків, хоча користувачі з досвідом можуть вважати, що йому не вистачає детального контролю.

Ми назвали нашого агента MoneyGem і попросили його надати фінансовий план. Його консультаційний підхід показав унікальний спосіб вирішення проблем Google. Він не давав пряму відповідь, а спочатку задавав питання, такі як: «Який це тип боргу?» та «Яка ваша процентна ставка?» — що свідчить про те, що він розуміє, що фінансові поради не є універсальними.

Він підкреслює збір контекстної інформації перед наданням рекомендацій, що відповідає професійній практиці фінансового планування, хоча це може розчарувати користувачів, які шукають швидкі відповіді.

Відповідь без прикладів не є корисною. Агент в основному заявляє, що не розуміє користувача і не може надати хороші фінансові поради. Після того, як його просять зробити припущення і змусити його надати план, який підходить для більшості сценаріїв, агент створив дуже обережний проект плану, але не надав конкретних інвестиційних порад.

Однак, MoneyGem в кінцевому підсумку дав пораду максимізувати податкові вигоди, такі як 401(k) або Roth IRA, щоб зменшити податковий тягар. Непогано.

Ви можете натиснути тут, щоб переглянути нашу взаємодію з MoneyGem, і через це посилання особисто протестувати цю модель.

Mistral AI

Процес налаштування агента Mistral є трохи складним, відійшовши від простоти. Інструмент створення агентів прихований в його консолі розробника, з глибокими параметрами налаштування, що може заплутати новачків, але порадує тих, хто любить експериментувати.

Інтерфейс побудови агента не є частиною LeChat (чату), але після завершення створення агента він з'явиться там.

Нам дуже сподобалося, що є можливість формувати поведінку агента та стиль відповіді за допомогою вхідних прикладів, чого поки немає на інших платформах. Проте тут є дивний баг: під час створення агента інтерфейс раптово переключився на французьку мову, можливо, через те, що компанія французька. Таким чином, ми не змогли переключитися назад на англійську або іспанську.

Щойно агент створено, користувач повинен викликати його в звичайному інтерфейсі чату, щоб використовувати. Користувачеві потрібно вийти з Le Plateforme і перейти в Le Chat, що не є найінтуїтивнішим способом. Однак використання інтерфейсу агента є досить прямим, відчувається, як у інших AI-чат-ботів.

Ми створили нашого агента і назвали його Le Money, вшановуючи французькі корені Mistral. Його результати чітко демонструють універсальний підхід Mistral до вирішення проблем. Він рекомендує «залишити 10,000 доларів як резервний фонд, 15,000 доларів для погашення боргів і 10,000 доларів для інвестицій», що, з одного боку, здається простим, але також свідчить про те, що агенту не вистачає базової математичної перевірки.

Загальна сума в 35,000 доларів перевищує доступні кошти на 10,000 доларів, що є основною помилкою, яку деякі мовні моделі можуть скоїти, коли пріоритетом є концептуальна правильність, а не числова точність.

Однак ми повинні зазначити, що найкращі LLM вже отримали великі покращення і такі помилки не виникають часто - принаймні не так часто, як у Mistral.

Крім того, план Le Money не є дуже детальним, але він є єдиним агентом, який пропонує подальші запитання, які можуть зробити взаємодію більш плавною і допомогти йому краще зрозуміти потреби користувача.

Повний план LeMoney можна переглянути тут, а агента можна протестувати тут.

Anthropic

Проект Claude виглядає не як платформа створення агентів, а більше як система виконання складних завдань. Інтерфейс простий, майже надто простий, і не дуже інтуїтивний.

Цей надзвичайно простий інтерфейс може заплутати деяких користувачів. Платформа пропонує базове налаштування і має «додаткове» поле інструкцій, що виглядає важливим і одночасно неважливим: якщо інструкція позначена як додаткова, то як AI-агент може знати, що він повинен робити?

Його надзвичайно простий інтерфейс виглядає дещо дивно, але Anthropic ніколи не славилася своїм дизайном UI. Те саме вікно, що використовується для налаштування моделі, також використовується для введення підказок. Його функціональність в основному зосереджена на інтерпретації текстового коду, без жодних інших можливостей. Веб-пошук, обробка зображень та генерація є функціями, які Anthropic залишає своїм конкурентам.

Наш агент, названий MoneyClaude, не може бути протестований публічно, оскільки Anthropic цього не дозволяє. Він займає дуже обережну позицію при наданні фінансових порад, хоча відповіді технічно точні, але зміст є дуже розмитим - наприклад, «зберігайте баланс між погашенням боргу та необхідними заощадженнями».

Він запитав більше інформації, але принаймні, без цієї інформації, надав дуже загальну стратегію без подальшої взаємодії, що, здавалося, є більш бажаним, ніж підхід Google.

Hugging Face

Ця відкрита платформа є унікальною, є раєм для просунутих користувачів - але також потенційним кошмаром для новачків. Вона є єдиною платформою, що дозволяє користувачам вибрати свою улюблену мовну модель, пропонуючи безпрецедентний контроль для визначення основи агента.

Крім того, користувачі можуть інтегрувати десятки різних інструментів у своїх агентів, але одночасно активувати лише три. Це обмеження змушує користувачів ретельно обмірковувати, які функції є найважливішими для кожного конкретного випадку, але це не може запропонувати жодна інша модель.

Це найпристосовніший досвід серед усіх інтерфейсів, з безліччю регульованих налаштувань. В результаті ця платформа може створювати більш потужних і професійних агентів, ніж конкуренти, але тільки в руках тих, хто повністю розуміє, як з ними працювати.

Користувачі можуть спробувати своїх агентів на HuggingChat - без сумніву, мрія для просунутих користувачів. Щойно агент створено, його використання дуже просте. Інтерфейс показує велику картку з назвою агента, описом і фотографією. Він також дозволяє користувачеві ділитися посиланням на агента та налаштовувати його параметри, і все це можна зробити прямо на картці.

Після тестування нашого агента HuggingMoney ми виявили, що його підхід до обробки часових рамок демонструє глибше розуміння психології фінансового планування. Він ділить планування на «короткострокове (0-24 місяці), середньострокове (24-60 місяців) та довгострокове (понад 60 місяців)», що відповідає професійній практиці фінансового планування.

Агент рекомендує «інвестувати $0-$5,000 в ліквідні, низькоризикові інструменти», одночасно підтримуючи щомісячні «платежі по боргам у розмірі $1,000-$1,500». Ця рекомендація на перший погляд демонструє детальне розуміння управління грошовими потоками.

Ще одна цікава особливість полягає в тому, що він поєднує утиліти з теоретичними порадами. Окрім рекомендації правил 50/30/20, він також пропонує конкретні програми для бюджету і підкреслює оптимізацію податків - будуючи міст між стратегічним плануванням та щоденним виконанням. Основний недолік? Він зробив припущення про процентні ставки по боргах без запиту підтвердження.

Щоб надати корисні поради, він надто легковажно робить багато припущень. Ця проблема, тобто імпульс надавати відповіді будь-якою ціною, може бути вирішена більш точними підказками, але це слід враховувати.