Autor: YBB Capital Researcher Zeke
Jedno, zaczynając od uwagi, nowość i nuda
W ciągu ostatniego roku, z powodu przerwy w narracji warstwy aplikacji, nie mogły zaspokoić prędkości rozwoju infrastruktury, obszar kryptograficzny stopniowo przekształcił się w grę o zasoby uwagi. Od Silly Dragon do Goat, od Pump.fun do Clanker, nowość i nuda w uwadze sprawiły, że ta walka stała się wewnętrznie konkurencyjna. Z najbanalniejszym sposobem przyciągania uwagi, szybko przekształciła się w model platformy, w którym łączą się poszukiwacze i dostawcy uwagi, aż do momentu, gdy biologia krzemowa stała się nowym dostawcą treści. W różnorodnych nośnikach Meme Coin w końcu pojawił się byt, który pozwala małym inwestorom i VC osiągnąć konsensus: AI Agent.
Uwaga jest ostatecznie grą o sumie zerowej, chociaż spekulacja może rzeczywiście sprzyjać dzikiemu wzrostowi. W artykule o UNI wspomnieliśmy o początkach złotej ery blockchaina, źródłem szybkiego wzrostu DeFi było rozpoczęcie epoki LP mining przez Compound Finance, szybkie wejście i wyjście z różnych basenów o APY w tysiącach, a nawet dziesiątkach tysięcy, było najpierwotniejszym sposobem gry w łańcuchu w tamtym okresie, chociaż ostateczny wynik to upadek różnych basenów. Jednak szalony napływ górników złota rzeczywiście pozostawił blockchainowi dotąd niespotykaną płynność, a DeFi ostatecznie wydostało się z czysto spekulacyjnej formy, tworząc dojrzały tor, zaspokajając potrzeby finansowe użytkowników w zakresie płatności, handlu, arbitrażu, stakowania i innych. Obecnie agent AI przechodzi również przez ten dziki okres, szukamy jak Crypto może lepiej łączyć się z AI, a ostatecznie wprowadzić warstwę aplikacji na nowe wyżyny.
Dwa, jak agenci działają autonomicznie
W poprzednim artykule krótko przedstawiliśmy pochodzenie AI Meme: Truth Terminal oraz wizje przyszłości AI Agenta, w tym artykule skupiamy się najpierw na samym AI Agencie.
Zacznijmy od definicji AI Agenta, agent w dziedzinie AI jest stosunkowo starym, ale nieprecyzyjnie zdefiniowanym terminem, który głównie podkreśla autonomię (Autonomous), czyli każdą AI, która może postrzegać otoczenie i reagować na nie, można nazwać agentem. W obecnej definicji agent AI jest bliższy inteligentnym agentom, to znaczy, że dla dużych modeli ustalamy system naśladujący ludzkie decyzje, w świecie akademickim ten system uważany jest za najobiecującą drogę do AGI (sztucznej inteligencji ogólnej).
W wczesnych wersjach GPT wyraźnie odczuwaliśmy, że duży model przypomina człowieka, ale w odpowiedziach na wiele złożonych pytań model ten mógł jedynie podać kilka częściowo poprawnych odpowiedzi. Istotną przyczyną jest to, że ówczesny duży model opierał się na prawdopodobieństwie, a nie na przyczynie. Ponadto brakowało mu zdolności posługiwania się narzędziami, pamięci, planowania, które ma człowiek, a agent AI może te braki uzupełnić. Dlatego można to podsumować jednym wzorem: AI Agent (inteligentny agent) = LLM (duży model) + Planowanie + Pamięć + Narzędzia.
Modele dużych języków oparte na podpowiedziach (Prompt) są bardziej statyczne jak człowiek, ożywają dopiero podczas naszego wprowadzania. Cele agenta to bardziej realistyczny człowiek. Obecnie agenci w branży są głównie oparte na dostosowanych modelach Llama 70b lub 405b, opracowanych przez Meta (z różnymi parametrami), mają zdolność pamięci i korzystania z API, w innych aspektach mogą wymagać pomocy lub wkładu od ludzi (w tym współpracy z innymi agentami), dlatego widać, że obecnie główne inteligentne agenty istnieją w formie KOL w sieciach społecznościowych. Aby uczynić agenta bardziej ludzkim, potrzebna jest zdolność planowania i działania, a podtemat łańcucha myślenia w planowaniu jest szczególnie kluczowy.
Trzy, łańcuch myślenia (Chain of Thought, CoT)
Koncepcja łańcucha myślenia (Chain of Thought, CoT) pojawiła się po raz pierwszy w publikacji Google z 2022 roku (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), w której stwierdzono, że można zwiększyć zdolności rozumowania modelu poprzez generowanie szeregu pośrednich kroków rozumowania, co pomaga modelowi lepiej zrozumieć i rozwiązywać złożone problemy.
Typowy prompt CoT składa się z trzech części: wyraźny opis zadania, logika uzasadniająca rozwiązanie zadania, teoretyczna podstawa lub zasada, przykład konkretnego rozwiązania. Taka strukturalna metoda pomaga modelowi zrozumieć wymagania zadania, stopniowo zbliżając się do odpowiedzi poprzez logiczne rozumowanie, co zwiększa efektywność i dokładność rozwiązywania problemów. CoT jest szczególnie odpowiedni do zadań wymagających głębokiej analizy i wielostopniowego rozumowania, takich jak rozwiązywanie problemów matematycznych, pisanie raportów projektowych. W prostych zadaniach CoT może nie przynieść widocznych korzyści, ale w przypadku złożonych zadań, znacznie poprawia wydajność modelu, zmniejszając wskaźnik błędów poprzez strategię rozwiązywania krok po kroku, poprawiając jakość wykonania zadań.
Podczas budowania AI Agenta, CoT odgrywa kluczową rolę, agent AI musi rozumieć otrzymane informacje i podejmować na ich podstawie rozsądne decyzje, CoT poprzez dostarczanie uporządkowanego sposobu myślenia, pomaga agentowi skutecznie przetwarzać i analizować dane wejściowe, przekształcając wyniki analizy w konkretne wytyczne dotyczące działania. Ta metoda nie tylko zwiększa niezawodność i efektywność decyzji agenta, ale także poprawia przejrzystość procesu decyzyjnego, sprawiając, że zachowanie agenta staje się bardziej przewidywalne i śledzone. CoT, dzieląc zadania na wiele małych kroków, pomaga agentowi dokładnie rozważyć każdy punkt decyzyjny, zmniejszając błędne decyzje spowodowane przeciążeniem informacyjnym. CoT czyni proces decyzyjny agenta bardziej przejrzystym, co ułatwia użytkownikom zrozumienie podstaw decyzji agenta. W interakcji z otoczeniem, CoT pozwala agentowi nieustannie uczyć się nowych informacji i dostosowywać strategię działania.
CoT jako skuteczna strategia nie tylko zwiększa zdolności rozumowania dużych modeli językowych, ale także odgrywa ważną rolę w budowaniu bardziej inteligentnych, niezawodnych agentów AI. Dzięki wykorzystaniu CoT, badacze i deweloperzy są w stanie stworzyć bardziej dostosowane do złożonych środowisk, wysoce autonomiczne inteligentne systemy. CoT w praktyce pokazuje swoje unikalne zalety, zwłaszcza w przypadku złożonych zadań, poprzez dzielenie zadań na szereg małych kroków, nie tylko zwiększa dokładność rozwiązywania zadań, ale także poprawia interpretowalność i kontrolowalność modelu. Ta metoda stopniowego rozwiązywania problemów może znacznie zmniejszyć wskaźnik błędów w obliczu złożonych zadań z powodu nadmiaru lub złożoności informacji. Jednocześnie ta metoda zwiększa również śledzenie i weryfikowalność całego rozwiązania.
Główna funkcja CoT polega na łączeniu planowania, działania i obserwacji, aby zniwelować lukę między rozumowaniem a działaniem. Taki sposób myślenia pozwala agentowi AI na opracowanie skutecznych strategii w przewidywaniu możliwych nieoczekiwanych sytuacji oraz na gromadzenie nowych informacji w interakcji z otoczeniem, weryfikując wcześniej ustalone prognozy i dostarczając nowe podstawy do rozumowania. CoT działa jak potężny silnik precyzyjności i stabilności, pomagając agentowi AI utrzymać wysoką wydajność pracy w złożonym środowisku.
Czwarty, prawidłowe fałszywe potrzeby
Jakie aspekty technologii AI powinny być połączone z Crypto? W zeszłorocznym artykule wskazałem, że decentralizacja mocy obliczeniowej i danych jest kluczowym krokiem dla małych przedsiębiorstw i deweloperów w oszczędzaniu kosztów, a w tym roku w zorganizowanym przez Coinbase podziale Crypto x AI widzimy bardziej szczegółowe rozróżnienie:
(1) Warstwa obliczeniowa (dotyczy sieci skoncentrowanej na dostarczaniu zasobów GPU dla deweloperów AI);
(2) Warstwa danych (dotyczy sieci wspierających zdecentralizowany dostęp, organizację i weryfikację danych AI);
(3) Warstwa middleware (dotyczy platform lub sieci wspierających rozwój, wdrażanie i hosting modeli AI lub agentów);
(4) Warstwa aplikacji (dotyczy produktów skierowanych do użytkowników, wykorzystujących mechanizmy AI w łańcuchu, niezależnie od tego, czy są to B2B, czy B2C).
W tych czterech warstwach każdy poziom ma wielkie wizje, których celem jest podjęcie walki z dominacją wielkich korporacji Silicon Valley w przyszłym internecie. Jak powiedziałem w zeszłym roku, czy naprawdę musimy zaakceptować, że giganci z Doliny Krzemowej mają wyłączną kontrolę nad mocą obliczeniową i danymi? W ich monopolizowanym, zamkniętym dużym modelu, jego wnętrze jest czarną skrzynką, a nauka, jako najważniejsza religia ludzkości, w przyszłości każde zdanie odpowiedziane przez duży model będzie postrzegane jako prawda przez dużą część ludzi, ale jak tę prawdę weryfikować? Zgodnie z wizją gigantów Doliny Krzemowej, ostateczne uprawnienia, które będzie miała agent, będą nie do pomyślenia, na przykład prawo do płatności z twojego portfela, prawo do korzystania z terminala, jak zapewnić, że człowiek nie ma złych zamiarów?
Decentralizacja to jedyna odpowiedź, ale czasami musimy rozsądnie rozważyć, ile jest płatników za te wielkie wizje? W przeszłości mogliśmy nie brać pod uwagę komercyjnego zamkniętego kręgu, aby za pomocą Tokena zrekompensować błędy wynikające z idealizacji. Obecna sytuacja jest jednak bardzo poważna, Crypto x AI wymaga połączenia z rzeczywistością w projektowaniu, na przykład, jak zrównoważyć dostarczanie mocy obliczeniowej w obliczu strat wydajności i niestabilności? Aby uzyskać konkurencyjność w centralizowanych chmurach. Ile prawdziwych użytkowników będzie mieć projekt w warstwie danych, jak sprawdzić prawdziwość i skuteczność dostarczanych danych, a jakie są potrzeby klientów korzystających z tych danych? Reszta drugich warstw jest podobna, w tej erze nie potrzebujemy tak wielu pozornie poprawnych fałszywych potrzeb.
Pięć, Meme uciekło do SocialFi
Jak już wspomniałem w pierwszym akapicie, Meme w niezwykle szybki sposób wkracza w formę SocialFi zgodną z Web3. Friend.tech to Dapp, który wystrzelił pierwszą strzałę w tej rundzie aplikacji społecznościowych, ale niestety przegrał z powodu zbyt pośpiesznego projektu tokena. Pump.fun udowodnił wykonalność czysto platformową, nie tworząc żadnego tokena, nie ustalając żadnych reguł. Poszukiwacze i dostawcy uwagi zjednoczeni, można na platformie publikować memy, prowadzić transmisje na żywo, emitować tokeny, zostawiać wiadomości, handlować, wszystko jest wolne, Pump.fun pobiera jedynie opłatę serwisową. To jest zasadniczo zgodne z obecnym modelem gospodarki uwagi w serwisach społecznościowych jak YouTube, Ins, tylko różni się obiektami opłat, w rozgrywce Pump.fun jest bardziej Web3.
Clanker Base to kolekcjonerski, korzystający z kompleksowej ekologii, Base ma własne Dapp społecznościowe jako wsparcie, tworząc kompletny wewnętrzny krąg. Meme agenta to forma 2.0 Meme Coin, ludzie zawsze dążą do nowości, a Pump.fun znajduje się obecnie w centrum uwagi, z perspektywy trendu, zastąpienie niskiej jakości żartów biologii węgla przez biologię krzemową to tylko kwestia czasu.
Już po raz niezliczony wspomniałem o Base, tylko za każdym razem na inny temat, z perspektywy czasowej Base nigdy nie był pionierem, ale zawsze był zwycięzcą.
Szósty, czym jeszcze może być agent?
Z pragmatycznego punktu widzenia, agenci w przyszłości przez długi czas nie będą mogli być zdecentralizowani, z tradycyjnego punktu widzenia budowy agentów AI, nie jest to problem, który można rozwiązać przez proste procesy rozumowania, decentralizację i open source, potrzebuje dostępu do różnych API, aby uzyskać dostęp do treści Web2, jego koszty operacyjne są bardzo wysokie, projektowanie łańcucha myślenia i współpraca wielu agentów wciąż polega na jednym człowieku jako pośredniku. Przeżyjemy długi okres przejściowy, dopóki nie pojawi się odpowiednia forma fuzji, może tak jak UNI. Ale jak w poprzednim artykule, nadal uważam, że agenci będą miały ogromny wpływ na naszą branżę, podobnie jak obecność Cex w naszej branży, niewłaściwe, ale bardzo ważne.
Artykuł wydany przez Stanford i Microsoft w zeszłym miesiącu (Przegląd AI Agentów) opisuje zastosowanie agentów w medycynie, inteligentnych maszynach, wirtualnym świecie, a w załączniku tego artykułu znajduje się wiele przypadków eksperymentalnych, w których GPT-4V uczestniczy jako agent w rozwoju czołowych gier 3A.
Nie musimy zbyt mocno naciskać na tempo łączenia tego z decentralizacją, wolałbym, aby najpierw uzupełnił układankę umiejętnością i prędkością od dołu do góry, mamy tyle narracyjnych ruin i pustych metawersów, które potrzebują jego wypełnienia, na odpowiednim etapie rozważymy, jak uczynić go następnym UNI.
Źródła
Jaką zdolnością jest łańcuch myślenia "emergentny" dużych modeli? Autor: Mózg ekstremalny
Zrozumienie Agenta w jednym artykule, następny przystanek dużych modeli. Autor: LinguaMind