Autor oryginału: YBB Capital Researcher Zeke
1. Zaczyna się od zmieniającej się uwagi
W ciągu ostatniego roku, z powodu przerwy w narracji na poziomie aplikacji, niezdolnej do nadążania za eksplozją infrastruktury, obszar kryptowalut stopniowo stał się grą o zasoby uwagi. Od Silly Dragon do Goat, od Pump.fun do Clanker, zmienność uwagi prowadzi do wewnętrznej rywalizacji. Od najbardziej banalnych sposobów przyciągania uwagi, przez szybkie przejście do jednoczącego platformy modelu między popytem a podażą uwagi, aż po silikonowe byty stające się nowymi dostawcami treści. Wśród dziwacznych nośników Meme Coin ostatecznie pojawiła się forma, która pozwala na osiągnięcie konsensusu pomiędzy detalistami a VC: AI Agent.
Uwaga jest ostatecznie grą o sumie zerowej, ale spekulacja rzeczywiście może sprzyjać dzikiemu wzrostowi. W artykule o UNI wspomnieliśmy o początku złotej ery blockchaina, przyczyny szybkiego wzrostu DeFi wynikają z epoki wydobywania LP, którą rozpoczęło Compound Finance. Szybkie przechodzenie przez tysiące różnych pul wydobywczych na Apy było najbardziej pierwotnym sposobem gry na łańcuchu w tamtym okresie, chociaż ostateczna sytuacja zakończyła się upadkiem różnych pul, pozostawiając chaos. Jednakże szaleńcze napływy górników złota rzeczywiście pozostawiły blockchain z niespotykaną dotąd płynnością, a DeFi ostatecznie wydostało się z czystej spekulacji, tworząc dojrzały tor, który zaspokaja potrzeby finansowe użytkowników w zakresie płatności, handlu, arbitrażu, stakowania i innych. AI Agent również przechodzi przez ten dziki etap, a my eksplorujemy, jak Crypto może lepiej zintegrować się z AI, a ostatecznie doprowadzić do osiągnięcia nowego szczytu na poziomie aplikacji.
2. Jak agenci działają autonomicznie
W poprzednim artykule krótko przedstawiliśmy pochodzenie AI Meme: Truth Terminal oraz wizje przyszłości AI Agenta, a ten artykuł koncentruje się przede wszystkim na samym AI Agencie.
Najpierw zacznijmy od definicji AI Agenta. Agent w dziedzinie AI jest stosunkowo starym, ale niejasnym terminem, który głównie podkreśla autonomię, co oznacza, że każdy AI, który potrafi postrzegać otoczenie i podejmować na nie reakcje, może być nazywany Agentem. W obecnych definicjach AI Agent jest bardziej zbliżony do inteligentnego bytu, co oznacza, że przypisuje się dużemu modelowi zestaw systemów naśladujących ludzkie decyzje. W akademickim świecie ten system jest postrzegany jako najbardziej obiecująca droga do AGI (ogólnej inteligencji sztucznej).
W wczesnych wersjach GPT mogliśmy wyraźnie dostrzec, że duże modele przypominają ludzi, ale podczas odpowiadania na wiele złożonych pytań duże modele mogły jedynie dać jakieś nieprzekonywujące odpowiedzi. Prawdziwym powodem była oparta na prawdopodobieństwie natura dużych modeli, a także ich brak zdolności do korzystania z narzędzi, pamięci, planowania itp., które posiadają ludzie, a AI Agent może zrekompensować te braki. Dlatego można to podsumować równaniem: AI Agent (inteligentny byt) = LLM (duży model) + Planowanie + Pamięć + Narzędzia.
Modele dużych modeli oparte na podpowiedziach (Prompt) są bardziej jak statyczna osoba, ożywają dopiero wtedy, gdy wprowadzamy dane, celem agenta jest bycie bardziej realistyczną osobą. Obecnie w branży główne agenty opierają się na dostosowanych modelach Meta open-source Llama 70b lub 405b (które różnią się parametrami), które mają zdolność pamięci oraz możliwości korzystania z narzędzi API. W innych aspektach mogą wymagać pomocy lub wejścia od ludzi (w tym współpracy z innymi agentami), dlatego widzimy, że obecnie główne agenty w branży wciąż istnieją w formie KOL w sieciach społecznościowych. Aby uczynić agenta bardziej ludzkim, potrzebna jest zdolność planowania i działania, a kluczowym elementem w planowaniu jest łańcuch myślenia.
3. Łańcuch myślenia (Chain of Thought, CoT)
Koncepcja łańcucha myślenia (Chain of Thought, CoT) pojawiła się po raz pierwszy w 2022 roku w artykule opublikowanym przez Google (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), w którym wskazano, że generowanie serii pośrednich kroków rozumowania może zwiększyć zdolności wnioskowania modelu, pomagając mu lepiej zrozumieć i rozwiązywać złożone problemy.
Typowy CoT Prompt zawiera trzy części: jednoznaczny opis zadania, logiczne podstawy wspierające rozwiązanie zadania oraz konkretne przykłady rozwiązań. Taka strukturalna forma pomaga modelowi zrozumieć wymagania zadania, stopniowo zbliżając się do odpowiedzi poprzez logiczne rozumowanie, co zwiększa efektywność i dokładność rozwiązywania problemów. CoT szczególnie nadaje się do zadań wymagających głębokiej analizy i wieloetapowego wnioskowania, takich jak rozwiązywanie problemów matematycznych czy pisanie raportów projektowych. W przypadku prostych zadań, CoT może nie przynieść wyraźnych korzyści, ale w przypadku złożonych zadań, może znacząco poprawić wydajność modelu, redukując wskaźnik błędów dzięki strategii rozwiązywania krok po kroku, poprawiając jakość wykonania zadań.
Podczas budowy AI Agenta, CoT odgrywa kluczową rolę, AI Agent musi zrozumieć otrzymane informacje i na tej podstawie podejmować rozsądne decyzje. CoT, poprzez dostarczanie uporządkowanego sposobu myślenia, pomaga Agentowi efektywnie przetwarzać i analizować informacje wejściowe, przekształcając wyniki analizy w konkretne wytyczne działania. Ta metoda nie tylko zwiększa niezawodność i efektywność decyzji Agenta, ale także poprawia przejrzystość procesu decyzyjnego, czyniąc działania Agenta bardziej przewidywalnymi i możliwymi do śledzenia. CoT, dzieląc zadania na wiele małych kroków, pomaga Agentowi dokładnie rozważyć każdy punkt decyzyjny, redukując błędne decyzje spowodowane przeciążeniem informacyjnym. CoT sprawia, że proces decyzyjny Agenta staje się bardziej przejrzysty, a użytkownicy łatwiej rozumieją podstawy decyzji Agenta. W interakcji z otoczeniem, CoT pozwala Agentowi na ciągłe uczenie się nowych informacji i dostosowywanie strategii działania.
CoT jako skuteczna strategia nie tylko zwiększa zdolności wnioskowania dużych modeli językowych, ale także odgrywa ważną rolę w budowaniu inteligentniejszych i bardziej niezawodnych AI Agentów. Dzięki wykorzystaniu CoT, badacze i deweloperzy mogą tworzyć bardziej dostosowane do złożonych warunków systemy inteligentne, o wysokiej autonomii. CoT w praktyce pokazuje swoje unikalne zalety, szczególnie przy rozwiązywaniu złożonych zadań. Dzieląc zadania na szereg małych kroków, nie tylko zwiększa dokładność rozwiązywania zadań, ale także poprawia interpretowalność i kontrolowalność modelu. Taka metoda stopniowego rozwiązywania problemów może znacznie zmniejszyć błędy w obliczu złożonych zadań, spowodowanych nadmiarem lub złożonością informacji. Równocześnie poprawia to śledzenie i weryfikowalność całego rozwiązania.
Kernową funkcją CoT jest połączenie planowania, działania i obserwacji, co umożliwia zlikwidowanie luki między wnioskowaniem a działaniem. Taki sposób myślenia pozwala AI Agentowi na opracowywanie skutecznych strategii w przewidywaniu możliwych wyjątkowych sytuacji oraz na gromadzenie nowych informacji w interakcji z zewnętrznym środowiskiem, weryfikowanie wcześniej ustalonych prognoz i dostarczanie nowych podstaw do wnioskowania. CoT jest jak potężny silnik precyzji i stabilności, pomagający AI Agentowi utrzymać wysoką efektywność w złożonym środowisku.
4. Prawidłowe fałszywe potrzeby
Z jakimi aspektami stosu technologii AI kryptowaluty powinny się łączyć? W artykule z zeszłego roku uważałem, że decentralizacja mocy obliczeniowej i danych jest kluczowym krokiem w oszczędzaniu kosztów dla małych przedsiębiorstw i indywidualnych deweloperów, a w tym roku w podziale Crypto x AI przygotowanym przez Coinbase, zobaczyliśmy bardziej szczegółowe podziały:
(1) Warstwa obliczeniowa (odnosząca się do sieci skoncentrowanej na dostarczaniu zasobów GPU dla deweloperów AI);
(2) Warstwa danych (odnosząca się do sieci wspierających zdecentralizowany dostęp, orkiestrację i weryfikację danych AI);
(3) Warstwa pośrednia (odnosząca się do platform lub sieci wspierających rozwój, wdrażanie i hostowanie modeli AI lub agentów);
(4) Warstwa aplikacji (odnosząca się do produktów skierowanych do użytkowników, które wykorzystują mechanizmy AI na łańcuchu, niezależnie od tego, czy są to B2B, czy B2C).
W tych czterech warstwach każdy poziom ma wielkie wizje, które mają na celu przeciwstawienie się dominacji gigantów z Doliny Krzemowej w nowej erze internetu. Jak już powiedziałem w zeszłym roku, czy naprawdę musimy zaakceptować, że giganci z Doliny Krzemowej mają wyłączną kontrolę nad mocą obliczeniową i danymi? W ich monopolach zamknięte duże modele są czarną skrzynką, a nauka, jako najbardziej wierna religia ludzkości, sprawia, że każda odpowiedź dużego modelu w przyszłości będzie postrzegana przez dużą część ludzi jako prawda, ale jak tę prawdę zweryfikować? Zgodnie z wizją gigantów z Doliny Krzemowej, uprawnienia, które agenci ostatecznie posiadają, przekroczą wszelkie wyobrażenia, na przykład posiadanie praw do płatności z twojego portfela, prawa do korzystania z terminalu, jak zapewnić, że ludzie nie mają złych intencji?
Decentralizacja jest jedyną odpowiedzią, ale czasami musimy rozważyć, ilu jest płatników za te wielkie wizje? W przeszłości mogliśmy zignorować zamknięty krąg komercyjny, aby zrekompensować błędy wynikające z idealizacji przez Tokeny. Obecna sytuacja jest jednak bardzo poważna, Crypto x AI musi być projektowane z uwzględnieniem rzeczywistości, na przykład, jak zrównoważyć obie strony w warstwie mocy obliczeniowej, gdy jest ona niestabilna i traci na wydajności? Aby osiągnąć konkurencyjność z centralizowanymi chmurami. Ile prawdziwych użytkowników będzie miało projekty w warstwie danych, jak zweryfikować rzeczywistą skuteczność danych, które są dostarczane, i jakich klientów potrzebują te dane? Pozostałe poziomy są podobne, w tej erze nie potrzebujemy tylu pozornie poprawnych fałszywych potrzeb.
5. Meme otworzyło SocialFi
Jak już wspomniałem w pierwszym akapicie, Meme w szybkim tempie przeszedł do formy SocialFi pasującej do Web3. Friend.tech to pierwszy Dapp, który rozpoczął tę rundę aplikacji społecznościowych, ale niestety upadł z powodu zbyt ambitnego projektu Tokena. Pump.fun potwierdziło wykonalność czysto platformowego modelu, nie tworząc żadnego Tokena, nie wprowadzając żadnych zasad. Popyt i podaż uwagi są zintegrowane na platformie, można tam tworzyć memy, prowadzić transmisje na żywo, emitować monety, komentować, handlować, wszystko jest wolne, a Pump.fun pobiera tylko opłatę za usługi. To jest zasadniczo zgodne z obecnym modelem gospodarki uwagi w mediach społecznościowych takich jak YouTube i Instagram, tylko że różni się podmiotem opłat, a w zabawie Pump.fun jest bardziej Web3.
Base Clanker to wszechstronny twór, korzystający z całkowicie zintegrowanego ekosystemu, który został stworzony przez ekosystem. Base ma własną aplikację Dapp jako wsparcie, tworząc pełen zamknięty krąg. Agent Meme to forma Meme Coin 2.0, ludzie zawsze szukają nowości, a obecnie Pump.fun znajduje się na czołowej pozycji, z perspektywy trendów, zastąpienie niskich memów węglowych przez silikonowe myślenie to tylko kwestia czasu.
Już wiele razy wspominałem o Base, jednak za każdym razem omawiane treści są inne. Z perspektywy czasowej Base nigdy nie był pionierem, ale zawsze był zwycięzcą.
6. Czym jeszcze mogą być agenci?
Z pragmatycznego punktu widzenia, agenci nie mogą być zdecentralizowani przez długi czas w przyszłości. Z perspektywy tradycyjnego budowania agentów w dziedzinie AI, nie można tego rozwiązać za pomocą prostego procesu wnioskowania z decentralizacją i otwartym kodem. Musi to być połączone z różnymi API, aby uzyskać dostęp do treści Web2. Koszt uruchomienia jest bardzo wysoki, a projektowanie łańcucha myślenia oraz współpraca wielu agentów zazwyczaj wymaga jednego człowieka jako pośrednika. Przechodzimy przez długi okres przejściowy, aż pojawi się odpowiednia forma integracji, być może tak jak UNI. Ale podobnie jak w poprzednim artykule, wciąż uważam, że agenci będą miały ogromny wpływ na naszą branżę, podobnie jak obecność Cex w naszej branży - niepoprawne, ale bardzo ważne.
Artykuł opublikowany przez Stanford Microsoft w zeszłym miesiącu (Przegląd AI Agenta) opisuje szeroko zastosowanie agentów w branży medycznej, inteligentnych maszynach i wirtualnych światach, a w dodatku tego artykułu znajduje się wiele przypadków testowych z udziałem GPT-4 V jako agenta w rozwijaniu gier AAA.
Nie należy zbyt mocno nalegać na szybkość integracji z decentralizacją; bardziej zależy mi, aby agenci najpierw dopełnili układankę, jaką jest umiejętność i szybkość od dołu do góry. Mamy tak wiele narracyjnych ruin i pustych metawersów, które potrzebują ich wypełnienia, a na odpowiednim etapie rozważymy, jak przekształcić je w kolejnego UNI.
Materiały referencyjne
Jaką zdolnością jest łańcuch myślenia (CoT) w kontekście „wyłaniania się” dużych modeli? Autor: Naoji Ti
Zrozumienie Agenta w jednym artykule, następny przystanek dużego modelu. Autor: LinguaMind