Breaking down AI data barriers: Data DAO is the right time

金色财经 · 2024-06-18T07:23:06.000Z
Author: Li Jin, Partner at Variant Fund; Translation: Jinse Finance xiaozou Recent high-profile data licensing deals, such as those between OpenAI and News Corp and Reddit, have highlighted the need for high-quality data for artificial intelligence (AI). Cutting-edge large models have been trained on much of the Internet—for example, Common Crawl indexes about 10% of the web for LLM training, containing more than 100 trillion tokens. One way to further improve AI models is to expand and enhance the data they can use to train. We have been discussing mechanisms for aggregating data — especially in a decentralized way. We are particularly interested in exploring how decentralized approaches can help generate new datasets and provide economic rewards to contributors and creators.
Autor: Li Jin, partner funduszu Variant Tłumaczenie: Golden Finance xiaozou;
Niedawne głośne umowy licencyjne na dane, takie jak te zawarte pomiędzy OpenAI a News Corp i Reddit, uwypukliły zapotrzebowanie na wysokiej jakości dane na potrzeby sztucznej inteligencji (AI). Najnowocześniejsze, duże modele zostały przeszkolone w większości Internetu - na przykład Common Crawl indeksuje około 10% stron internetowych do celów szkolenia LLM, zawierających ponad 100 bilionów tokenów.
Jednym ze sposobów dalszego ulepszania modeli sztucznej inteligencji jest rozszerzanie i ulepszanie danych, które można wykorzystać do celów szkoleniowych. Omawialiśmy mechanizmy agregacji danych – szczególnie w sposób zdecentralizowany. Jesteśmy szczególnie zainteresowani zbadaniem, w jaki sposób zdecentralizowane podejścia mogą pomóc w generowaniu nowych zbiorów danych i zapewnianiu nagród finansowych współautorom i twórcom.
Jednym z tematów dyskusji w dziedzinie szyfrowania w ostatnich latach była koncepcja danych DAO, czyli grupy osób, które tworzą, organizują i zarządzają danymi. Temat ten był poruszany m.in. przez Multicoin i inne, jednak szybki rozwój sztucznej inteligencji zrodził nowe pytanie dotyczące danych DAO – „Dlaczego teraz jest na to odpowiedni czas?”
W tym artykule podzielimy się naszymi przemyśleniami na temat data DAO, aby odpowiedzieć na pytanie: W jaki sposób dane DAO mogą przyspieszyć rozwój sztucznej inteligencji?
1. Aktualny stan danych w polu AI
Obecnie modele sztucznej inteligencji są szkolone na danych publicznych w ramach współpracy takiej jak News Corp i Reddit lub poprzez gromadzenie danych w otwartym Internecie. Na przykład Lama 3 firmy Meta została przeszkolona przy użyciu 15 bilionów tokenów ze źródeł publicznych. Metody te skutecznie umożliwiają szybkie agregowanie dużych ilości danych, ale mają ograniczenia dotyczące rodzaju i sposobu gromadzenia danych.
Po pierwsze, jakiego rodzaju wpływy należy gromadzić: rozwój sztucznej inteligencji jest utrudniony przez jakość i ilość danych. Leopold Aschenbrenner napisał kiedyś o „ścianie danych”, która ogranicza dalsze ulepszenia algorytmów: „Wkrótce naiwne podejście polegające na wstępnym szkoleniu większych modeli językowych na większej liczbie zeskrobanych danych może zacząć napotykać poważne wąskie gardła”.
Jednym ze sposobów burzenia murów danych jest udostępnienie nowych zbiorów danych. Na przykład firmy modelowe nie mogą pobierać danych logowania bez naruszania warunków korzystania z większości witryn internetowych i z definicji nie mogą uzyskać dostępu do danych, które nie zostały zebrane. Obecnie istnieje duża ilość prywatnych danych, do których nie można uzyskać dostępu poprzez szkolenie AI: firmy takie jak Google Drive i Slacks, dane dotyczące zdrowia osobistego lub informacje prywatne.
Po drugie, jak gromadzić wpływy: w obecnym modelu firmy gromadzące dane przejmują większość wartości. Reddit S-1 wymienia licencjonowanie danych jako główne oczekiwane źródło przychodów: „Spodziewamy się, że nasza rosnąca przewaga danych i własność intelektualna będą w dalszym ciągu kluczowym elementem szkoleń LLM w przyszłości. Użytkownicy końcowi, którzy generują rzeczywistą treść, nie będą tego robić”. czerpać żadnych korzyści z tych licencji Z protokołu ani samego modelu sztucznej inteligencji nie wynikają żadne korzyści ekonomiczne. Ta rozbieżność może stłumić uczestnictwo – już istnieją ruchy, które pozują firmy zajmujące się generatywną sztuczną inteligencją lub rezygnują z zestawów danych szkoleniowych. Nie wspominając już o społeczno-ekonomicznych skutkach koncentracji przychodów w rękach modelowych firm lub platform bez przekazywania ich użytkownikom końcowym.
2. Efekt DAO danych
Powyższe problemy z danymi mają wspólny wątek: korzystają z dużego wkładu zróżnicowanej, reprezentatywnej próby użytkowników. Wartość pojedynczego punktu danych dla wydajności modelu może być znikoma, ale łącznie duża grupa użytkowników może agregować nowe zestawy danych, które są cenne dla szkolenia AI. W tym miejscu pojawia się koncepcja danych DAO. Dzięki DAO danych dostawcy danych mogą czerpać korzyści ekonomiczne poprzez dostarczanie danych oraz zarządzać sposobem ich wykorzystania i monetyzacji.
W jakich aspektach dane DAO mogą wnieść wkład w bieżące pole danych? Oto kilka pomysłów – pamiętaj, że nie jest to lista wyczerpująca i z pewnością istnieją inne możliwości dla DAO danych:
(1) Dane ze świata rzeczywistego
W dziedzinie zdecentralizowanej infrastruktury fizycznej (DEPIN) sieci takie jak Hivemapper mają na celu gromadzenie aktualnych danych map globalnych z całego świata, zachęcając właścicieli kamer samochodowych do udostępniania swoich danych oraz zachęcając użytkowników do wnoszenia wkładu za pośrednictwem swoich aplikacji. (takie jak dane o zamknięciach dróg lub naprawach). DEPIN można traktować jako DAO danych ze świata rzeczywistego, w którym zestawy danych są generowane z sieci urządzeń sprzętowych i/lub użytkowników. Dane te mają wartość komercyjną dla wielu firm, a przychody zostaną zwrócone współautorom w postaci symbolicznych nagród.
(2) Dane dotyczące zdrowia osobistego
Biohacking to ruch społeczny, w ramach którego jednostki i społeczności przyjmują metody „zrób to sam” w celu studiowania biologii, często przeprowadzając na sobie eksperymenty. Na przykład osoba może zażywać różne leki nootropowe w celu poprawy wydajności mózgu lub testować różne metody leczenia lub zmiany środowiskowe w celu poprawy snu, a nawet wstrzyknąć sobie leki eksperymentalne.
DAO danych mogą stanowić zachętę do wysiłków związanych z biohakowaniem, organizując uczestników wokół wspólnych eksperymentów i systematycznie zbierając wyniki. Dochody uzyskiwane przez te DAO zajmujące się zdrowiem osobistym, na przykład z laboratoriów badawczych lub firm farmaceutycznych, mogą wrócić do uczestników, którzy przekazują wyniki w postaci własnych danych osobowych na temat zdrowia.
(3) Korzystaj z informacji zwrotnych od ludzi, aby usprawnić proces uczenia się
Dostrajanie modeli AI za pomocą RLHF (Reinforcement Learning with Human Feedback) polega na wykorzystaniu wkładu człowieka w celu poprawy wydajności systemu AI. Zazwyczaj od dostawców informacji zwrotnych oczekuje się, że będą ekspertami w swoich dziedzinach, którzy będą w stanie skutecznie ocenić wyniki modelu. Na przykład laboratorium może zwrócić się o pomoc do doktora matematyki, aby ulepszyć umiejętności matematyczne ich LLM itp. Nagrody tokenowe mogą odgrywać rolę w znajdowaniu i motywowaniu ekspertów do udziału poprzez ich spekulacyjne korzyści, nie wspominając o globalnym dostępie zapewnianym przez korzystanie z szyn płatniczych kryptowalut. W tym obszarze działają takie firmy jak Sapien, Fraction i Sahara.
(4)Dane prywatne
W miarę jak będzie coraz mniej publicznych danych na potrzeby szkolenia w zakresie sztucznej inteligencji, podstawa konkurencji prawdopodobnie przesunie się w stronę zastrzeżonych zbiorów danych, w tym prywatnych danych użytkowników. Za ścianą logowania znajduje się duża ilość danych wysokiej jakości, takich jak prywatne wiadomości, prywatne pliki itp., które pozostają niedostępne. Dane te mogą nie tylko skutecznie szkolić osobistą sztuczną inteligencję, ale zawierają także cenne informacje, które nie są dostępne w publicznej sieci.
Dostęp do tych danych i ich wykorzystywanie wiąże się jednak z poważnymi wyzwaniami prawnymi i etycznymi. Data DAO może zapewnić rozwiązanie, które umożliwia chętnym uczestnikom przesyłanie i monetyzowanie swoich danych oraz zarządzanie sposobem ich wykorzystania. Na przykład Reddit Data DAO umożliwia użytkownikom przesyłanie danych Reddit wyeksportowanych z platformy Reddit, które zawierają komentarze, posty i historię głosów, które można sprzedać lub wypożyczyć firmom zajmującym się sztuczną inteligencją w sposób chroniący prywatność. Tokenowe zachęty pozwalają użytkownikom zarabiać nie tylko poprzez jednorazowe transakcje, ale także w oparciu o wartość stworzoną przez modele sztucznej inteligencji przeszkolone przy użyciu ich danych.
3. Otwarte problemy i wyzwania
Chociaż potencjalne korzyści płynące z danych DAO są ogromne, istnieją również kwestie do rozważenia i wyzwania.
(1) Zniekształcający wpływ zachęt
Jedną rzeczą, jaką możemy zobaczyć w historii Crypto w zakresie stosowania zachęt tokenowych, jest to, że zachęty zewnętrzne zmienią zachowanie użytkowników. Ma to bezpośrednie konsekwencje dla wykorzystania symbolicznych zachęt do celów związanych z danymi: zachęty mogą zakłócać pulę uczestników i rodzaj dostarczanych przez nich danych.
Wprowadzenie zachęt symbolicznych wprowadza także możliwość poszukiwania przez uczestników luk w systemie, takich jak przesyłanie danych niskiej jakości lub sfabrykowanych w celu maksymalizacji swoich zarobków. Jest to ważne, ponieważ możliwości generowania przychodów dla tych DAO danych zależą od jakości danych. Jeżeli wkład przekroczy wartość docelową, wartość zbioru danych zostanie zniszczona.
(2) Pomiar danych i nagrody
Podstawową ideą DAO danych jest nagradzanie autorów za przesłanie danych w formie symbolicznych zachęt, które w dłuższej perspektywie staną się dochodem uzyskanym przez DAO. Jednak dokładna wiedza o tym, ile należy nagrodzić różne wkłady danych, jest niezwykle trudna, biorąc pod uwagę subiektywny charakter wartości danych. Na przykład w powyższym przykładzie dotyczącym biohackingu: Czy dane niektórych użytkowników są cenniejsze niż dane innych? Jeżeli tak, jakie czynniki o tym decydują? W przypadku danych map: Czy informacje z map w niektórych obszarach są bardziej wartościowe niż w innych? Jak można tę różnicę określić ilościowo? (Prowadzone są aktywne badania nad pomiarem wartości danych w sztucznej inteligencji poprzez obliczenie ich przyrostowego udziału w wydajności modelu, ale to podejście może wymagać intensywnych obliczeń).
Ponadto istotne jest ustanowienie solidnych mechanizmów weryfikacji autentyczności i dokładności danych. Bez tych środków system może być narażony na oszukańcze przesyłanie danych (takie jak tworzenie fałszywych kont) lub ataki Sybil. Sieć DEPIN próbuje rozwiązać ten problem poprzez integrację na poziomie urządzenia sprzętowego, ale DAO, które opierają się na innych typach danych przekazywanych przez użytkowników, mogą być podatne na manipulacje.
(3) Przyrostowa ilość nowych danych
Większość sieci otwartych jest już wykorzystywana do celów szkoleniowych, dlatego operatorzy danych DAO muszą rozważyć, czy zbiory danych gromadzone w sposób rozproszony są rzeczywiście przyrostowe i dodają dane istniejące w sieci otwartej oraz czy badacze mogą skorzystać z platformy, uzyskując te dane na Internet lub w inny sposób. Powyższe pomysły podkreślają znaczenie gromadzenia nowych danych, które wykraczają poza istniejące dane, co prowadzi do kolejnych rozważań: wielkość wpływu i możliwości uzyskania przychodów.
(4) Oceń możliwości uzyskania przychodów
Zasadniczo DAO danych buduje dwustronny rynek, który łączy nabywców danych i dostawców danych. Dlatego sukces DAO danych zależy od jego zdolności do przyciągnięcia stabilnej i zróżnicowanej bazy klientów skłonnych płacić za dane.
DAO danych musi zidentyfikować i zweryfikować swoje ostateczne wymagania oraz upewnić się, że możliwości uzyskania przychodów są wystarczająco duże (czy to w oparciu o całkowity wolumen, czy w oparciu o indywidualnego dostawcę), aby zachęcić do dostarczania ilości i jakości wymaganych danych. Przykładowo pomysł stworzenia DAO danych użytkownika, agregującego osobiste preferencje i dane przeglądania w celach reklamowych, był dyskutowany od kilku lat, ale ostatecznie korzyści, jakie taka sieć może przekazać użytkownikom, mogą być minimalne. (Dla porównania, globalne ARPU Meta na koniec 2023 r. wyniosło 13,12 USD). Ponieważ firmy AI planują zainwestować biliony dolarów w szkolenia, korzyści z danych zapewniane każdemu użytkownikowi mogą wystarczyć, aby przyciągnąć wkład na dużą skalę, co daje podwyżki Data DAO ciekawe pytanie: „Dlaczego teraz?”
4. Pokonaj ścianę danych
Data DAO stanowią potencjalnie świetlaną przyszłość w zakresie generowania nowych, wysokiej jakości zbiorów danych i pokonywania barier danych w dziedzinie sztucznej inteligencji. Nie wiadomo, jak dokładnie to się stanie, ale nie możemy się już doczekać rozwoju tej przestrzeni.
Przełamując bariery danych AI, nadszedł czas na dane DAO

Odkryj więcej od twórcy

Najnowsze wiadomości