Napsal Jeff Amico
Sestavil: Shenchao TechFlow
zavedení
Folding@home dosáhl významného milníku během pandemie COVID-19. Výzkumný projekt získal 2,4 exaFLOPS výpočetního výkonu, který dodaly 2 miliony dobrovolných zařízení po celém světě. To představovalo patnáctkrát vyšší výpočetní výkon než největší světové superpočítače v té době, což vědcům umožnilo simulovat dynamiku proteinu COVID ve velkém měřítku. Jejich práce pokročila v našem chápání viru a jeho patogeneze, zejména na začátku epidemie.
Globální distribuce uživatelů Folding@home, 2021
Folding@home staví na dlouhé historii dobrovolného počítání, projektu, který shromažďuje výpočetní zdroje pro řešení rozsáhlých problémů. Tato myšlenka získala širokou pozornost v 90. letech minulého století díky projektu SETI@home, který spojil více než 5 milionů dobrovolných počítačů při hledání mimozemského života. Tato myšlenka byla od té doby aplikována na různé obory, včetně astrofyziky, molekulární biologie, matematiky, kryptografie a her. V každém případě kolektivní síla posílila schopnosti jednotlivých projektů daleko za hranice toho, čeho mohli dosáhnout individuálně. To pohání pokrok a umožňuje, aby byl výzkum prováděn otevřenějším způsobem a na základě spolupráce.
Mnoho lidí se ptá, zda můžeme tento model crowdsourcingu aplikovat na hluboké učení. Jinými slovy, můžeme trénovat velkou neuronovou síť na masách? Trénink špičkových modelů je jedním z nejnáročnějších úkolů v historii lidstva. Stejně jako u mnoha projektů @home jsou současné náklady mimo dosah pouze největších hráčů. To by mohlo bránit budoucímu pokroku, protože při hledání nových průlomů spoléháme na stále méně společností. To také soustředí ovládání našich systémů AI do rukou několika. Bez ohledu na to, jak se na technologii cítíte, je to budoucnost, kterou stojí za to sledovat.
Většina kritiků odmítá myšlenku decentralizovaného tréninku jako neslučitelnou se současnou tréninkovou technologií. Tento názor je však stále více zastaralý. Objevily se nové technologie, které snižují potřebu komunikace mezi uzly a umožňují efektivní školení na zařízeních se špatnou síťovou konektivitou. Tyto technologie zahrnují DiLoCo, SWARM Parallelism, lo-fi a decentralizované trénování základních modelů v heterogenních prostředích. Mnohé z nich jsou odolné proti chybám a podporují heterogenní výpočty. Existují také nové architektury navržené speciálně pro decentralizované sítě, včetně DiPaCo a decentralizovaného hybridního expertního modelu.
Také vidíme, jak začínají dospívat různá kryptografická primitiva, která sítím umožňují koordinovat zdroje v globálním měřítku. Tyto technologie podporují scénáře aplikací, jako je digitální měna, přeshraniční platby a prediktivní trhy. Na rozdíl od dřívějších dobrovolnických projektů jsou tyto sítě schopny agregovat ohromující množství výpočetního výkonu, často řádově většího než největší cloudové školicí clustery, o kterých se v současnosti předpokládá.
Společně tyto prvky tvoří nové modelové tréninkové paradigma. Toto paradigma plně využívá světové výpočetní zdroje, včetně obrovského množství okrajových zařízení, která lze použít, pokud jsou propojena. Zavedením nových soutěžních mechanismů se tak sníží náklady na většinu tréninkových zátěží. Může také odemknout nové školicí formáty, díky čemuž bude vývoj modelů kolaborativní a modulární spíše než umlčený a monolitický. Modely se mohou učit v reálném čase získáváním výpočtů a dat od veřejnosti. Jednotlivci mohou vlastnit části modelů, které vytvoří. Výzkumníci mohou také znovu sdílet nová zjištění veřejně, aniž by museli své poznatky zpeněžit, aby pokryli vysoké výpočetní rozpočty.
Tato zpráva zkoumá současný stav školení velkých modelů a související náklady. Reviduje předchozí úsilí o distribuované výpočty – od SETI přes skládání až po BOINC – jako inspiraci pro zkoumání alternativních cest. Zpráva pojednává o historických výzvách decentralizovaného vzdělávání a obrací se k nedávným průlomům, které mohou pomoci tyto výzvy překonat. Nakonec shrnuje budoucí příležitosti a výzvy.
Současný stav školení nejmodernějších modelů
Náklady na trénink špičkových modelů se pro nevelké hráče staly nedostupnými. Tento trend není nový, ale situace se stává vážnější, protože špičkové laboratoře nadále zpochybňují předpoklady škálování. OpenAI údajně letos utratí za školení více než 3 miliardy dolarů. Anthropic předpovídá, že do roku 2025 začneme cvičit 10 miliard dolarů a modely za 100 miliard dolarů nejsou příliš daleko.
Tento trend vede ke koncentraci odvětví, protože jen několik společností si může dovolit účastnit se. To vyvolává ústřední politickou otázku pro budoucnost – můžeme přijmout situaci, kdy všechny přední systémy umělé inteligence ovládá jedna nebo dvě společnosti? To také omezuje rychlost pokroku, což je patrné ve výzkumné komunitě, protože menší laboratoře si nemohou dovolit výpočetní zdroje potřebné k škálování experimentů. Vedoucí představitelé oboru to mnohokrát zmínili:
Joe Spisak z Meta: Abyste skutečně porozuměli možnostem [modelové] architektury, musíte ji prozkoumat ve velkém měřítku, a myslím, že to je to, co v současném ekosystému chybí. Když se podíváte na akademickou půdu – v akademické sféře je spousta skvělých lidí, ale nemají přístup k výpočetním zdrojům, a to se stává problémem, protože mají tyto skvělé nápady, ale ve skutečnosti nemají nástroje k jejich implementaci na požadované úrovni. cesta.
Max Ryabinin, Společně: Potřeba drahého hardwaru vyvíjí velký tlak na výzkumnou komunitu. Většina výzkumníků se nemůže podílet na vývoji neuronové sítě ve velkém měřítku, protože by pro ně bylo finančně nedostupné provádět nezbytné experimenty. Pokud budeme i nadále zvětšovat velikost modelu jeho zvětšováním, budeme nakonec schopni konkurovat
Francois Chollet, Google: Víme, že velké jazykové modely (LLM) teprve musí dosáhnout umělé obecné inteligence (AGI). Mezitím se pokrok směrem k AGI zastavil. Omezení, s nimiž se potýkáme u velkých jazykových modelů, jsou přesně stejná, jako jsme čelili před pěti lety. Potřebujeme nové nápady a průlomy. Myslím, že další průlom pravděpodobně přijde od externích týmů, zatímco všechny velké laboratoře budou zaneprázdněny trénováním větších velkých jazykových modelů. Někteří jsou k těmto obavám skeptičtí a tvrdí, že problém vyřeší vylepšení hardwaru a kapitálové výdaje na cloud computing. To se ale zdá nereálné. Jednak do konce této dekády budou mít nové generace čipů Nvidia výrazně více FLOPů, možná 10krát tolik než dnešní H100. To sníží cenu za FLOP o 80-90%. Podobně se očekává, že celková nabídka FLOP se do konce desetiletí zvýší přibližně 20krát, spolu se zlepšením sítě a související infrastruktury. To vše zvýší efektivitu tréninku na dolar.
Zdroj: SemiAnalysis AI Cloud TCO Model
Současně se výrazně zvýší celková poptávka po FLOP, protože laboratoře budou hledat další rozsah. Pokud se udrží desetileté trendy ve výpočtech školení, očekává se, že FLOP pro špičková školení dosáhnou do roku 2030 ~2e29. Školení v tomto rozsahu by vyžadovalo přibližně 20 milionů GPU ekvivalentních H100, na základě aktuálních tréninkových běhů a využití. Za předpokladu, že v této oblasti stále existuje několik špičkových laboratoří, celkový požadovaný počet FLOPS bude několikanásobkem tohoto počtu, protože celková dodávka bude rozdělena mezi ně. EpochAI předpovídá, že do té doby budeme potřebovat asi 100 milionů GPU ekvivalentních H100, tedy asi 50x dodávky v roce 2024. SemiAnalysis učinila podobné předpovědi a tvrdila, že poptávka po špičkových školeních a nabídka GPU během tohoto období porostou zhruba souběžně.
Kapacitní podmínky se mohou stát stresujícími z mnoha důvodů. K tomu například často dochází, když úzká místa ve výrobě zpožďují odhadované dodací lhůty. Nebo pokud se nám nepodaří vyrobit dostatek energie pro napájení datových center. Nebo pokud máme problém s připojením těchto zdrojů energie do sítě. Nebo pokud zvýšená kontrola kapitálových výdajů nakonec povede kromě jiných faktorů ke snížení počtu zaměstnanců. V nejlepším případě naše současné přístupy umožňují jen několika společnostem pokračovat v posouvání výzkumu kupředu, a to nemusí stačit.
Je jasné, že potřebujeme nový přístup. Namísto neustálého rozšiřování datových center, kapitálových výdajů a spotřeby energie při hledání dalšího průlomu tento přístup efektivně využívá naši stávající infrastrukturu s flexibilitou škálování podle kolísání poptávky. To umožní více experimentálních možností ve výzkumu, protože školení již nebude muset zajišťovat návratnost investic pro výpočetní rozpočty v řádu miliard dolarů. Jakmile se zbavíme tohoto omezení, můžeme se posunout za současné paradigma velkého jazykového modelu (LLM), jak se mnozí domnívají, že je nezbytné k dosažení umělé obecné inteligence (AGI). Abychom pochopili, jak by tato alternativa mohla vypadat, můžeme se inspirovat dřívějšími distribuovanými výpočetními postupy.
Crowd Computing: Stručná historie
SETI@home tento koncept zpopularizoval v roce 1999 a umožnil milionům účastníků analyzovat rádiové signály při hledání mimozemské inteligence. SETI shromažďuje elektromagnetická data z dalekohledu Arecibo, rozděluje je do dávek a posílá je uživatelům přes internet. Uživatelé analyzují data při svých každodenních činnostech a posílají výsledky zpět. Mezi uživateli není nutná žádná komunikace a dávky lze kontrolovat nezávisle, což umožňuje vysoký stupeň paralelního zpracování. Na svém vrcholu měl SETI@home více než 5 milionů účastníků a vyšší výpočetní výkon než největší superpočítače té doby. Nakonec byla uzavřena v březnu 2020, ale její úspěch inspiroval dobrovolné počítačové hnutí, které následovalo.
Folding@home pokračoval v této myšlence v roce 2000 pomocí edge computingu k simulaci skládání proteinů u nemocí, jako je Alzheimerova choroba, rakovina a Parkinsonova choroba. Dobrovolníci tráví svůj volný čas na svých počítačích prováděním proteinových simulací, které pomáhají výzkumníkům studovat, jak se proteiny špatně skládají a vedou k onemocnění. V různých bodech své historie jeho výpočetní výkon překonal výkon největších superpočítačů té doby, včetně konce 2000 a během COVID, kdy se stal prvním distribuovaným výpočetním projektem, který přesáhl jeden exaFLOPS. Od svého založení publikovali výzkumní pracovníci společnosti Folding více než 200 recenzovaných článků, z nichž každý se spoléhá na výpočetní výkon dobrovolníků.
Berkeley Open Infrastructure for Network Computing (BOINC) tuto myšlenku zpopularizovala v roce 2002 a poskytla crowdsourcingovou výpočetní platformu pro různé výzkumné projekty. Podporuje několik projektů, jako jsou SETI@home a Folding@home, stejně jako nové projekty v oblastech, jako je astrofyzika, molekulární biologie, matematika a kryptografie. Do roku 2024 BOINC uvádí 30 probíhajících projektů a téměř 1 000 publikovaných vědeckých prací vytvořených pomocí jeho počítačové sítě.
Mimo vědecký výzkum se dobrovolnické výpočty používají k trénování herních motorů, jako jsou Go (LeelaZero, KataGo) a šachy (Stockfish, LeelaChessZero). LeelaZero byl trénován v letech 2017 až 2021 prostřednictvím dobrovolných počítačů, což mu umožnilo hrát více než 10 milionů her proti sobě, čímž vytvořil jeden z nejvýkonnějších Go enginů, které jsou dnes k dispozici. Podobně je Stockfish od roku 2013 nepřetržitě školen na dobrovolnické síti, což z něj dělá jeden z nejpopulárnějších a nejvýkonnějších šachových motorů.
O výzvách hlubokého učení
Ale můžeme tento model aplikovat na hluboké učení? Mohli bychom propojit okrajová zařízení po celém světě a vytvořit tak nízkonákladový veřejný školicí cluster? Spotřebitelský hardware – od notebooků Apple po herní grafické karty Nvidia – se v hlubokém učení zlepšuje. V mnoha případech výkon těchto zařízení převyšuje výkon za dolar grafických karet datových center.
Abychom však mohli efektivně využívat tyto zdroje v distribuovaném prostředí, musíme překonat různé výzvy.
Za prvé, současné techniky distribuovaného tréninku předpokládají častou komunikaci mezi uzly.
Současné nejmodernější modely se tak rozrostly, že školení musí být rozděleno mezi tisíce GPU. Toho je dosaženo prostřednictvím různých technik paralelizace, typicky rozdělením modelu, datové sady nebo obou současně mezi dostupná GPU. To obvykle vyžaduje síť s vysokou šířkou pásma a nízkou latencí, jinak budou uzly nečinně čekat na příchod dat.
Například distribuovaný datový paralelismus (DDP) distribuuje sadu dat mezi GPU, přičemž každý GPU trénuje kompletní model na svém konkrétním datovém úseku a poté sdílí své aktualizace gradientu, aby se v každém kroku vygenerovaly nové váhy modelu. To vyžaduje relativně omezenou komunikační režii, protože uzly sdílejí pouze aktualizace gradientu po každém zpětném šíření a kolektivní komunikační operace se mohou částečně překrývat s výpočtem. Tento přístup však funguje pouze u menších modelů, protože vyžaduje, aby každý GPU uložil do paměti váhy, aktivace a stav optimalizátoru celého modelu. Například GPT-4 vyžaduje při tréninku přes 10 TB paměti, zatímco jeden H100 má pouze 80 GB.
K vyřešení tohoto problému také používáme různé techniky k rozdělení modelu pro distribuci mezi GPU. Tenzorový paralelismus například rozděluje jednotlivé váhy v rámci jedné vrstvy, což umožňuje každému GPU provádět potřebné operace a předávat výstup ostatním GPU. To snižuje požadavky na paměť každého GPU, ale vyžaduje neustálou komunikaci mezi nimi, což pro efektivitu vyžaduje připojení s vysokou šířkou pásma a nízkou latencí.
Paralelnost potrubí distribuuje vrstvy modelu mezi GPU, přičemž každý GPU vykonává svou práci a sdílí aktualizace s dalším GPU v potrubí. Ačkoli to vyžaduje méně komunikace než paralelismus tenzoru, mohou se objevit „bubliny“ (např. doby nečinnosti), kde GPU v zadní části potrubí čeká na informace z GPU vpředu, aby mohla začít svou práci.
K řešení těchto problémů byly vyvinuty různé technologie. Například ZeRO (Zero Redundancy Optimizer) je technika optimalizace paměti, která snižuje využití paměti zvýšením komunikační režie, což umožňuje trénovat větší modely na konkrétních zařízeních. ZeRO snižuje požadavky na paměť rozdělením parametrů modelu, přechodů a stavu optimalizátoru mezi GPU, ale spoléhá na rozsáhlou komunikaci, aby zařízení mohlo získat rozdělená data. Jedná se o základní přístup pro populární technologie, jako je FSDP (Fully Sharded Data Parallel) a DeepSpeed.
Tyto techniky jsou často kombinovány v tréninku velkých modelů, aby se maximalizovalo využití zdrojů, což je známé jako 3D paralelismus. V této konfiguraci se často používá tenzorový paralelismus k distribuci vah mezi GPU v rámci jednoho serveru, protože mezi každou rozdělenou vrstvou je vyžadována rozsáhlá komunikace. Paralelnost potrubí se pak používá k distribuci vrstev mezi různé servery (ale v rámci stejného ostrova v datovém centru), protože vyžaduje méně komunikace. Dále se datový paralelismus nebo plně sdílený datový paralelismus (FSDP) používá k rozdělení datové sady na různé serverové ostrovy, protože může pojmout delší datové sady asynchronním sdílením aktualizací a/nebo kompresí gradientů sítě. Meta používá tento kombinovaný přístup k výcviku Llama 3.1, jak je znázorněno na obrázku níže.
Tyto přístupy představují hlavní výzvy pro decentralizované školicí sítě, které se spoléhají na zařízení připojená přes (pomalejší a nestabilnější) spotřebitelský internet. V tomto prostředí mohou náklady na komunikaci rychle převážit výhody edge computingu, protože zařízení jsou často nečinná a čekají na příchod dat. Jako jednoduchý příklad, distribuované datové paralelní trénování modelu s poloviční přesností s 1 miliardou parametrů vyžaduje, aby každý GPU sdílel 2 GB dat v každém kroku optimalizace. Vezmeme-li jako příklad typickou šířku internetového pásma (např. 1 gigabit za sekundu) a za předpokladu, že se výpočet a komunikace nepřekrývají, přenos aktualizací gradientu trvá nejméně 16 sekund, což má za následek značnou nečinnost. Techniky jako tenzorový paralelismus (které vyžadují více komunikace) budou samozřejmě fungovat hůře.
Za druhé, současné tréninkové techniky postrádají toleranci chyb. Jako každý distribuovaný systém jsou i tréninkové clustery náchylnější k selhání, protože se zvětšují. Tento problém se však v tréninku zhoršuje, protože naše současná technologie je primárně synchronní, což znamená, že GPU musí spolupracovat, aby dokončily modelový trénink. Selhání jediného GPU mezi tisíci GPU může zastavit celý tréninkový proces a donutit ostatní GPU začít trénovat od nuly. V některých případech GPU neselže úplně, ale místo toho se z různých důvodů zpomalí a zpomalí tisíce dalších GPU v clusteru. Vzhledem k velikosti dnešních klastrů by to mohlo znamenat další náklady v řádu desítek až stovek milionů dolarů.
Meta tyto problémy rozpracovala během svého výcviku lám, ve kterém zažili přes 400 neočekávaných přerušení, v průměru asi osm přerušení za den. Tyto výpadky jsou primárně připisovány hardwarovým problémům, jako je selhání GPU nebo hostitelského hardwaru. Z toho vyplývá, že jejich využití GPU je pouze 38–43 %. OpenAI si vede při tréninku na GPT-4 ještě hůře, jen 32-36%, také kvůli častým závadám při tréninku.
Jinými slovy, špičkové laboratoře se stále snaží dosáhnout 40% využití při školení v plně optimalizovaném prostředí, které zahrnuje homogenní, nejmodernější hardware, sítě, napájení a chladicí systémy. To je primárně způsobeno selháním hardwaru a síťovými problémy, které se v okrajových tréninkových prostředích zhoršují, protože zařízení mají nerovnováhu ve výpočetním výkonu, šířce pásma, latenci a spolehlivosti. Nemluvě o tom, že decentralizované sítě jsou zranitelné vůči zlomyslným aktérům, kteří se mohou z různých důvodů pokusit podkopat celý projekt nebo podvádět konkrétní pracovní zátěž. Dokonce i SETI@home, čistě dobrovolnická síť, zažila podvádění různých účastníků.
Za třetí, trénování špičkových modelů vyžaduje rozsáhlý výpočetní výkon. Projekty jako SETI a Folding sice dosáhly působivého rozsahu, ale ve srovnání s výpočetním výkonem potřebným pro dnešní špičková školení blednou. GPT-4 byl trénován na clusteru 20 000 A100 a dosáhl špičkové propustnosti 6,28 ExaFLOPS s poloviční přesností. To je třikrát větší výpočetní výkon, než měl Folding@home na svém vrcholu. Llama 405b byla trénována pomocí 16 000 H100 a dosáhla špičkové propustnosti 15,8 ExaFLOPS, což je 7krát větší než Folding peak. Tato propast se bude dále zvětšovat, protože několik laboratoří plánuje postavit clustery s více než 100 000 H100, každý s ohromujícím výpočetním výkonem 99 ExaFLOPS.
To dává smysl, protože projekt @home je řízen dobrovolníky. Přispěvatelé darují svou paměť a cykly procesoru a nesou související náklady. To přirozeně omezuje jejich velikost ve srovnání s komerčními projekty.
nedávný vývoj
I když tyto problémy historicky sužovaly decentralizované tréninkové úsilí, již se nezdají být nepřekonatelné. Objevily se nové školicí technologie, které snižují potřebu komunikace mezi uzly a umožňují efektivní školení na zařízeních připojených k internetu. Mnoho z těchto technologií pochází z velkých laboratoří, které chtějí přidat větší rozsah školení modelů, a proto vyžadují efektivní komunikační technologii napříč datovými centry. Jsme také svědky pokroku v metodách školení odolných proti chybám a kryptografických motivačních systémech, které mohou podporovat školení ve větším měřítku v okrajových prostředích.
Efektivní komunikační technologie
DiLoCo je nedávné úsilí společnosti Google, které snižuje režii komunikace prováděním místních optimalizací před předáním aktualizovaného stavu modelu mezi zařízeními. Jejich přístup (založený na dřívějším výzkumu federovaného učení) ukázal srovnatelné výsledky s tradičním synchronním tréninkem a zároveň omezil komunikaci mezi uzly o faktor 500. Tento přístup byl od té doby replikován dalšími výzkumníky a rozšířen pro trénování větších modelů (přes 1 miliardu parametrů). Rozšiřuje se také na asynchronní trénink, což znamená, že uzly mohou sdílet aktualizace gradientu v různých časech, místo aby je sdílely všechny najednou. To lépe vyhovuje okrajovému hardwaru s různými schopnostmi zpracování a rychlostmi sítě.
Další datové paralelní přístupy, jako je lo-fi a DisTrO, mají za cíl dále snížit náklady na komunikaci. Lo-fi navrhuje plně lokální přístup jemného ladění, což znamená, že uzly jsou trénovány nezávisle a na konci jsou předány pouze váhy. Tento přístup dosahuje srovnatelného výkonu se základními liniemi a zároveň zcela eliminuje komunikační režii při dolaďování jazykových modelů s více než 1 miliardou parametrů. V předběžné zprávě DisTrO tvrdí, že používá nový distribuovaný optimalizátor, o kterém se domnívají, že může snížit požadavky na komunikaci o čtyři až pět řádů, ačkoli tento přístup musí být ještě potvrzen.
Objevily se také nové metody paralelního modelu, které umožňují dosáhnout většího rozsahu. DiPaCo (také od Google) rozděluje model do modulů, z nichž každý obsahuje různé expertní moduly pro usnadnění školení pro konkrétní úkoly. Tréninková data jsou pak rozdělena do „cest“, což jsou expertní sekvence odpovídající každému vzorku dat. Každý pracovník může trénovat určitou cestu téměř nezávisle, s výjimkou komunikace nutné pro sdílení modulů, kterou zajišťuje DiLoCo. Tato architektura zkracuje dobu tréninku modelu s miliardou parametrů o více než polovinu.
SWARM Parallelism and Decentralized Training of Base Models in Heterogeneous Environments (DTFMHE) také navrhuje metody pro paralelismus modelů k dosažení trénování velkých modelů v heterogenních prostředích. SWARM zjistil, že s rostoucí velikostí modelu se snižují komunikační omezení paralelního potrubí, což umožňuje efektivně trénovat větší modely při nižší šířce pásma sítě a vyšší latenci. K aplikaci tohoto konceptu v heterogenním prostředí používají dočasné „potrubí spojení“ mezi uzly, které lze aktualizovat v reálném čase při každé iteraci. To umožňuje uzlu odeslat svůj výstup libovolnému peer pro další fázi potrubí. To znamená, že pokud je peer rychlejší než ostatní nebo pokud se některý z účastníků odpojí, výstupy mohou být dynamicky přesměrovány, aby bylo zajištěno, že školení bude pokračovat, dokud bude v každé fázi alespoň jeden aktivní účastník. Tento přístup použili k trénování modelu s více než 1 miliardou parametrů na nízkonákladových heterogenních GPU s pomalým propojením (jak je znázorněno na obrázku níže).
DTFMHE podobně navrhuje nový plánovací algoritmus spolu s paralelismem potrubí a paralelismem dat pro trénování velkých modelů na zařízeních na 3 kontinentech. Přestože jsou jejich síťové rychlosti 100krát nižší než standardní Deepspeed, jejich přístup je pouze 1,7-3,5krát pomalejší než při použití standardní Deepspeed v datovém centru. Podobně jako SWARM, DTFMHE ukazuje, že náklady na komunikaci lze efektivně skrýt s rostoucí velikostí modelu, a to i v geograficky distribuovaných sítích. To nám umožňuje překonat slabší spojení mezi uzly pomocí různých technik, včetně zvětšení velikosti skrytých vrstev a přidání více vrstev na fázi potrubí.
odolnost proti chybám
Mnohé z výše uvedených datových paralelních metod jsou ve výchozím nastavení odolné vůči chybám, protože každý uzel ukládá celý model do paměti. Tato redundance obvykle znamená, že uzly mohou stále pracovat nezávisle, i když jiné uzly selžou. To je důležité pro decentralizované školení, protože uzly jsou často nespolehlivé, heterogenní a mohou se dokonce chovat zlomyslně. Jak však již bylo zmíněno, čistě datově paralelní metody jsou vhodné pouze pro menší modely, takže velikost modelu je omezena kapacitou paměti nejmenšího uzlu v síti.
K vyřešení výše uvedených problémů někteří lidé navrhli techniky odolné proti chybám vhodné pro modelový paralelní (nebo hybridní paralelní) trénink. SWARM reaguje na selhání peer uzlů upřednostňováním stabilních peerů s nižší latencí a přesměrováním úloh ve fázích potrubí v případě selhání. Jiné přístupy, jako je Oobleck, zaujímají podobný přístup tím, že vytvářejí více „potrubních šablon“ pro zajištění redundance v případě částečného selhání uzlu. Přestože byl Oobleck testován v datových centrech, poskytuje silné záruky spolehlivosti, které platí stejně pro decentralizovaná prostředí.
Viděli jsme také některé nové modelové architektury (jako je Decentralized Mixture of Experts (DMoE)), které podporují školení odolné proti chybám v decentralizovaných prostředích. Podobně jako tradiční expertní hybridní modely se DMoE skládá z několika nezávislých „expertních“ sítí distribuovaných přes sadu pracovních uzlů. DMoE používá distribuovanou hashovací tabulku ke sledování a konsolidaci asynchronních aktualizací decentralizovaným způsobem. Tento mechanismus (také používaný ve SWARMu) je dobře odolný proti selháním uzlů, protože může vyloučit určité odborníky z výpočtu průměru, pokud některé uzly selžou nebo nereagují včas.
měřítko
A konečně, kryptografické motivační systémy, jako jsou ty, které používají Bitcoin a Ethereum, mohou pomoci dosáhnout požadovaného rozsahu. Obě sítě využívají crowdsourcing výpočtu tím, že platí přispěvatelům nativní aktivum, jehož hodnota se zvyšuje s rostoucím přijetím. Tento design motivuje první přispěvatele tím, že jim poskytuje štědré odměny, které lze postupně snižovat, jakmile síť dosáhne minimální životaschopné velikosti.
Tento mechanismus skutečně přináší různá úskalí, kterým je třeba se vyhnout. Hlavním úskalím je přílišná stimulace nabídky a neschopnost generovat odpovídající poptávku. Navíc by to mohlo vyvolat regulační problémy, pokud základní síť není dostatečně decentralizovaná. Pokud jsou však decentralizované pobídkové systémy správně navrženy, mohou dosáhnout značného rozsahu po delší dobu.
Například roční spotřeba elektřiny bitcoinu je asi 150 terawatthodin (TWh), což je až o dva řády více než spotřeba elektřiny největšího tréninkového clusteru AI, který je v současné době vytvořen (100 000 H100 běžících na plnou kapacitu po dobu jednoho roku). Pro informaci, OpenAI GPT-4 byl trénován na 20 000 A100 a vlajkový model Llama 405B společnosti Meta byl trénován na 16 000 H100. Podobně na svém vrcholu byla spotřeba energie Etherea přibližně 70 TWh, rozložená na miliony GPU. I přes rychlý růst datových center AI v nadcházejících letech pobídkové počítačové sítě, jako jsou tyto, mnohonásobně překročí svůj rozsah.
Samozřejmě, ne všechny výpočty jsou zastupitelné a školení má ve vztahu k těžbě jedinečné požadavky, které je třeba vzít v úvahu. Tyto sítě nicméně demonstrují rozsah, kterého lze prostřednictvím těchto mechanismů dosáhnout.
Cesta před námi
Spojením těchto kousků dohromady můžeme vidět počátky nové cesty vpřed.
Nové školicí technologie nám brzy umožní posunout se za hranice datového centra, protože zařízení již nemusí být umístěna společně, aby byla efektivní. To bude chvíli trvat, protože naše současné decentralizované tréninkové metody jsou stále v menším měřítku, většinou v rozsahu 1 miliardy až 2 miliard parametrů, mnohem menší než modely jako GPT-4. Jsou zapotřebí další průlomy ke zvýšení rozsahu těchto metod bez obětování klíčových vlastností, jako je účinnost komunikace a odolnost proti chybám. Nebo potřebujeme nové architektury modelů, které se liší od dnešních velkých monolitických modelů – možná menší, modulárnější a běží na okrajových zařízeních spíše než v cloudu.
V každém případě lze v tomto směru očekávat další pokrok. Náklady na naše současné metody jsou neudržitelné, což poskytuje silné tržní pobídky pro inovace. Tento trend již zaznamenáváme, protože výrobci jako Apple staví výkonnější okrajová zařízení, aby spouštěli více úloh lokálně, než aby se spoléhali na cloud. Zaznamenáváme také rostoucí podporu řešení s otevřeným zdrojovým kódem – dokonce i ve společnostech jako Meta – s cílem podpořit decentralizovanější výzkum a vývoj. Tyto trendy se budou časem jen zrychlovat.
Zároveň také potřebujeme novou síťovou infrastrukturu pro připojení okrajových zařízení, abychom je mohli takto využívat. Mezi tato zařízení patří notebooky, herní stolní počítače a nakonec možná i mobilní telefony s výkonnými grafickými kartami a velkým množstvím paměti. To nám umožní vybudovat „globální klastr“ levného, stále zapnutého výpočetního výkonu, který dokáže paralelně zpracovávat tréninkové úkoly. Je to také náročný problém, který vyžaduje pokrok v mnoha oblastech.
Potřebujeme lepší techniky plánování školení v heterogenních prostředích. V současné době neexistuje způsob, jak automaticky paralelizovat model pro optimalizaci, zvláště když lze zařízení kdykoli odpojit nebo připojit. Toto je kritický další krok při optimalizaci školení při zachování výhod škálovatelnosti sítí založených na okrajích.
Musíme se také vypořádat s obecnou složitostí decentralizovaných sítí. Aby se maximalizoval rozsah, sítě by měly být budovány jako otevřené protokoly – soubor standardů a instrukcí, které diktují interakce mezi účastníky, podobně jako TCP/IP, ale pro výpočetní strojové učení. To umožní připojení k síti jakémukoli zařízení, které splňuje specifické specifikace, bez ohledu na vlastníka a umístění. Zajišťuje také, že síť zůstane neutrální, což uživatelům umožňuje trénovat modely, které preferují.
I když to maximalizuje rozsah, vyžaduje to také mechanismus pro ověření správnosti všech úkolů školení bez spoléhání se na jediný subjekt. To je zásadní, protože existují inherentní pobídky k podvádění – například tvrzení, že jste dokončili výcvikový úkol, abyste dostali zaplaceno, ale ve skutečnosti tak neučinili. To je obzvláště náročné vzhledem k tomu, že různá zařízení často provádějí operace strojového učení odlišně, což ztěžuje ověření správnosti pomocí standardních replikačních technik. Správné řešení tohoto problému vyžaduje hloubkový výzkum v kryptografii a dalších oborech.
Naštěstí i nadále vidíme pokrok na všech těchto frontách. Tyto výzvy se již nezdají ve srovnání s minulými lety nepřekonatelné. Také blednou ve srovnání s příležitostmi. Google to nejlépe shrnuje ve svém dokumentu DiPaCo, kde poukazuje na mechanismy negativní zpětné vazby, které má decentralizované školení potenciál prolomit:
Pokroky v distribuovaném školení modelů strojového učení mohou usnadnit zjednodušenou výstavbu infrastruktury, což nakonec povede k širší dostupnosti výpočetních zdrojů. V současné době je infrastruktura navržena podle standardních metod pro trénování velkých monolitických modelů a modely strojového učení jsou navrženy tak, aby využívaly současnou infrastrukturu a tréninkové metody. Tato smyčka zpětné vazby může uvěznit komunitu do zavádějícího místního minima, kde jsou výpočetní zdroje omezenější, než je ve skutečnosti potřeba.
Snad nejvíce vzrušující je rostoucí nadšení mezi výzkumnou komunitou řešit tyto otázky. Náš tým ve společnosti Gensyn buduje výše popsanou síťovou infrastrukturu. Týmy jako Hivemind a BigScience aplikují mnoho z těchto technik v praxi. Projekty jako Petals, sahajBERT a Bloom demonstrují schopnosti těchto technologií a také rostoucí zájem o komunitní strojové učení. Mnoho dalších také posouvá výzkum kupředu s cílem vybudovat otevřenější a spolupracující modelový školicí ekosystém. Pokud vás tato práce zaujala, kontaktujte nás, abychom se zapojili.