Penulis: Jeff Amico

Disusun oleh: Deep Wave TechFlow

perkenalan

Folding@home telah mencapai tonggak sejarah besar selama pandemi COVID-19. Proyek penelitian ini menerima daya komputasi sebesar 2,4 exaFLOPS, yang dikirimkan oleh 2 juta perangkat sukarelawan di seluruh dunia. Hal ini mewakili lima belas kali kekuatan pemrosesan superkomputer terbesar di dunia pada saat itu, sehingga memungkinkan para ilmuwan untuk mensimulasikan dinamika protein COVID dalam skala besar. Pekerjaan mereka meningkatkan pemahaman kita tentang virus dan patogenesisnya, terutama pada awal epidemi.

Distribusi global pengguna Folding@home, 2021

Folding@home dibangun berdasarkan sejarah panjang komputasi sukarela, sebuah proyek yang mengumpulkan sumber daya komputasi untuk memecahkan masalah berskala besar. Ide ini mendapat perhatian luas pada tahun 1990an dengan SETI@home, sebuah proyek yang mengumpulkan lebih dari 5 juta komputer sukarelawan untuk mencari kehidupan di luar bumi. Idenya telah diterapkan pada berbagai bidang, termasuk astrofisika, biologi molekuler, matematika, kriptografi, dan permainan. Dalam setiap kasus, kekuatan kolektif meningkatkan kemampuan masing-masing proyek jauh melampaui apa yang dapat mereka capai secara individual. Hal ini mendorong kemajuan dan memungkinkan penelitian dilakukan dengan cara yang lebih terbuka dan kolaboratif.

Banyak orang bertanya-tanya apakah kita bisa menerapkan model crowdsourcing ini pada pembelajaran mendalam. Dengan kata lain, bisakah kita melatih jaringan saraf yang besar secara massal? Pelatihan model mutakhir adalah salah satu tugas komputasi paling intensif dalam sejarah manusia. Seperti banyak proyek @home lainnya, biaya saat ini berada di luar jangkauan pemain terbesar saja. Hal ini dapat menghambat kemajuan di masa depan karena semakin sedikit perusahaan yang bergantung pada penemuan terobosan baru. Hal ini juga memusatkan kendali sistem AI kita di tangan segelintir orang. Tidak peduli bagaimana perasaan Anda terhadap teknologi, ini adalah masa depan yang layak untuk disaksikan.

Sebagian besar kritikus menolak gagasan pelatihan terdesentralisasi karena tidak sesuai dengan teknologi pelatihan saat ini. Namun pandangan ini semakin ketinggalan jaman. Teknologi baru telah muncul yang mengurangi kebutuhan komunikasi antar node, memungkinkan pelatihan yang efisien pada perangkat dengan konektivitas jaringan yang buruk. Teknologi ini mencakup DiLoCo, SWARM Parallelism, lo-fi, dan pelatihan model dasar yang terdesentralisasi di lingkungan yang heterogen. Banyak di antaranya yang toleran terhadap kesalahan dan mendukung komputasi heterogen. Ada juga arsitektur baru yang dirancang khusus untuk jaringan terdesentralisasi, termasuk DiPaCo dan model pakar hybrid terdesentralisasi.

Kami juga melihat berbagai kriptografi primitif mulai matang, memungkinkan jaringan untuk mengoordinasikan sumber daya dalam skala global. Teknologi ini mendukung skenario aplikasi seperti mata uang digital, pembayaran lintas batas, dan pasar prediksi. Berbeda dengan proyek-proyek sukarelawan sebelumnya, jaringan-jaringan ini mampu mengumpulkan sejumlah besar daya komputasi, sering kali lipat lebih besar dari cluster pelatihan cloud terbesar yang saat ini dibayangkan.

Bersama-sama, elemen-elemen ini membentuk paradigma pelatihan model baru. Paradigma ini memanfaatkan sepenuhnya sumber daya komputasi dunia, termasuk banyaknya perangkat edge yang dapat digunakan jika dihubungkan bersama. Hal ini akan mengurangi biaya sebagian besar beban kerja pelatihan dengan memperkenalkan mekanisme kompetisi baru. Hal ini juga dapat membuka bentuk-bentuk pelatihan baru, menjadikan pengembangan model bersifat kolaboratif dan modular, bukannya terisolasi dan monolitik. Model dapat belajar secara real time dengan menyerap komputasi dan data dari publik. Individu dapat memiliki bagian dari model yang mereka buat. Para peneliti juga dapat membagikan kembali temuan-temuan baru secara publik tanpa harus memonetisasi temuan mereka untuk menutupi anggaran komputasi yang tinggi.

Laporan ini mengkaji kondisi pelatihan model besar saat ini dan biaya terkait. Laporan ini mengulas upaya komputasi terdistribusi sebelumnya—mulai dari SETI, Folding, hingga BOINC—sebagai inspirasi untuk mengeksplorasi jalur alternatif. Laporan ini membahas tantangan-tantangan historis dalam pelatihan yang didesentralisasi dan membahas terobosan-terobosan terkini yang dapat membantu mengatasi tantangan-tantangan ini. Terakhir, laporan ini merangkum peluang dan tantangan di masa depan.

Status pelatihan model mutakhir saat ini

Biaya pelatihan model-model mutakhir menjadi penghalang bagi pemain non-besar. Tren ini bukanlah hal baru, namun situasinya menjadi lebih serius karena laboratorium-laboratorium mutakhir terus menantang asumsi-asumsi penskalaan. OpenAI dilaporkan menghabiskan lebih dari $3 miliar untuk pelatihan tahun ini. Anthropic memperkirakan bahwa pada tahun 2025, kita akan mulai melatih $10 miliar, dan model senilai $100 miliar tidak akan lama lagi.

Tren ini menyebabkan konsentrasi industri karena hanya sedikit perusahaan yang mampu berpartisipasi. Hal ini menimbulkan pertanyaan kebijakan utama di masa depan – dapatkah kita menerima situasi di mana semua sistem AI terkemuka dikendalikan oleh satu atau dua perusahaan? Hal ini juga membatasi laju kemajuan, yang terbukti dalam komunitas riset karena laboratorium yang lebih kecil tidak mampu menyediakan sumber daya komputasi yang diperlukan untuk menskalakan eksperimen. Para pemimpin industri telah menyebutkan hal ini berkali-kali:

Joe Spisak dari Meta: Untuk benar-benar memahami kemampuan arsitektur [model], Anda harus menjelajahinya dalam skala besar, dan menurut saya itulah yang hilang dalam ekosistem saat ini. Jika Anda melihat dunia akademis - ada banyak talenta hebat di dunia akademis, namun mereka tidak memiliki akses terhadap sumber daya komputasi, dan itu menjadi masalah karena mereka memiliki ide-ide hebat namun tidak memiliki alat untuk benar-benar mengimplementasikannya pada tingkat yang diperlukan. jalan.

Max Ryabinin, Bersama: Kebutuhan akan perangkat keras yang mahal memberikan banyak tekanan pada komunitas riset. Sebagian besar peneliti tidak dapat berpartisipasi dalam pengembangan jaringan saraf skala besar karena biaya yang diperlukan untuk melakukan eksperimen yang diperlukan akan menjadi mahal. Jika kami terus meningkatkan ukuran model dengan memperluasnya, pada akhirnya kami akan mampu bersaing

Francois Chollet, Google: Kita tahu bahwa model bahasa besar (LLM) belum mengaktifkan kecerdasan umum buatan (AGI). Sementara itu, kemajuan menuju AGI terhenti. Keterbatasan yang kita hadapi dengan model bahasa besar sama persis dengan keterbatasan yang kita hadapi lima tahun lalu. Kita memerlukan ide dan terobosan baru. Saya pikir terobosan berikutnya kemungkinan besar akan datang dari tim luar sementara semua laboratorium besar sibuk melatih model bahasa yang lebih besar. Beberapa orang skeptis terhadap kekhawatiran ini, dengan alasan bahwa perbaikan perangkat keras dan belanja modal komputasi awan akan menyelesaikan masalah ini. Namun hal ini nampaknya tidak realistis. Salah satu alasannya adalah pada akhir dekade ini, chip Nvidia generasi baru akan memiliki lebih banyak FLOP secara signifikan, mungkin 10 kali lebih banyak dibandingkan H100 saat ini. Ini akan mengurangi harga per FLOP sebesar 80-90%. Demikian pula, total pasokan FLOP diperkirakan akan meningkat sekitar 20 kali lipat pada akhir dekade ini, seiring dengan perbaikan jaringan dan infrastruktur terkait. Semua ini akan meningkatkan efisiensi pelatihan per dolar.

Sumber: Model TCO Cloud AI SemiAnalisis

Pada saat yang sama, total permintaan FLOP juga akan meningkat secara signifikan seiring dengan upaya laboratorium untuk memperluas skalanya. Jika tren sepuluh tahun dalam komputasi pelatihan bertahan, FLOP untuk pelatihan mutakhir diperkirakan akan mencapai ~2e29 pada tahun 2030. Pelatihan pada skala ini akan memerlukan sekitar 20 juta GPU yang setara dengan H100, berdasarkan waktu proses dan pemanfaatan pelatihan saat ini. Dengan asumsi masih terdapat beberapa laboratorium mutakhir di area ini, jumlah total FLOPS yang dibutuhkan akan beberapa kali lipat dari jumlah tersebut, karena keseluruhan pasokan akan dibagi di antara laboratorium-laboratorium tersebut. EpochAI memperkirakan kita akan membutuhkan sekitar 100 juta GPU yang setara dengan H100 pada saat itu, sekitar 50x pengiriman pada tahun 2024. SemiAnalysis membuat prediksi serupa, dengan alasan bahwa permintaan pelatihan mutakhir dan pasokan GPU akan tumbuh secara bersamaan selama periode ini.

Kondisi kapasitas dapat menjadi lebih menegangkan karena sejumlah alasan. Misalnya, hal ini sering terjadi jika kemacetan produksi menunda perkiraan waktu tunggu pengiriman. Atau jika kita gagal menghasilkan energi yang cukup untuk menggerakkan pusat data. Atau jika kita kesulitan menghubungkan sumber energi ini ke jaringan listrik. Atau jika peningkatan pengawasan terhadap belanja modal pada akhirnya menyebabkan perampingan industri, dan beberapa faktor lainnya. Pendekatan kami saat ini hanya memungkinkan beberapa perusahaan untuk terus mendorong penelitian ke depan, dan itu mungkin tidak cukup.

Jelas, kita memerlukan pendekatan baru. Daripada terus memperluas pusat data, belanja modal, dan konsumsi energi untuk mencari terobosan berikutnya, pendekatan ini secara efisien memanfaatkan infrastruktur yang ada dengan fleksibilitas untuk disesuaikan seiring fluktuasi permintaan. Hal ini akan memungkinkan lebih banyak kemungkinan eksperimental dalam penelitian, karena pelatihan tidak lagi diperlukan untuk memastikan laba atas investasi untuk anggaran komputasi bernilai miliaran dolar. Setelah terbebas dari keterbatasan ini, kita dapat melampaui paradigma model bahasa besar (LLM) yang ada saat ini, karena banyak orang percaya bahwa hal ini diperlukan untuk mencapai kecerdasan umum buatan (AGI). Untuk memahami seperti apa alternatif ini, kita dapat mengambil inspirasi dari praktik komputasi terdistribusi di masa lalu.

Crowd Computing: Sejarah Singkat

SETI@home mempopulerkan konsep ini pada tahun 1999, yang memungkinkan jutaan peserta menganalisis sinyal radio untuk mencari kecerdasan luar angkasa. SETI mengumpulkan data elektromagnetik dari teleskop Arecibo, membaginya menjadi beberapa kelompok, dan mengirimkannya ke pengguna melalui Internet. Pengguna menganalisis data dalam aktivitas sehari-hari dan mengirimkan hasilnya kembali. Tidak diperlukan komunikasi antar pengguna, dan batch dapat ditinjau secara independen, memungkinkan pemrosesan paralel tingkat tinggi. Pada puncaknya, SETI@home memiliki lebih dari 5 juta peserta dan kekuatan pemrosesan yang lebih besar dibandingkan superkomputer terbesar saat itu. Ini akhirnya ditutup pada Maret 2020, tetapi keberhasilannya menginspirasi gerakan komputasi sukarela setelahnya.

Folding@home melanjutkan ide ini pada tahun 2000, menggunakan komputasi tepi untuk mensimulasikan pelipatan protein pada penyakit seperti Alzheimer, kanker, dan penyakit Parkinson. Para sukarelawan menghabiskan waktu luang mereka di depan PC untuk melakukan simulasi protein, membantu para peneliti mempelajari bagaimana protein salah melipatgandakan dan menyebabkan penyakit. Pada berbagai titik dalam sejarahnya, kekuatan komputasinya melebihi superkomputer terbesar pada saat itu, termasuk pada akhir tahun 2000an dan selama COVID, ketika ia menjadi proyek komputasi terdistribusi pertama yang melebihi satu exaFLOPS. Sejak awal, para peneliti Folding telah menerbitkan lebih dari 200 makalah yang ditinjau oleh rekan sejawat, masing-masing mengandalkan kekuatan komputasi para sukarelawan.

Berkeley Open Infrastructure for Network Computing (BOINC) mempopulerkan ide ini pada tahun 2002, menyediakan platform komputasi crowdsourced untuk berbagai proyek penelitian. Ini mendukung beberapa proyek seperti SETI@home dan Folding@home, serta proyek-proyek baru di berbagai bidang seperti astrofisika, biologi molekuler, matematika dan kriptografi. Pada tahun 2024, BOINC mencantumkan 30 proyek yang sedang berjalan, dan hampir 1.000 makalah ilmiah yang diterbitkan, diproduksi menggunakan jaringan komputasinya.

Di luar penelitian ilmiah, komputasi sukarelawan digunakan untuk melatih mesin permainan seperti Go (LeelaZero, KataGo) dan catur (Stockfish, LeelaChessZero). LeelaZero dilatih dari tahun 2017 hingga 2021 melalui komputasi sukarelawan, yang memungkinkannya memainkan lebih dari 10 juta game melawan dirinya sendiri, menciptakan salah satu mesin Go paling kuat yang ada saat ini. Demikian pula, Stockfish terus dilatih dalam jaringan sukarelawan sejak tahun 2013, menjadikannya salah satu mesin catur paling populer dan kuat.

Tentang tantangan pembelajaran mendalam

Namun bisakah kita menerapkan model ini pada pembelajaran mendalam? Bisakah kita membuat jaringan perangkat edge di seluruh dunia untuk membuat klaster pelatihan publik berbiaya rendah? Perangkat keras konsumen—mulai dari laptop Apple hingga kartu grafis gaming Nvidia—menjadi lebih baik dalam pembelajaran mendalam. Dalam banyak kasus, kinerja perangkat ini melebihi kinerja per dolar kartu grafis pusat data.

Namun, untuk memanfaatkan sumber daya ini secara efektif dalam lingkungan yang terdistribusi, kita perlu mengatasi berbagai tantangan.

Pertama, teknik pelatihan terdistribusi saat ini mengasumsikan komunikasi yang sering antar node.

Model tercanggih saat ini telah berkembang begitu besar sehingga pelatihan harus dibagi ke ribuan GPU. Hal ini dicapai melalui berbagai teknik paralelisasi, biasanya memisahkan model, kumpulan data, atau keduanya secara bersamaan di seluruh GPU yang tersedia. Hal ini biasanya memerlukan jaringan dengan bandwidth tinggi dan latensi rendah, jika tidak, node akan diam dan menunggu data tiba.

Misalnya, paralelisme data terdistribusi (DDP) mendistribusikan kumpulan data ke seluruh GPU, dengan masing-masing GPU melatih model lengkap pada bagian data tertentu dan kemudian membagikan pembaruan gradiennya untuk menghasilkan bobot model baru di setiap langkah. Hal ini memerlukan overhead komunikasi yang relatif terbatas, karena node hanya berbagi pembaruan gradien setelah setiap propagasi mundur, dan operasi komunikasi kolektif sebagian dapat tumpang tindih dengan komputasi. Namun, pendekatan ini hanya berfungsi untuk model yang lebih kecil karena mengharuskan setiap GPU untuk menyimpan seluruh bobot model, aktivasi, dan status pengoptimal di memori. Misalnya, GPT-4 memerlukan memori lebih dari 10 TB saat pelatihan, sedangkan satu H100 hanya memiliki 80 GB.

Untuk mengatasi masalah ini, kami juga menggunakan berbagai teknik untuk membagi model untuk didistribusikan ke seluruh GPU. Misalnya, paralelisme tensor membagi bobot individu dalam satu lapisan, memungkinkan setiap GPU melakukan operasi yang diperlukan dan meneruskan output ke GPU lainnya. Hal ini mengurangi kebutuhan memori setiap GPU, namun memerlukan komunikasi yang konstan di antara keduanya, sehingga memerlukan koneksi bandwidth tinggi dan latensi rendah untuk efisiensi.

Paralelisme pipeline mendistribusikan lapisan model ke seluruh GPU, dengan masing-masing GPU menjalankan tugasnya dan berbagi pembaruan dengan GPU berikutnya dalam pipeline. Meskipun hal ini memerlukan lebih sedikit komunikasi dibandingkan paralelisme tensor, "gelembung" (misalnya, waktu idle) dapat terjadi saat GPU di bagian belakang pipeline menunggu informasi dari GPU di bagian depan untuk memulai pekerjaannya.

Untuk mengatasi tantangan tersebut, berbagai teknologi telah dikembangkan. Misalnya, ZeRO (Zero Redundancy Optimizer) adalah teknik pengoptimalan memori yang mengurangi penggunaan memori dengan meningkatkan overhead komunikasi, sehingga model yang lebih besar dapat dilatih pada perangkat tertentu. ZeRO mengurangi kebutuhan memori dengan memisahkan parameter model, gradien, dan status pengoptimal antar GPU, tetapi mengandalkan komunikasi ekstensif sehingga perangkat dapat memperoleh data terpisah. Ini adalah pendekatan yang mendasari teknologi populer seperti Fully Sharded Data Parallel (FSDP) dan DeepSpeed.

Teknik-teknik ini sering digabungkan dalam pelatihan model besar untuk memaksimalkan pemanfaatan sumber daya, yang dikenal sebagai paralelisme 3D. Dalam konfigurasi ini, paralelisme tensor sering digunakan untuk mendistribusikan bobot ke seluruh GPU dalam satu server karena diperlukan komunikasi ekstensif antara setiap lapisan terpisah. Paralelisme saluran pipa kemudian digunakan untuk mendistribusikan tingkatan antara server yang berbeda (tetapi dalam pulau yang sama di pusat data) karena memerlukan lebih sedikit komunikasi. Selanjutnya, paralelisme data atau paralelisme data sharded penuh (FSDP) digunakan untuk membagi kumpulan data ke berbagai pulau server, karena dapat mengakomodasi kumpulan data yang lebih panjang dengan berbagi pembaruan secara asinkron dan/atau mengompresi gradien jaringan. Meta menggunakan pendekatan gabungan ini untuk melatih Llama 3.1, seperti yang ditunjukkan pada diagram di bawah.

Pendekatan ini menimbulkan tantangan utama bagi jaringan pelatihan terdesentralisasi yang mengandalkan perangkat yang terhubung melalui internet tingkat konsumen (yang lebih lambat dan lebih mudah berubah). Dalam lingkungan ini, biaya komunikasi dapat dengan cepat melebihi manfaat komputasi edge karena perangkat sering kali menganggur dan menunggu data tiba. Sebagai contoh sederhana, pelatihan paralel data terdistribusi dari model setengah presisi dengan 1 miliar parameter mengharuskan setiap GPU untuk berbagi 2 GB data di setiap langkah pengoptimalan. Mengambil bandwidth Internet pada umumnya (misalnya, 1 gigabit per detik) sebagai contoh, dan dengan asumsi bahwa komputasi dan komunikasi tidak tumpang tindih, transmisi pembaruan gradien memerlukan waktu setidaknya 16 detik, sehingga mengakibatkan banyak kemalasan. Teknik seperti paralelisme tensor (yang memerlukan lebih banyak komunikasi) tentu saja akan berkinerja lebih buruk.

Kedua, teknik pelatihan saat ini kurang memiliki toleransi kesalahan. Seperti sistem terdistribusi lainnya, cluster pelatihan menjadi lebih rentan terhadap kegagalan seiring bertambahnya ukuran. Namun, masalah ini diperparah dalam pelatihan karena teknologi kami saat ini sebagian besar bersifat sinkron, artinya GPU harus bekerja sama untuk menyelesaikan pelatihan model. Kegagalan satu GPU di antara ribuan GPU dapat menghentikan seluruh proses pelatihan, sehingga memaksa GPU lain untuk memulai pelatihan dari awal. Dalam beberapa kasus, sebuah GPU tidak gagal total, melainkan menjadi lamban karena berbagai alasan, sehingga memperlambat ribuan GPU lain di cluster. Mengingat besarnya klaster saat ini, hal ini dapat menimbulkan biaya tambahan sebesar puluhan hingga ratusan juta dolar.

Meta menguraikan masalah ini selama pelatihan Llama, di mana mereka mengalami lebih dari 400 gangguan tak terduga, dengan rata-rata delapan gangguan per hari. Pemadaman ini terutama disebabkan oleh masalah perangkat keras, seperti kegagalan perangkat keras GPU atau host. Hal ini mengakibatkan utilisasi GPU mereka hanya 38-43%. OpenAI berkinerja lebih buruk lagi selama pelatihan pada GPT-4, hanya 32-36%, juga karena seringnya terjadi gangguan selama pelatihan.

Dengan kata lain, laboratorium mutakhir masih kesulitan untuk mencapai utilisasi 40% saat melakukan pelatihan di lingkungan yang sepenuhnya optimal yang mencakup perangkat keras, jaringan, daya, dan sistem pendingin yang homogen dan canggih. Hal ini terutama disebabkan oleh kegagalan perangkat keras dan masalah jaringan, yang diperburuk di lingkungan pelatihan edge karena perangkat memiliki ketidakseimbangan dalam daya pemrosesan, bandwidth, latensi, dan keandalan. Belum lagi, jaringan terdesentralisasi rentan terhadap pelaku jahat yang mungkin mencoba merusak keseluruhan proyek atau melakukan kecurangan pada beban kerja tertentu karena berbagai alasan. Bahkan SETI@home, yang merupakan jaringan relawan murni, pernah mengalami kecurangan yang dilakukan oleh berbagai partisipan.

Ketiga, pelatihan model mutakhir memerlukan daya komputasi skala besar. Meskipun proyek seperti SETI dan Folding telah mencapai skala yang mengesankan, proyek tersebut tidak ada apa-apanya jika dibandingkan dengan daya komputasi yang dibutuhkan untuk pelatihan mutakhir saat ini. GPT-4 dilatih pada cluster yang terdiri dari 20.000 A100 dan mencapai throughput puncak 6,28 ExaFLOPS dengan setengah presisi. Itu berarti kekuatan komputasi tiga kali lebih besar daripada yang dimiliki Folding@home pada puncaknya. Llama 405b dilatih menggunakan 16.000 H100 dan mencapai throughput puncak 15,8 ExaFLOPS, 7x puncak Lipat. Kesenjangan ini akan semakin melebar karena beberapa laboratorium berencana untuk membangun cluster yang berisi lebih dari 100.000 H100, yang masing-masing mampu menghasilkan daya komputasi sebesar 99 ExaFLOPS.

Hal ini masuk akal karena proyek @home didorong oleh sukarelawan. Kontributor menyumbangkan siklus memori dan prosesor mereka serta menanggung biaya terkait. Hal ini tentu saja membatasi ukurannya dibandingkan dengan proyek komersial.

perkembangan terkini

Meskipun masalah-masalah ini secara historis menghambat upaya pelatihan yang terdesentralisasi, masalah-masalah tersebut tampaknya tidak lagi dapat diatasi. Teknologi pelatihan baru telah muncul yang mengurangi kebutuhan komunikasi antar node, memungkinkan pelatihan yang efisien pada perangkat yang terhubung ke internet. Banyak dari teknologi ini berasal dari laboratorium besar yang ingin menambah skala pelatihan model yang lebih besar dan oleh karena itu memerlukan teknologi komunikasi yang efisien di seluruh pusat data. Kami juga melihat kemajuan dalam metode pelatihan yang toleran terhadap kesalahan dan sistem insentif kriptografi yang dapat mendukung pelatihan skala besar di lingkungan edge.

Teknologi komunikasi yang efisien

DiLoCo adalah upaya terbaru Google yang mengurangi overhead komunikasi dengan melakukan pengoptimalan lokal sebelum meneruskan status model yang diperbarui antar perangkat. Pendekatan mereka (berdasarkan penelitian pembelajaran gabungan sebelumnya) menunjukkan hasil yang sebanding dengan pelatihan sinkron tradisional sekaligus mengurangi komunikasi antar node sebanyak 500 kali lipat. Pendekatan ini telah direplikasi oleh peneliti lain dan ditingkatkan untuk melatih model yang lebih besar (lebih dari 1 miliar parameter). Hal ini juga meluas ke pelatihan asinkron, yang berarti node dapat berbagi pembaruan gradien pada waktu yang berbeda alih-alih membagikan semuanya sekaligus. Ini lebih mengakomodasi perangkat keras edge dengan berbagai kemampuan pemrosesan dan kecepatan jaringan.

Pendekatan paralel data lainnya, seperti lo-fi dan DisTrO, bertujuan untuk lebih mengurangi biaya komunikasi. Lo-fi mengusulkan pendekatan penyesuaian lokal sepenuhnya, yang berarti node dilatih secara independen dan hanya bobot yang diteruskan pada akhirnya. Pendekatan ini mencapai kinerja yang sebanding dengan garis dasar sekaligus menghilangkan overhead komunikasi saat menyempurnakan model bahasa dengan lebih dari 1 miliar parameter. Dalam laporan awal, DisTrO mengklaim menggunakan pengoptimal terdistribusi baru yang mereka yakini dapat mengurangi kebutuhan komunikasi sebanyak empat hingga lima kali lipat, meskipun pendekatan ini belum dapat dikonfirmasi.

Metode paralelisme model baru juga telah muncul, sehingga memungkinkan untuk mencapai skala yang lebih besar. DiPaCo (juga dari Google) membagi model menjadi beberapa modul, masing-masing berisi modul ahli berbeda untuk memfasilitasi pelatihan untuk tugas tertentu. Data pelatihan kemudian dibagi berdasarkan "jalur", yang merupakan rangkaian pakar yang sesuai dengan setiap sampel data. Dengan adanya shard, setiap pekerja dapat melatih jalur tertentu hampir secara mandiri, kecuali komunikasi yang diperlukan untuk berbagi modul, yang ditangani oleh DiLoCo. Arsitektur ini mengurangi waktu pelatihan model miliaran parameter hingga lebih dari setengahnya.

Paralelisme SWARM dan Pelatihan Model Dasar Terdesentralisasi di Lingkungan Heterogen (DTFMHE) juga mengusulkan metode paralelisme model untuk mencapai pelatihan model besar di lingkungan heterogen. SWARM menemukan bahwa seiring bertambahnya ukuran model, batasan komunikasi paralelisme pipeline berkurang, sehingga memungkinkan untuk melatih model yang lebih besar secara efisien dengan bandwidth jaringan yang lebih rendah dan latensi yang lebih tinggi. Untuk menerapkan ide ini dalam lingkungan yang heterogen, mereka menggunakan "koneksi pipa" sementara antar node yang dapat diperbarui secara real time pada setiap iterasi. Hal ini memungkinkan node mengirimkan outputnya ke rekan mana pun untuk tahap pipeline berikutnya. Artinya, jika rekan lebih cepat dibandingkan yang lain, atau jika ada peserta yang terputus, keluaran dapat dialihkan secara dinamis untuk memastikan bahwa pelatihan terus berlanjut selama setidaknya ada satu peserta aktif di setiap fase. Mereka menggunakan pendekatan ini untuk melatih model dengan lebih dari 1 miliar parameter pada GPU heterogen berbiaya rendah dengan interkoneksi lambat (seperti yang ditunjukkan pada gambar di bawah).

DTFMHE juga mengusulkan algoritma penjadwalan baru, bersama dengan paralelisme saluran pipa dan paralelisme data, untuk melatih model besar pada perangkat di 3 benua. Meskipun kecepatan jaringan mereka 100 kali lebih lambat dibandingkan Deepspeed standar, pendekatan mereka hanya 1,7-3,5 kali lebih lambat dibandingkan menggunakan Deepspeed standar di pusat data. Mirip dengan SWARM, DTFMHE menunjukkan bahwa biaya komunikasi dapat disembunyikan secara efektif seiring bertambahnya ukuran model, bahkan dalam jaringan yang tersebar secara geografis. Hal ini memungkinkan kami mengatasi koneksi yang lebih lemah antar node melalui berbagai teknik, termasuk meningkatkan ukuran lapisan tersembunyi dan menambahkan lebih banyak lapisan per tahap pipeline.

toleransi kesalahan

Banyak dari metode paralel data di atas yang toleran terhadap kesalahan secara default karena setiap node menyimpan seluruh model dalam memori. Redundansi ini biasanya berarti bahwa node masih dapat bekerja secara independen meskipun node lain mengalami kegagalan. Hal ini penting untuk pelatihan yang terdesentralisasi, karena node sering kali tidak dapat diandalkan, heterogen, dan bahkan mungkin berperilaku jahat. Namun, seperti disebutkan sebelumnya, metode paralel data murni hanya cocok untuk model yang lebih kecil, sehingga ukuran model dibatasi oleh kapasitas memori node terkecil dalam jaringan.

Untuk mengatasi masalah di atas, beberapa orang telah mengusulkan teknik toleransi kesalahan yang cocok untuk pelatihan model paralel (atau paralel hybrid). SWARM merespons kegagalan node rekan dengan memprioritaskan rekan stabil dengan latensi lebih rendah dan merutekan ulang tugas dalam tahapan pipeline jika terjadi kegagalan. Pendekatan lain, seperti Oobleck, mengambil pendekatan serupa dengan membuat beberapa "templat saluran" untuk menyediakan redundansi jika terjadi kegagalan sebagian node. Meskipun diuji di pusat data, pendekatan Oobleck memberikan jaminan keandalan yang kuat yang juga berlaku pada lingkungan yang terdesentralisasi.

Kami juga melihat beberapa arsitektur model baru (seperti Decentralized Mixture of Experts (DMoE)) untuk mendukung pelatihan yang toleran terhadap kesalahan dalam lingkungan yang terdesentralisasi. Mirip dengan model hibrid pakar tradisional, DMoE terdiri dari beberapa jaringan "ahli" independen yang didistribusikan ke sekumpulan node pekerja. DMoE menggunakan tabel hash terdistribusi untuk melacak dan mengkonsolidasikan pembaruan asinkron dengan cara yang terdesentralisasi. Mekanisme ini (juga digunakan dalam SWARM) sangat tahan terhadap kegagalan node, karena dapat mengecualikan pakar tertentu dari perhitungan rata-rata jika beberapa node gagal atau gagal merespons tepat waktu.

skala

Terakhir, sistem insentif kriptografi seperti yang digunakan oleh Bitcoin dan Ethereum dapat membantu mencapai skala yang diperlukan. Kedua jaringan melakukan crowdsourcing komputasi dengan membayar kontributor aset asli yang nilainya meningkat seiring dengan meningkatnya adopsi. Desain ini memberikan insentif kepada kontributor awal dengan memberi mereka imbalan yang besar, yang dapat dikurangi secara bertahap setelah jaringan mencapai ukuran minimum yang layak.

Memang benar, ada berbagai kendala dalam mekanisme ini yang perlu dihindari. Kendala utamanya adalah merangsang pasokan secara berlebihan dan gagal menghasilkan permintaan yang sesuai. Selain itu, hal ini dapat menimbulkan masalah peraturan jika jaringan yang mendasarinya tidak cukup terdesentralisasi. Namun, jika dirancang dengan baik, sistem insentif yang terdesentralisasi dapat mencapai skala yang besar dalam jangka waktu yang lama.

Misalnya, konsumsi listrik tahunan Bitcoin adalah sekitar 150 terawatt jam (TWh), yang berarti dua kali lipat lebih besar dari konsumsi listrik cluster pelatihan AI terbesar yang saat ini ada (100,000 H100 beroperasi dengan kapasitas penuh selama setahun). Sebagai referensi, GPT-4 OpenAI dilatih pada 20.000 A100, dan model Llama 405B andalan Meta dilatih pada 16.000 H100. Demikian pula, pada puncaknya, konsumsi daya Ethereum sekitar 70 TWh, tersebar di jutaan GPU. Meskipun pusat data AI berkembang pesat di tahun-tahun mendatang, jaringan komputasi yang diberi insentif seperti ini akan melampaui skalanya berkali-kali lipat.

Tentu saja, tidak semua komputasi dapat dipertukarkan, dan pelatihan memiliki persyaratan unik terkait penambangan yang perlu dipertimbangkan. Meskipun demikian, jaringan-jaringan ini menunjukkan skala yang dapat dicapai melalui mekanisme-mekanisme ini.

Jalan di depan

Dengan menyatukan bagian-bagian ini, kita dapat melihat awal dari jalan baru ke depan.

Teknologi pelatihan baru akan segera memungkinkan kita untuk melampaui batas-batas pusat data, karena perangkat tidak lagi perlu ditempatkan di satu lokasi agar efektif. Hal ini memerlukan waktu karena metode pelatihan terdesentralisasi yang ada saat ini masih dalam skala yang lebih kecil, sebagian besar berkisar antara 1 miliar hingga 2 miliar parameter, jauh lebih kecil dibandingkan model seperti GPT-4. Terobosan lebih lanjut diperlukan untuk meningkatkan skala metode ini tanpa mengorbankan properti utama seperti efisiensi komunikasi dan toleransi kesalahan. Atau kita memerlukan arsitektur model baru yang berbeda dari model monolitik besar saat ini - mungkin lebih kecil dan lebih modular, berjalan di perangkat edge dibandingkan di cloud

Bagaimanapun, masuk akal untuk mengharapkan kemajuan lebih lanjut ke arah ini. Biaya yang ditimbulkan dari metode kami saat ini tidak berkelanjutan, sehingga memberikan insentif pasar yang kuat untuk inovasi. Kami sudah melihat tren ini, dengan produsen seperti Apple membangun perangkat edge yang lebih kuat untuk menjalankan lebih banyak beban kerja secara lokal dibandingkan mengandalkan cloud. Kami juga melihat semakin besarnya dukungan terhadap solusi sumber terbuka—bahkan di dalam perusahaan seperti Meta—untuk mendorong penelitian dan pengembangan yang lebih terdesentralisasi. Tren ini hanya akan meningkat seiring berjalannya waktu.

Pada saat yang sama, kita juga memerlukan infrastruktur jaringan baru untuk menghubungkan perangkat edge agar dapat menggunakannya dengan cara ini. Perangkat ini mencakup laptop, desktop gaming, dan bahkan mungkin ponsel dengan kartu grafis berperforma tinggi dan memori dalam jumlah besar. Hal ini akan memungkinkan kita membangun "klaster global" dengan daya komputasi berbiaya rendah dan selalu aktif yang dapat memproses tugas-tugas pelatihan secara paralel. Ini juga merupakan masalah menantang yang memerlukan kemajuan di berbagai bidang.

Kita memerlukan teknik penjadwalan yang lebih baik untuk pelatihan di lingkungan yang heterogen. Saat ini tidak ada cara untuk memparalelkan model secara otomatis untuk pengoptimalan, terutama ketika perangkat dapat diputuskan atau dihubungkan kapan saja. Ini adalah langkah penting berikutnya dalam mengoptimalkan pelatihan sambil mempertahankan keunggulan skala jaringan berbasis edge.

Kita juga harus menghadapi kompleksitas umum dari jaringan yang terdesentralisasi. Untuk memaksimalkan skala, jaringan harus dibangun sebagai protokol terbuka—seperangkat standar dan instruksi yang menentukan interaksi antar peserta, seperti TCP/IP tetapi untuk komputasi pembelajaran mesin. Ini akan memungkinkan perangkat apa pun yang mematuhi spesifikasi tertentu untuk terhubung ke jaringan, terlepas dari pemilik dan lokasinya. Hal ini juga memastikan bahwa jaringan tetap netral, memungkinkan pengguna untuk melatih model yang mereka sukai.

Meskipun hal ini memaksimalkan skala, hal ini juga memerlukan mekanisme untuk memverifikasi kebenaran semua tugas pelatihan tanpa bergantung pada satu entitas. Hal ini penting karena ada insentif yang melekat untuk berbuat curang – misalnya, mengaku telah menyelesaikan tugas pelatihan untuk mendapatkan bayaran, namun sebenarnya tidak melakukannya. Hal ini sangat menantang mengingat perangkat yang berbeda sering kali menjalankan operasi pembelajaran mesin secara berbeda, sehingga sulit untuk memverifikasi kebenarannya menggunakan teknik replikasi standar. Pemecahan masalah ini dengan benar memerlukan penelitian mendalam di bidang kriptografi dan disiplin ilmu lainnya.

Untungnya, kami terus melihat kemajuan di semua bidang ini. Tantangan-tantangan ini tampaknya tidak lagi dapat diatasi dibandingkan tahun-tahun sebelumnya. Peluangnya juga tidak ada apa-apanya. Google merangkumnya dengan baik dalam makalah DiPaCo mereka, dengan menunjukkan mekanisme umpan balik negatif yang berpotensi dirusak oleh pelatihan terdesentralisasi:

Kemajuan dalam pelatihan model pembelajaran mesin yang terdistribusi dapat memfasilitasi pembangunan infrastruktur yang disederhanakan, yang pada akhirnya mengarah pada ketersediaan sumber daya komputasi yang lebih luas. Saat ini, infrastruktur dirancang berdasarkan metode standar untuk melatih model monolitik besar, dan model pembelajaran mesin dirancang untuk memanfaatkan infrastruktur dan metode pelatihan saat ini. Putaran umpan balik ini dapat menjebak masyarakat ke dalam kondisi minimum lokal yang menyesatkan, dimana sumber daya komputasi lebih terbatas daripada yang sebenarnya dibutuhkan.

Mungkin yang paling menarik adalah meningkatnya antusiasme komunitas riset untuk menjawab pertanyaan-pertanyaan ini. Tim kami di Gensyn sedang membangun infrastruktur jaringan yang dijelaskan di atas. Tim seperti Hivemind dan BigScience menerapkan banyak teknik ini dalam praktiknya. Proyek seperti Petals, sahajBERT, dan Bloom menunjukkan kemampuan teknologi ini, serta meningkatnya minat terhadap pembelajaran mesin berbasis komunitas. Banyak pihak lain yang juga mendorong penelitian ke depan, dengan tujuan membangun ekosistem pelatihan model yang lebih terbuka dan kolaboratif. Jika Anda tertarik dengan pekerjaan ini, silakan hubungi kami untuk terlibat.