Penulis: Ed Roman, Managing Partner di Hack VC
Disusun: 1912212.eth , Berita Pandangan ke Depan
AI + Kripto adalah salah satu bidang terdepan yang telah menarik banyak perhatian di pasar mata uang kripto baru-baru ini, seperti pelatihan AI terdesentralisasi, GPU DePIN, dan model AI yang tahan sensor.
Di balik kemajuan yang menakjubkan ini, mau tidak mau kita bertanya: Apakah ini merupakan terobosan teknologi nyata atau sekadar topik hangat? Artikel ini akan menghilangkan kabut untuk Anda, menganalisis enkripsi x visi AI dan mendiskusikan tantangan dan peluang nyata, serta mengungkap mana yang merupakan janji kosong dan mana yang benar-benar layak dilakukan?
Visi #1: Pelatihan AI yang terdesentralisasi
Masalah dengan pelatihan AI on-chain adalah memerlukan komunikasi dan koordinasi berkecepatan tinggi antar GPU karena jaringan saraf memerlukan propagasi mundur saat pelatihan. Nvidia memiliki dua inovasi untuk ini (NVLink dan InfiniBand). Teknologi ini membuat komunikasi GPU menjadi super cepat, namun ini merupakan teknologi lokal saja yang hanya bekerja pada cluster GPU (kecepatan 50+ gigabit) yang terletak dalam satu pusat data.
Jika jaringan terdesentralisasi diperkenalkan, kecepatannya akan tiba-tiba melambat beberapa kali lipat karena peningkatan latensi dan bandwidth jaringan. Dibandingkan dengan throughput yang bisa Anda peroleh dari interkoneksi berkecepatan tinggi Nvidia dalam pusat data, kecepatan ini tidak mungkin dilakukan untuk kasus penggunaan pelatihan AI.
Perhatikan bahwa ada juga inovasi di bawah ini yang mungkin menawarkan harapan untuk masa depan:
Pelatihan terdistribusi tentang InfiniBand dilakukan dalam skala besar, karena NVIDIA sendiri mendukung pelatihan non-pribumi terdistribusi tentang InfiniBand melalui NVIDIA Collective Communications Library. Namun, ini masih dalam tahap awal, sehingga metrik adopsinya belum ditentukan. Hambatan hukum fisik dalam hal jarak masih ada, sehingga pelatihan lokal tentang InfiniBand masih jauh lebih cepat.
Beberapa penelitian baru telah dipublikasikan mengenai pelatihan terdesentralisasi yang memerlukan waktu sinkronisasi komunikasi lebih sedikit, yang mungkin menjadikan pelatihan terdesentralisasi lebih praktis di masa depan.
Sharding cerdas dan penjadwalan pelatihan model membantu meningkatkan kinerja. Demikian pula, arsitektur model baru mungkin dirancang khusus untuk infrastruktur terdistribusi di masa depan (Gensyn sedang melakukan penelitian di bidang ini).
Bagian data dari pelatihan juga menantang. Setiap proses pelatihan AI melibatkan pemrosesan data dalam jumlah besar. Biasanya, model dilatih pada sistem penyimpanan data aman terpusat dengan skalabilitas dan performa tinggi. Hal ini memerlukan transfer dan pemrosesan data berukuran terabyte, dan ini bukan siklus satu kali. Data sering kali bermasalah dan mengandung kesalahan, sehingga harus dibersihkan dan diubah menjadi format yang dapat digunakan sebelum melatih model. Tahap ini melibatkan tugas berulang dalam menstandardisasi, menyaring, dan menangani nilai yang hilang. Semua ini menghadapi tantangan serius dalam lingkungan yang terdesentralisasi.
Bagian data pelatihan juga bersifat iteratif, yang tidak kompatibel dengan Web3. Open AI melalui ribuan iterasi untuk mencapai hasilnya. Skenario tugas paling dasar bagi data scientist dalam tim AI mencakup penentuan tujuan, penyiapan data, analisis dan kurasi data untuk mengekstraksi wawasan penting, dan membuatnya sesuai untuk pemodelan. Kemudian, kembangkan model pembelajaran mesin untuk memecahkan masalah yang ditentukan dan validasi performanya menggunakan kumpulan data pengujian. Prosesnya berulang: jika model saat ini tidak berfungsi seperti yang diharapkan, para ahli kembali ke tahap pengumpulan data atau pelatihan model untuk meningkatkan hasilnya. Bayangkan jika proses ini dilakukan dalam lingkungan yang terdesentralisasi, tidak akan mudah untuk mengadaptasi kerangka kerja dan alat tercanggih yang ada di Web3.
Masalah lain dalam melatih model AI secara on-chain adalah bahwa pasar ini kurang menarik dibandingkan inferensi. Saat ini, pelatihan model bahasa AI skala besar memerlukan sumber daya komputasi GPU yang besar. Dalam jangka panjang, inferensi akan menjadi kasus penggunaan utama GPU. Bayangkan saja berapa banyak model bahasa AI besar yang perlu dilatih untuk memenuhi permintaan global. Mana yang lebih banyak dibandingkan jumlah pelanggan yang menggunakan model tersebut?
Asumsi #2: Gunakan penghitungan inferensi AI yang terlalu berlebihan untuk mencapai konsensus
Tantangan lain terkait kriptografi dan AI adalah memverifikasi keakuratan inferensi AI, karena Anda tidak dapat sepenuhnya mempercayai satu pihak terpusat untuk melakukan operasi inferensi, dan terdapat potensi risiko bahwa node dapat berperilaku tidak tepat. Tantangan ini tidak ada di Web2 AI karena tidak ada sistem konsensus yang terdesentralisasi.
Solusinya adalah komputasi redundan, yang memungkinkan beberapa node mengulangi operasi inferensi AI yang sama, yang dapat berjalan di lingkungan yang tidak dapat dipercaya dan menghindari satu titik kegagalan.
Namun, masalah dengan pendekatan ini adalah kurangnya chip AI kelas atas. Waktu tunggu selama setahun untuk chip NVIDIA kelas atas menaikkan harga. Jika Anda memerlukan inferensi AI untuk dieksekusi ulang beberapa kali pada beberapa node, hal ini akan menjadi lebih mahal secara eksponensial, sehingga tidak layak untuk banyak proyek.
Asumsi #3: Kasus penggunaan AI khusus Web3 jangka pendek
Telah disarankan bahwa Web3 harus memiliki kasus penggunaan AI uniknya sendiri yang secara khusus ditargetkan pada pelanggan Web3. Ini bisa berupa (misalnya) protokol Web3 yang menggunakan AI untuk mengambil risiko mencetak kumpulan DeFi, dompet Web3 yang menyarankan protokol baru kepada pengguna berdasarkan riwayat dompet, atau game Web3 yang menggunakan AI untuk mengontrol karakter non-pemain (NPC).
Untuk saat ini, ini adalah pasar yang baru lahir (dalam jangka pendek) dimana kasus penggunaan masih dieksplorasi. Beberapa tantangannya antara lain:
Karena permintaan pasar masih dalam tahap awal, potensi kesepakatan AI yang diperlukan untuk kasus penggunaan asli Web3 lebih sedikit.
Pelanggannya lebih sedikit, pelanggan Web3 jauh lebih sedikit dibandingkan pelanggan Web2, sehingga pasarnya kurang terdesentralisasi.
Kliennya sendiri kurang stabil karena mereka adalah startup dengan pendanaan yang lebih sedikit, dan beberapa startup mungkin akan mati seiring berjalannya waktu. Dan penyedia layanan AI Web3 yang melayani pelanggan Web3 mungkin perlu mendapatkan kembali sebagian basis pelanggan mereka untuk menggantikan basis pelanggan yang telah hilang, sehingga meningkatkan skala bisnis mereka menjadi sangat menantang.
Dalam jangka panjang, kami sangat optimis terhadap kasus penggunaan AI asli Web3, terutama karena agen AI menjadi lebih umum. Kami membayangkan bahwa di masa depan setiap pengguna Web3 akan memiliki sejumlah besar agen AI untuk membantu mereka menyelesaikan tugasnya.
Visi #4: DePIN GPU Konsumen
Ada banyak jaringan komputasi AI terdesentralisasi yang mengandalkan GPU konsumen daripada pusat data. GPU konsumen ideal untuk tugas inferensi AI kelas bawah atau kasus penggunaan konsumen yang latensi, throughput, dan keandalannya fleksibel. Namun untuk kasus penggunaan perusahaan yang serius (yang merupakan mayoritas pasar yang penting), pelanggan memerlukan jaringan dengan keandalan yang lebih tinggi dibandingkan mesin rumahan, dan seringkali GPU kelas atas jika mereka memiliki tugas inferensi yang lebih kompleks. Pusat data lebih cocok untuk kasus penggunaan pelanggan yang lebih bernilai ini.
Perhatikan bahwa kami menganggap GPU tingkat konsumen cocok untuk demo, serta individu dan startup yang dapat mentolerir keandalan yang lebih rendah. Namun pelanggan ini kurang berharga, jadi kami yakin DePIN yang dirancang khusus untuk perusahaan Web2 akan lebih bernilai dalam jangka panjang. Hasilnya, proyek GPU DePIN telah berevolusi dari awalnya hanya perangkat keras tingkat konsumen menjadi memiliki A100/H100 dan ketersediaan tingkat cluster.
Realitas – Kasus Penggunaan Praktis Cryptocurrency x AI
Sekarang kita membahas kasus penggunaan yang memberikan manfaat nyata. Ini adalah kemenangan sesungguhnya, dan Crypto x AI dapat menambah nilai yang jelas.
Manfaat Nyata #1: Melayani Pelanggan Web2
McKinsey memperkirakan bahwa dari 63 kasus penggunaan yang dianalisis, AI generatif dapat menambah pendapatan tahunan sebesar $2,6 triliun hingga $4,4 triliun – dibandingkan dengan total PDB Inggris pada tahun 2021 sebesar $3,1 triliun. Hal ini akan meningkatkan dampak AI sebesar 15% hingga 40%. Jika kita memperhitungkan dampak AI generatif yang tertanam dalam perangkat lunak yang saat ini digunakan untuk tugas-tugas selain kasus penggunaan, dampaknya diperkirakan akan meningkat dua kali lipat.
Jika Anda menghitung berdasarkan perkiraan di atas, ini berarti total nilai pasar global untuk AI (di luar AI generatif) bisa mencapai puluhan triliun dolar. Sebagai perbandingan, nilai total semua mata uang kripto (termasuk Bitcoin dan semua altcoin) saat ini hanya sekitar $2,7 triliun. Mari kita akui: sebagian besar pelanggan yang membutuhkan AI dalam jangka pendek adalah pelanggan Web2, karena pelanggan Web3 yang benar-benar membutuhkan AI hanya sebagian kecil dari $2,7 triliun ini (mengingat BTC adalah pasarnya, Bitcoin itu sendiri tidak memerlukan/menggunakan AI).
Kasus penggunaan AI Web3 baru saja dimulai, dan belum jelas seberapa besar pasarnya. Tapi satu hal yang pasti – ini hanya akan mencakup sebagian kecil dari pasar Web2 di masa mendatang. Kami yakin AI Web3 masih memiliki masa depan cerah, namun itu berarti penerapan AI Web3 yang paling canggih saat ini melayani pelanggan Web2.
Contoh hipotetis pelanggan Web2 yang dapat memperoleh manfaat dari AI Web3 meliputi:
Membangun perusahaan perangkat lunak khusus vertikal yang berpusat pada AI (misalnya Cedar.ai atau Observe.ai)
Perusahaan besar yang menyempurnakan model untuk tujuan mereka sendiri (misalnya Netflix)
Penyedia AI yang berkembang pesat (misalnya Anthropic )
Perusahaan perangkat lunak yang mengintegrasikan AI ke dalam produk yang sudah ada (misalnya Canva)
Ini adalah peran pelanggan yang relatif stabil karena pelanggan biasanya berjumlah besar dan berharga. Kemungkinan besar mereka tidak akan gulung tikar dalam waktu dekat, dan mereka mewakili pelanggan potensial yang besar untuk layanan AI. Layanan AI Web3 yang melayani pelanggan Web2 akan mendapatkan keuntungan dari basis pelanggan yang stabil ini.
Namun mengapa pelanggan Web2 ingin menggunakan tumpukan Web3? Sisa artikel ini menjelaskan situasi ini.
Manfaat Nyata #2: Menurunkan biaya penggunaan GPU dengan GPU DePIN
GPU DePIN mengumpulkan daya komputasi GPU yang kurang dimanfaatkan, yang paling andal berasal dari pusat data, dan membuatnya tersedia untuk inferensi AI. Analogi sederhana untuk masalah ini adalah "Airbnb di GPU".
Alasan kami tertarik dengan GPU DePIN adalah, seperti disebutkan di atas, terdapat kekurangan chip NVIDIA dan saat ini terdapat siklus GPU yang terbuang yang dapat digunakan untuk inferensi AI. Pemilik perangkat keras ini telah kehilangan biaya dan peralatan yang saat ini kurang dimanfaatkan, sehingga sebagian GPU ini dapat tersedia dengan biaya yang jauh lebih rendah daripada status quo karena hal ini sebenarnya "mencari uang" bagi pemilik perangkat keras.
Contohnya meliputi:
mesin AWS. Jika Anda menyewa H100 dari AWS hari ini, Anda harus berkomitmen untuk menyewa selama 1 tahun karena pasokan pasar terbatas. Hal ini menimbulkan pemborosan karena Anda mungkin tidak akan menggunakan GPU 7 hari seminggu, 365 hari setahun.
Perangkat keras penambangan Filecoin. Filecoin memiliki pasokan bersubsidi yang besar tetapi permintaan riilnya tidak besar. Filecoin tidak pernah menemukan kesesuaian pasar produk yang sebenarnya, sehingga penambang Filecoin berisiko gulung tikar. Mesin-mesin ini dilengkapi dengan GPU yang dapat digunakan kembali untuk tugas-tugas inferensi AI kelas bawah.
Perangkat keras penambangan ETH. Saat Ethereum bertransisi dari PoW ke PoS, hal ini dengan cepat membebaskan banyak perangkat keras yang dapat digunakan kembali untuk inferensi AI.
Perlu diperhatikan bahwa tidak semua perangkat keras GPU cocok untuk inferensi AI. Salah satu alasan yang jelas untuk hal ini adalah GPU lama tidak memiliki jumlah memori GPU yang dibutuhkan untuk LLM, meskipun sudah ada beberapa inovasi menarik yang dapat membantu dalam hal ini. Misalnya, teknologi Exabits dapat memuat neuron aktif ke dalam memori GPU dan neuron tidak aktif ke dalam memori CPU. Mereka memprediksi neuron mana yang perlu aktif/tidak aktif. Hal ini memungkinkan GPU kelas bawah untuk menangani beban kerja AI, bahkan dengan memori GPU yang terbatas. Hal ini secara efektif membuat GPU kelas bawah lebih berguna untuk inferensi AI.
DePIN AI Web3 perlu mengembangkan produknya dari waktu ke waktu dan menyediakan layanan tingkat perusahaan seperti sistem masuk tunggal, kepatuhan SOC 2, perjanjian tingkat layanan (SLA), dll. Hal ini mirip dengan apa yang ditawarkan penyedia layanan cloud saat ini kepada pelanggan Web2.
Manfaat Nyata #3: Model tahan sensor untuk menghindari sensor mandiri OpenAI
Ada banyak diskusi tentang sensor AI. Turki, misalnya, untuk sementara waktu melarang Open AI (mereka kemudian mengubah pendekatannya ketika Open AI meningkatkan kepatuhan). Kami percaya bahwa sensor di tingkat nasional tidak menarik karena negara-negara perlu mengadopsi AI agar tetap kompetitif.
Open AI juga melakukan sensor mandiri. Misalnya, Open AI tidak akan menangani konten NSFW. Open AI juga tidak akan memprediksi pemilihan presiden berikutnya. Kami pikir kasus penggunaan AI tidak hanya menarik tetapi juga merupakan pasar yang besar, tetapi Open AI tidak akan disentuh karena alasan politik.
Open source adalah solusi yang bagus karena repositori Github tidak dipengaruhi oleh pemegang saham atau dewan direksi. Salah satu contohnya adalah Venice.ai, yang menjanjikan privasi dan beroperasi dengan cara yang tahan sensor. AI Web3 dapat secara efektif membawanya ke tingkat berikutnya dengan mendukung model perangkat lunak sumber terbuka (OSS) ini pada cluster GPU berbiaya lebih rendah untuk melakukan inferensi. Karena alasan inilah kami yakin OSS + Web3 adalah kombinasi ideal untuk membuka jalan bagi AI yang tahan sensor.
Manfaat Nyata #4: Hindari mengirimkan informasi identitas pribadi ke OpenAI
Perusahaan besar mempunyai kekhawatiran privasi tentang data internal mereka. Bagi para pelanggan ini, memercayai pihak ketiga OpenAI untuk memiliki data ini mungkin sulit.
Di Web3, mungkin tampak lebih mengkhawatirkan (di permukaan) bagi perusahaan-perusahaan ini karena data internal mereka tiba-tiba muncul di web yang terdesentralisasi. Namun, terdapat inovasi dalam teknologi peningkatan privasi untuk AI:
Lingkungan Eksekusi Tepercaya (TEE), seperti Protokol Super
Enkripsi Homomorfik Sepenuhnya (FHE), seperti Fhenix.io (perusahaan portofolio dana yang dikelola oleh Hack VC) atau Inco Network (keduanya didukung oleh Zama.ai), serta PPML Bagel
Teknologi ini masih terus berkembang dan kinerjanya terus meningkat dengan Zero Knowledge (ZK) dan FHE ASIC yang akan datang. Namun tujuan jangka panjangnya adalah melindungi data perusahaan sekaligus menyempurnakan modelnya. Dengan munculnya protokol-protokol ini, Web3 mungkin menjadi tempat yang lebih menarik untuk komputasi AI yang menjaga privasi.
Manfaat Nyata #5: Manfaatkan inovasi terbaru dalam model sumber terbuka
Perangkat lunak sumber terbuka telah menggerogoti pangsa pasar perangkat lunak berpemilik selama beberapa dekade terakhir. Kami memandang LLM sebagai suatu bentuk perangkat lunak berpemilik yang mampu mengganggu OSS. Contoh penantang yang terkenal termasuk Llama, RWKV, dan Mistral.ai. Daftar ini pasti akan bertambah seiring berjalannya waktu (daftar yang lebih lengkap dapat ditemukan di Openrouter.ai). Dengan memanfaatkan AI Web3 (didukung oleh model OSS), masyarakat dapat berinovasi dengan inovasi baru ini.
Kami percaya bahwa, seiring berjalannya waktu, tenaga kerja pengembangan global open source yang dikombinasikan dengan insentif mata uang kripto dapat mendorong inovasi yang cepat dalam model open source serta agen dan kerangka kerja yang dibangun di atasnya. Contoh protokol agen AI adalah Theoriq. Theoriq memanfaatkan model OSS untuk menciptakan jaringan agen AI yang saling terhubung dan dapat dirakit untuk menciptakan solusi AI tingkat tinggi.
Alasan mengapa kami yakin akan hal ini adalah karena di masa lalu, sebagian besar inovasi "perangkat lunak pengembang" perlahan-lahan dikalahkan oleh OSS seiring berjalannya waktu. Microsoft pernah menjadi perusahaan perangkat lunak berpemilik dan sekarang menjadi perusahaan#1yang berkontribusi pada Github. Ada alasan untuk itu, jika Anda melihat bagaimana Databricks, PostGresSQL, MongoDB dan lainnya mengganggu database kepemilikan, itu adalah contoh OSS mengganggu seluruh industri, jadi preseden di sini cukup menarik.
Namun, ada masalah. Satu hal rumit tentang model bahasa besar sumber terbuka (OSS LLM) adalah OpenAI telah mulai menandatangani perjanjian lisensi data berbayar dengan beberapa organisasi, seperti Reddit dan New York Times. Jika tren ini terus berlanjut, model bahasa open source yang besar mungkin menjadi lebih sulit bersaing karena hambatan finansial dalam memperoleh data. Nvidia dapat lebih meningkatkan investasinya dalam komputasi rahasia sebagai bantuan untuk mengamankan berbagi data. Waktu akan mengungkap bagaimana hal ini terungkap.
Manfaat Nyata #6: Konsensus melalui pengambilan sampel acak yang menghemat biaya atau melalui bukti ZK
Salah satu tantangan inferensi AI Web3 adalah verifikasi. Diasumsikan bahwa validator memiliki kesempatan untuk menipu hasil mereka untuk mendapatkan bayaran, sehingga memvalidasi kesimpulan merupakan tindakan yang penting. Perhatikan bahwa kecurangan ini belum benar-benar terjadi, karena inferensi AI masih dalam tahap awal, namun hal ini tidak dapat dihindari kecuali ada tindakan yang diambil untuk mengekang perilaku ini.
Pendekatan Web3 standar adalah meminta beberapa validator mengulangi operasi yang sama dan membandingkan hasilnya. Seperti disebutkan sebelumnya, tantangan utama dalam masalah ini adalah biaya inferensi AI sangat mahal karena kurangnya chip Nvidia kelas atas saat ini. Mengingat Web3 dapat memberikan inferensi berbiaya lebih rendah melalui GPU DePIN yang kurang dimanfaatkan, komputasi yang berlebihan akan sangat melemahkan proposisi nilai Web3.
Solusi yang lebih menjanjikan adalah dengan melakukan pembuktian ZK untuk komputasi inferensi AI off-chain. Dalam hal ini, bukti ZK yang ringkas dapat diverifikasi untuk menentukan apakah model dilatih dengan benar, atau apakah inferensi berjalan dengan benar (disebut zkML). Contohnya termasuk Modulus Labs dan ZK onduit. Karena operasi ZK memerlukan komputasi yang intensif, kinerja solusi ini masih dalam tahap awal. Namun, kami memperkirakan situasi akan membaik dengan dirilisnya ASIC perangkat keras ZK dalam waktu dekat.
Yang lebih menjanjikan adalah gagasan tentang metode penalaran AI berbasis pengambilan sampel yang agak “optimis”. Dalam model ini, hanya sebagian kecil dari hasil yang dihasilkan oleh validator yang diverifikasi, namun biaya ekonomi dari tebasan tersebut ditetapkan cukup tinggi sehingga jika tertangkap, terdapat disinsentif ekonomi yang kuat bagi validator untuk berbuat curang. Dengan cara ini Anda menyimpan perhitungan yang berlebihan.
Ide menjanjikan lainnya adalah solusi watermarking dan sidik jari, seperti yang diusulkan oleh Bagel Network. Hal ini serupa dengan mekanisme yang digunakan Amazon Alexa untuk memberikan jaminan kualitas model AI dalam perangkat di jutaan perangkatnya.
Manfaat Nyata #7: Menabung dengan OSS (Keuntungan OpenAI)
Peluang berikutnya yang dibawa Web3 ke dalam AI adalah demokratisasi biaya. Sejauh ini, kita telah membahas penghematan biaya GPU dengan DePIN. Namun Web3 juga menawarkan peluang untuk menghemat margin pada layanan AI Web2 terpusat (seperti Open AI, yang hingga tulisan ini dibuat, memiliki pendapatan tahunan lebih dari $1 miliar). Penghematan biaya ini berasal dari fakta bahwa penggunaan model OSS dibandingkan model kepemilikan menghasilkan penghematan tambahan karena pembuat model tidak berusaha mendapatkan keuntungan.
Banyak model OSS yang akan tetap sepenuhnya gratis, sehingga memberikan keekonomian terbaik bagi pelanggan. Namun mungkin ada beberapa model OSS yang juga mencoba metode monetisasi ini. Pertimbangkan bahwa hanya 4% dari semua model di Hugging Face yang dilatih oleh perusahaan yang memiliki anggaran untuk membantu mensubsidi model tersebut. Sisanya, 96% model, dilatih oleh komunitas. Kelompok ini (96% dari Hugging Faces) mempunyai biaya riil dasar (termasuk biaya komputasi dan biaya data). Oleh karena itu, model-model ini perlu dimonetisasi dengan cara tertentu.
Ada beberapa usulan untuk memonetisasi model perangkat lunak sumber terbuka. Salah satu yang paling menarik adalah konsep “penerbitan model awal”, yaitu melakukan tokenisasi pada model itu sendiri, mempertahankan sebagian token untuk tim, dan menyalurkan sebagian pendapatan masa depan dari model tersebut kepada pemegang token, meskipun pasti ada beberapa hal yang perlu dilakukan. Hambatan Hukum dan Peraturan.
Model OSS lainnya akan mencoba memonetisasi penggunaan. Perhatikan bahwa jika hal ini menjadi kenyataan, model OSS mungkin mulai terlihat semakin mirip dengan model monetisasi Web2. Namun kenyataannya, pasar akan terbagi menjadi dua bagian, dengan beberapa model tetap sepenuhnya gratis.
Manfaat Nyata #8: Sumber Data Terdesentralisasi
Salah satu tantangan terbesar yang dihadapi AI adalah menemukan data yang tepat untuk melatih suatu model. Kami telah menyebutkan sebelumnya bahwa pelatihan AI yang terdesentralisasi mempunyai tantangan tersendiri. Namun bagaimana dengan menggunakan jaringan terdesentralisasi untuk mendapatkan data (yang kemudian dapat digunakan untuk pelatihan di tempat lain, bahkan di tempat Web2 tradisional)?
Itulah yang dilakukan oleh startup seperti Grass. Grass adalah jaringan "pencakar data" terdesentralisasi yang menyumbangkan kekuatan pemrosesan menganggur mesin mereka ke sumber data guna memberikan informasi untuk pelatihan model AI. Secara hipotetis, dalam skala besar, sumber data ini dapat mengungguli upaya sumber data internal perusahaan mana pun karena kekuatan jaringan besar yang berisi node-node yang diberi insentif. Hal ini tidak hanya mencakup mendapatkan lebih banyak data, namun juga mendapatkannya lebih sering agar lebih relevan dan terkini. Faktanya, tidak mungkin menghentikan gerombolan pengikisan data yang terdesentralisasi karena mereka pada dasarnya terdesentralisasi dan tidak berada dalam satu alamat IP. Mereka juga memiliki jaringan yang membersihkan dan menormalkan data sehingga berguna setelah dikikis.
Setelah Anda memiliki datanya, Anda juga memerlukan lokasi untuk menyimpannya secara on-chain, serta LLM yang dihasilkan menggunakan data tersebut.
Perlu diperhatikan bahwa peran data di Web3 AI mungkin berubah di masa mendatang. Saat ini, status quo untuk LLM adalah melatih model terlebih dahulu menggunakan data dan menyempurnakannya seiring waktu dengan lebih banyak data. Namun, karena data di Internet berubah secara real-time, model ini selalu ketinggalan zaman. Oleh karena itu, tanggapan yang disimpulkan oleh LLM sedikit tidak akurat.
Arah masa depan mungkin berupa paradigma baru – data “real-time”. Konsepnya adalah ketika model bahasa besar (LLM) ditanyai pertanyaan inferensi, LLM dapat meneruskan petunjuk dan memasukkan data yang dikumpulkan kembali dari Internet secara real time. Dengan cara ini, LLM dapat menggunakan data terbaru. Grass sedang mengerjakan bagian ini.
Terima kasih khusus kepada orang-orang berikut atas tanggapan dan bantuan mereka terhadap artikel ini: Albert Castellana, Jasper Zhang, Vassilis Tziokas, Bidhan Roy, Rezo, Vincent Weisser, Shashank Yadav, Ali Husain, Nukri Basharuli, Emad Mostaque, David Minarsch, Tommy Shaughnessy, Michael Heinrich, Keccak Wong, Marc Weinstein, Phillip Bonello, Jeff Amico, Ejaaz Ahamadeen, Evan Feng, JW Wang.