Membangun dan mendukung model AI modern memerlukan investasi yang signifikan, yang mungkin melebihi ratusan juta dolar. Perkiraan menunjukkan bahwa biaya ini mungkin mencapai satu miliar dolar dalam waktu dekat.

Pengeluaran ini terutama disebabkan oleh daya komputasi yang digunakan oleh entitas seperti GPU Nvidia, yang masing-masing biayanya mungkin sekitar $30.000 dan mungkin memerlukan biaya ribuan dolar lagi agar efisien. Para peneliti telah menyatakan bahwa kualitas dan kuantitas set data pelatihan yang digunakan dalam mengembangkan model tersebut sangatlah penting.

Para pemimpin industri mengungkapkan biaya pengembangan AI yang sangat besar

Menurut James Betker dari OpenAI, kinerja suatu model merupakan fungsi dari data pelatihan, bukan desain atau arsitektur model tersebut. Pernyataan dia adalah bahwa model yang dilatih pada kumpulan data besar akan mencapai hasil yang sama. Oleh karena itu, data merupakan kunci kemajuan teknologi AI.

Dario Amodei, CEO perusahaan AI Anthropic AI, berbagi wawasannya tentang aspek finansial dari tantangan ini dalam podcast In Good Company. Ia menyatakan bahwa pelatihan model saat ini, seperti ChatGPT-4, diperkirakan menelan biaya sekitar $100 juta, dan pelatihan untuk model masa depan mungkin memerlukan biaya $10-100 miliar dalam beberapa tahun ke depan.

Model AI generatif, dan model yang dibuat oleh perusahaan besar, pada dasarnya adalah model statistik. Oleh karena itu, model ini menggunakan banyak contoh untuk memprediksi hasil yang paling mungkin. Kyle Lo dari Allen Institute for AI (AI2) mengatakan bahwa peningkatan kinerja sebagian besar dapat dikaitkan dengan data, terutama ketika lingkungan pelatihannya konsisten.

Sentralisasi data menimbulkan kekhawatiran etika dan aksesibilitas

Biaya tinggi untuk memperoleh data berkualitas baik membuat pengembangan AI hanya menjadi tanggung jawab beberapa perusahaan besar di negara maju. Pengumpulan sumber daya ini juga menjadi sumber kekhawatiran terkait ketersediaan teknologi AI dan kemungkinan penyalahgunaan.

OpenAI sendiri telah menghabiskan ratusan juta dolar untuk lisensi data, dan Meta telah mempertimbangkan untuk membeli penerbit untuk akses data. Pasar data pelatihan AI diperkirakan akan berkembang, dan pialang data kemungkinan akan mendapatkan keuntungan dari peluang ini.

Masalah muncul dari praktik akuisisi data yang dipertanyakan. Menurut laporan, banyak perusahaan telah mengambil konten dalam jumlah besar tanpa izin dari pemilik konten tersebut, dan beberapa perusahaan memanfaatkan data dari berbagai platform dan tidak memberi imbalan kepada pengguna. Seperti yang kami laporkan sebelumnya, OpenAI menggunakan model transkripsi audio Whisper untuk mentranskripsi lebih dari satu juta jam video YouTube guna menyempurnakan GPT-4.

Organisasi bekerja untuk membuat kumpulan data pelatihan AI akses terbuka

Karena persaingan akuisisi data menghadirkan sejumlah masalah, diperlukan sejumlah upaya dari pihak independen untuk menyediakan set data pelatihan secara terbuka. Beberapa organisasi, seperti EleutherAI dan Hugging Face, tengah membuat set data besar yang tersedia bagi publik untuk pengembangan AI.

The Wall Street Journal baru-baru ini menyoroti dua strategi potensial untuk memecahkan masalah akuisisi data: pembuatan data generatif dan pembelajaran kurikulum. Data sintetis dibuat menggunakan model AI itu sendiri, sementara pembelajaran kurikulum mencoba menyediakan model dengan data berkualitas tinggi secara terstruktur sehingga mereka dapat membuat koneksi bahkan dengan data yang lebih sedikit. Namun, kedua metode tersebut masih dalam tahap pengembangan, dan kemanjurannya belum diuji.