Modern AI modellerini oluşturmak ve desteklemek, yüz milyonlarca doları aşabilecek önemli yatırımlar gerektirir. Tahminler, bu maliyetlerin yakın gelecekte bir milyar dolara ulaşabileceğini gösteriyor.

Bu harcama, esas olarak Nvidia GPU'ları gibi varlıkların kullanıldığı ve her biri yaklaşık 30.000 dolara mal olabilen ve verimli olmak için binlerce dolar daha gerektirebilen bilgi işlem gücünden kaynaklanmaktadır. Araştırmacılar, bu tür modellerin geliştirilmesinde kullanılan eğitim veri setinin kalitesinin ve miktarının çok önemli olduğunu belirtmişlerdir.

Sektör liderleri, yapay zeka geliştirmenin şaşırtıcı maliyetlerini ortaya koyuyor

OpenAI'dan James Betker'a göre, bir modelin performansı, modelin tasarımı veya mimarisinden ziyade eğitim verilerinin bir fonksiyonudur. İddiası, büyük veri kümeleri üzerinde eğitilen modellerin aynı sonuçlara ulaşacağıdır. Bu nedenle, veri AI teknolojisinin ilerlemesinin anahtarıdır.

Yapay zeka firması Anthropic AI'nın CEO'su Dario Amodei, In Good Company podcast'inde bu zorlukların finansal yönleriyle ilgili görüşlerini paylaştı. ChatGPT-4 gibi mevcut modellerin eğitiminin yaklaşık 100 milyon dolara mal olacağının tahmin edildiğini ve gelecekteki modeller için eğitimin önümüzdeki birkaç yıl içinde 10-100 milyar dolara ihtiyaç duyabileceğini belirtti.

Üretken AI modelleri ve büyük firmalar tarafından oluşturulanlar, özünde istatistiksel modellerdir. Bu nedenle, en olası sonuçları tahmin etmek için çok sayıda örnek kullanırlar. Allen Institute for AI'dan (AI2) Kyle Lo, performanstaki kazanımın çoğunlukla verilere atfedilebileceğini, özellikle de eğitim ortamı tutarlı olduğunda, söylüyor.

Veri merkezileştirme etik ve erişilebilirlik endişelerini gündeme getiriyor

İyi kalitede veri elde etmenin yüksek maliyeti, yapay zekanın geliştirilmesini gelişmiş dünyadaki birkaç büyük şirketin tekelinde bırakıyor. Kaynakların bu şekilde bir araya getirilmesi, yapay zeka teknolojisinin kullanılabilirliği ve kötüye kullanılma olasılığı konusunda da endişe kaynağı oluyor.

OpenAI tek başına veri lisanslarına yüz milyonlarca dolar harcadı ve Meta veri erişimi için yayıncılar satın almayı düşündü. AI eğitim veri pazarının genişlemesi bekleniyor ve veri brokerlerinin bu fırsattan yararlanması muhtemel.

Sorunlar şüpheli veri toplama uygulamalarından kaynaklanır. Raporlara göre, birçok şirket bu içeriklerin sahiplerinin izni olmadan büyük hacimli içerikler yakaladı ve bazı şirketler farklı platformlardan veri topluyor ve kullanıcılara ücret ödemiyor. Daha önce bildirdiğimiz gibi, OpenAI, GPT-4'ü ince ayarlamak için bir milyondan fazla saatlik YouTube videosunu yazıya dökmek için Whisper ses yazıya dökme modelini kullandı.

Kuruluşlar, açık erişimli yapay zeka eğitim veri kümeleri oluşturmak için çalışıyor

Veri toplama yarışı bazı sorunlar ortaya koyduğundan, eğitim veri kümelerini açıkça erişilebilir kılmak için bağımsız taraflardan bazı çabalar gerekiyor. EleutherAI ve Hugging Face gibi bazı kuruluşlar, AI geliştirme için kamuya açık büyük veri kümeleri oluşturuyor.

Wall Street Journal yakın zamanda veri edinme sorunlarını çözmek için iki olası stratejiyi vurguladı: üretken veri üretimi ve müfredat öğrenimi. Sentetik veriler, yapay zeka modelleri kullanılarak oluşturulurken, müfredat öğrenimi, modellere daha az veriyle bile bağlantı kurabilmeleri için yapılandırılmış bir şekilde yüksek kaliteli veriler sağlamaya çalışır. Ancak, her iki yöntem de hala geliştirme aşamasındadır ve etkinlikleri henüz test edilmemiştir.