Perfusion, Nvidia'nın AI görüntü oluşturmanın yüksek depolama ihtiyaçlarına yönelik çözümü

Nvidia araştırmacıları, minimum depolama gereksinimiyle son derece özelleştirilmiş metin-görüntü modellerine olanak tanıyan yeni bir yapay zeka görüntü oluşturma teknolojisi geliştirdi.

arXiv'de yayınlanan bir makaleye göre "Perfüzyon" adı verilen önerilen yöntem, konsept başına yalnızca 100 KB parametre kullanarak mevcut modellere yeni görsel konseptler ekleyebiliyor.

Kaynak: Nvidia Araştırması

Makalenin yazarlarının tanımladığı gibi Perfusion, "metinden görüntüye modelinin dahili temsilinde küçük güncellemeler yaparak" çalışıyor.

Daha spesifik olarak, modelin metin açıklamalarını oluşturulan görsel özelliklere bağlayan bölümünde dikkatlice hesaplanmış değişiklikler yapar. Çapraz dikkat katmanına daha küçük parametrik düzenlemeler uygulamak, Perfusion'ın metin girişlerinin görüntülere dönüştürülme şeklini değiştirmesine olanak tanır.

Bu nedenle Perfusion, metinden resme modelini tamamen sıfırdan yeniden eğitmez. Bunun yerine, metni resimlere dönüştüren matematiksel dönüşümü biraz değiştiriyor. Bu, çok fazla bilgi işlem gücü gerektirmeden veya modelin yeniden eğitilmesini gerektirmeden, yeni görsel konseptler oluşturacak şekilde modeli özelleştirmeyi mümkün kılar.

Perfüzyon yöntemi yalnızca 100kb gerektirir.

Perfüzyon, bu sonuçları rakip teknolojilere göre iki ila beş kat daha az parametreyle elde eder.

Diğer yöntemler konsept başına yüzlerce megabayt ila gigabayt depolama alanı gerektirebilirken, Perfusion yalnızca 100 KB gerektirir; bu, küçük bir resim, metin veya WhatsApp mesajıyla karşılaştırılabilecek kadardır.

Bu ciddi azalma, son derece özelleştirilmiş yapay zeka sanat modellerinin konuşlandırılmasını daha uygulanabilir hale getirebilir.

Ortak yazar Gal Chechik'e göre,

"Perfüzyon yalnızca model boyutunun çok küçük bir bölümünde daha doğru kişiselleştirmeyi mümkün kılmakla kalmıyor, aynı zamanda daha karmaşık ipuçlarının kullanılmasına ve çıkarım zamanında ayrı olarak öğrenilen kavramların birleşimine de olanak tanıyor."

Yöntem, ayrı ayrı öğrenilen kişiselleştirilmiş "oyuncak ayı" ve "çaydanlık" kavramlarını kullanarak "bir çaydanlıkta yelken açan oyuncak ayı" gibi yaratıcı görüntüler üretebilir.

Kaynak: Nvidia Araştırması

Etkin kişiselleştirme imkanı

Perfusion, konsept başına yalnızca 100 KB kullanarak AI modellerini kişiselleştirme konusunda benzersiz bir yeteneğe sahiptir ve sayısız potansiyel uygulamanın önünü açar:

Bu yaklaşım, bireylerin metinden görüntüye modellerini yeni nesneler, sahneler veya stillerle kolayca özelleştirmesinin önünü açıyor ve böylece maliyetli yeniden eğitim ihtiyacını ortadan kaldırıyor. Perfusion'ın konsept başına 100 KB parametre güncelleme verimliliği, teknoloji kullanılarak özelleştirilmiş modellerin tüketici cihazlarında uygulanmasına olanak tanıyarak cihaz üzerinde görüntü oluşturulmasına olanak tanır.

Bu teknolojinin en ilgi çekici yönlerinden biri, yapay zeka modelleri etrafında paylaşım ve işbirliği için sunduğu potansiyeldir. Kullanıcılar kişiselleştirilmiş konseptlerini küçük ekli dosyalar olarak paylaşabilir, böylece hantal model kontrol noktalarını paylaşmaktan kaçınabilirler.

Dağıtım söz konusu olduğunda, belirli bir kuruluşa göre uyarlanan modeller uçta daha kolay yayılabilir veya dağıtılabilir. Metinden görüntüye dönüştürme uygulaması daha yaygın hale gelmeye devam ettikçe, işlevsellikten ödün vermeden bu kadar önemli boyut küçültme becerisi kritik hale gelecektir.

Ancak Perfusion'ın tam üretim yetenekleri yerine öncelikle model kişiselleştirme sunduğunu belirtmekte fayda var.

Kısıtlamalar ve sürümler

Gelecek vaat etse de teknolojinin bazı sınırlamaları var. Yazarlar, eğitim sırasındaki önemli seçimlerin bazen bir kavramı aşırı genelleştirebileceğini belirtiyor. Birden fazla kişiselleştirilmiş fikri tek bir görselde kusursuz bir şekilde birleştirmek için hâlâ daha fazla araştırmaya ihtiyaç var.

Yazarlar, Perfusion'ın kodunun proje sayfalarında mevcut olacağını ve bu durumun, muhtemelen akran incelemesi ve resmi araştırma yayınları beklenerek, yöntemin gelecekte halka açık olarak yayınlanma niyetini gösterdiğini belirtiyorlar. Ancak çalışma şu anda yalnızca arXiv'de yayınlandığından, kamuya açık olup olmadığına ilişkin belirli ayrıntılar belirsizliğini koruyor. Bu platformda araştırmacılar, resmi hakem değerlendirmesinden ve dergilerde/konferanslarda yayınlanmadan önce makalelerini yükleyebilirler.

Perfusion'ın koduna henüz erişilmemiş olsa da yazarların önerdiği planlar, bu tür verimli, kişiselleştirilmiş yapay zeka sistemlerinin zamanı gelince geliştiricilerin, endüstrinin ve yaratıcıların eline geçebileceği anlamına geliyor.

MidJourney, DALL-E 2 ve Stable Diffusion gibi yapay zeka sanat platformları geliştikçe, daha fazla kullanıcı kontrolüne olanak tanıyan teknoloji, gerçek dünyadaki dağıtım için çok önemli olabilir. Perfüzyon gibi akıllı verimlilik iyileştirmeleriyle Nvidia, hızla gelişen bir ortamda üstünlüğünü korumaya kararlı görünüyor.

#Nvidia  #图像生成