Perfusion,Nvidia 針對 AI 圖像生成高存儲需求的解決方案

英偉達研究人員開發了一種新的人工智能圖像生成技術,可以實現高度定製的文本到圖像模型,而存儲需求卻很小。

根據arXiv 上發表的一篇論文,所提出的名爲“ Perfusion ”的方法可以將新的視覺概念添加到現有模型中,每個概念僅使用 100KB 的參數。

資料來源:Nvidia 研究部

正如該論文的作者所描述的,Perfusion 的工作原理是“對文本到圖像模型的內部表示進行小幅更新”。

更具體地說,它對模型中將文本描述與生成的視覺特徵連接起來的部分進行了仔細計算的更改,對交叉注意力層應用較小的參數化編輯允許 Perfusion 修改文本輸入轉換爲圖像的方式。

因此,Perfusion 並沒有完全從頭開始重新訓練文本到圖像模型。相反,它稍微調整了將文字轉化爲圖片的數學轉換。這使得它可以自定義模型以產生新的視覺概念,而無需太多的計算能力或模型重新訓練。

灌注法僅需要100kb。

與競爭技術相比,灌注以少兩到五個數量級的參數實現了這些結果。

雖然其他方法每個概念可能需要數百兆字節到千兆字節的存儲空間,但 Perfusion 僅需要 100KB,與小圖像、文本或 WhatsApp 消息相當。

這種大幅減少可以使部署高度定製的人工智能藝術模型變得更加可行。

據合著者蓋爾·切奇克 (Gal Chechik) 稱,

“灌注不僅可以以模型大小的一小部分實現更準確的個性化,而且還可以使用更復雜的提示以及在推理時結合單獨學習的概念。”

該方法可以使用分別學習的“泰迪熊”和“茶壺”的個性化概念來生成創造性的圖像,例如“在茶壺中航行的泰迪熊”。

資料來源:Nvidia 研究部

高效個性化的可能性

Perfusion 具有獨特的功能,每個概念僅使用 100KB 即可實現 AI 模型的個性化,從而開闢了無數潛在的應用:

這種方法爲個人輕鬆地使用新對象、場景或樣式定製文本到圖像模型鋪平了道路,從而消除了昂貴的重新訓練的需要。Perfusion 每個概念 100KB 參數更新的效率允許在消費設備上實現使用該技術定製的模型,從而實現設備上圖像創建。

這項技術最引人注目的方面之一是它爲圍繞人工智能模型的共享和協作提供了潛力。用戶可以將他們的個性化概念作爲小型附加文件共享,從而避免共享繁瑣的模型檢查點。

在分發方面,針對特定組織量身定製的模型可以更輕鬆地在邊緣傳播或部署。隨着文本到圖像生成的實踐繼續變得更加主流,在不犧牲功能的情況下實現如此顯着的尺寸減小的能力將是至關重要的。

然而,值得注意的是,Perfusion 主要提供模型個性化而不是完整的生成能力本身。

限制和發佈

雖然很有希望,但該技術確實有一些侷限性。作者指出,訓練期間的關鍵選擇有時可能會過度概括一個概念。仍需要更多的研究來將多個個性化想法無縫地結合到單個圖像中。

作者指出,Perfusion 的代碼將在他們的項目頁面上提供,表明有意在未來公開發布該方法,可能正在等待同行評審和官方研究出版物。然而,由於該作品目前僅在 arXiv 上發佈,因此公開可用性的具體細節仍不清楚。在這個平臺上,研究人員可以在正式同行評審和在期刊/會議上發表之前上傳論文。

雖然 Perfusion 的代碼尚未訪問,但作者提出的計劃意味着,這種高效、個性化的人工智能系統可能會在適當的時候落入開發人員、行業和創作者的手中。

隨着 MidJourney、DALL-E 2 和 Stable Diffusion 等 AI 藝術平臺的發展,允許更大用戶控制的技術對於現實世界的部署可能至關重要。通過 Perfusion 等巧妙的效率改進,Nvidia 似乎決心在快速發展的環境中保持其優勢。

#Nvidia  #图像生成