Zdroj dotisku článku: AIGC

Zdroj: AIGC Open Community

Slavná open source platforma Stability AI vydala 14. září na svých oficiálních stránkách audio generativní AI produkt Stable Audio. (bezplatná adresa: https://www.stableaudio.com/generate)

Uživatelé mohou přímo generovat více než 20 druhů hudby na pozadí, jako je rock, jazz, elektronika, hip-hop, heavy metal, folk, pop, punk a country prostřednictvím textových výzev.

Například zadejte klíčová slova jako disco, bicí automat, syntezátor, basa, piano, kytara, veselý, 115 BPM atd. pro vygenerování hudby na pozadí.

V současné době má Stable Audio dvě bezplatné a placené verze: bezplatná verze může generovat 20 hudebních skladeb za měsíc s maximální délkou trvání 45 sekund a nelze ji použít pro komerční účely, která stojí 11,99 $ měsíčně (asi 87 jüanů), může generovat 500 hudebních skladeb, maximální délka 90 sekund, lze použít komerčně.

Pokud nechcete platit, můžete si zaregistrovat několik dalších účtů a vygenerovanou hudbu můžete spojit prostřednictvím AU (audio editor) nebo PR, abyste dosáhli stejného efektu.

Krátký úvod do Stable Audio

V posledních několika letech dosáhly difúzní modely rychlého rozvoje v oblasti obrazu, videa, zvuku a dalších oblastí, což může výrazně zlepšit efektivitu tréninku a vyvozování. Existuje však problém s modely šíření v oblasti zvuku, které obvykle produkují obsah s pevnou velikostí.

Například model šíření zvuku lze natrénovat na 30sekundových zvukových klipech a generovat pouze 30sekundové zvukové klipy. Aby bylo možné prolomit toto technické úzké hrdlo, používá Stable Audio pokročilejší model.

Jedná se o model latentní difúze zvuku založený na textových metadatech a délce zvukového souboru a úpravách času zahájení, což umožňuje kontrolu nad obsahem a délkou generovaného zvuku. Tato dodatečná časová podmínka umožňuje uživateli generovat zvuk o zadané délce.

Použití silně převzorkované latentní reprezentace zvuku může dosáhnout rychlejší účinnosti odvození ve srovnání s původním zvukem. S nejnovějším stabilním audio modelem dokáže Stable Audio vykreslit 95 sekund stereo zvuku pomocí GPU NVIDIA A100 za méně než jednu sekundu se vzorkovací frekvencí 44,1 kHz.

Pokud jde o tréninková data, Stable Audio používá datovou sadu složenou z více než 800 000 zvukových souborů, včetně hudby, zvukových efektů a různých hudebních nástrojů.

Datový soubor čítá celkem více než 19 500 hodin audia a navíc spolupracuje s poskytovatelem hudebních služeb AudioSparx, takže vygenerovanou hudbu lze využít ke komercializaci.

model latentní difúze

Modely latentní difúze používané společností Stable Audio jsou generativní model založený na difúzi, který se používá hlavně v prostoru latentního kódování předem trénovaných autokodérů. Jedná se o přístup, který kombinuje autokodéry a difúzní modely.

Autokodéry se nejprve používají k učení nízkorozměrných latentních reprezentací vstupních dat (jako jsou obrázky nebo zvuk). Tato latentní reprezentace zachycuje důležité vlastnosti vstupních dat a lze ji použít k rekonstrukci původních dat.

V tomto latentním prostoru jsou pak trénovány difúzní modely, které postupně mění latentní proměnné, aby generovaly nová data.

Hlavní výhodou tohoto přístupu je, že může výrazně zlepšit trénovací a inferenční rychlost modelů difúze. Protože proces difúze probíhá spíše v relativně malém latentním prostoru než v původním datovém prostoru, lze nová data generovat efektivněji.

Navíc tím, že fungují v latentním prostoru, mohou takové modely také poskytovat lepší kontrolu nad generovanými daty. S latentními proměnnými lze například manipulovat za účelem změny určitých charakteristik generovaných dat, nebo lze proces generování dat řídit uložením omezení na latentní proměnné.

Stabilní využití zvuku a zobrazení pouzdra

"AIGC Open Community" vyzkoušela bezplatnou verzi Stable Audio Způsob použití je podobný jako u ChatGPT. Stačí zadat textovou výzvu. Rychlý obsah zahrnuje čtyři kategorie: detaily, mentalita, nástroje a beaty.

Je třeba poznamenat, že pokud chcete, aby generovaná hudba byla jemnější, rytmičtější a rytmičtější, musí být také vstupní text podrobnější. Jinými slovy, čím více textových výzev zadáte, tím lepší bude generovaný efekt.

Uživatelské rozhraní stabilního zvuku

Následuje případová ukázka generování zvuku.

Trance, ostrov, pláž, slunce, 4 hodiny ráno, progresivní, syntezátor, 909, dramatické akordy, refrén, pozitivní, nostalgický, dynamický.

Měkké objetí, pohodlí, nízký synth, třpyt, vítr a listí, okolní, klidné, relaxační, voda.

Pop elektronický, velký reverb syntezátor, bicí automat, atmosférický, náladový, nostalgický, cool, pop instrumentální, 100 BPM.

3/4, 3 doby, kytara, bicí, jasný, šťastný, tleskání

Materiál tohoto článku pochází z oficiálních stránek Stability AI. Pokud dojde k porušení, kontaktujte nás, abychom jej odstranili.

KONEC