Ať už jde o práci OpenAI, Google a Meta, AI financuje průmyslový sektor, který zahrnuje různé prostředky, jako je shromažďování nebo akumulace obrovských objemů digitálních dat různými kreativními, ale kontroverzními způsoby, je jasné, že automatizační schopnosti a schopnosti rostou. Je pozoruhodné, že úsilí zahrnující akce, jako je přijetí výše uvedených opatření (tj. zohlednění zákonných limitů a podnikových politik), je ekvivalentní značnému množství dat používaných k výcviku systémů umělé inteligence.

Iniciativa šeptání OpenAI: Těžba konverzací na YouTube

Náš příběh Whisper začal teprve minulý rok. Existuje naprostý nedostatek kvalitních anglických textů, které způsobují zpoždění ve vzdělávání. Whisper byl dalším krokem společnosti Google. Rozuměl oceánu dialogů YouTube a byl vyvinut jako text, aplikace pro převod textu na řeč. Samotný nástroj poháněný umělou inteligencí, který se skládá z více než jednoho milionu hodin videí YouTube, které jsou kontrolovány umělou inteligencí za účelem generování nových textů (v podstatě nové konverzace), byl využit pro trénování modelů umělé inteligence vytvořených na základě nejmodernějších technologií. až po GPT-4, nejnovější verzi chatbota ChatGPT.

I když někteří zaměstnanci tvrdili, že záběry Microsoftu OpenAI by plagiovaly YouTube ze všech stran, etika plagiátorství byla stále diskutabilní; někteří pracovníci navíc připustili, že by nebylo možné přesně sladit záměry YouTube. Podobně, získání námitky při algoritmickém zpracování videí pro extrahování textového obsahu pro krmení A.I. modely mohly být považovány za hrozbu pro autorská práva tvůrců videa, což vyvolalo pobouření. 

Meta, mateřská společnost Facebooku a Instagramu, se také obávala používání prvků chráněných autorskými právy od vydavatelských domů, jako je Simon & Schuster, mimo jiné. Zároveň také jednalo o akvizici obecného obsahu webu, který by mohl být přistižen při porušování autorských práv.

Datová krize: Podpora nekonvenčních přístupů

Shromažďování dat plné konkurence pomáhá zaznamenat stěžejní pozici dat a identifikovat je ve vývoji technologie AI. Jazyk do AI velí stále více trénovacích datových sad, včetně Commonwealthu, které jsou dnes manipulovány až na Wikipedii a Reddit z jiných zdrojů. Pro technologické společnosti – zejména pro ty, které mají potíže s dosažením velmi běžných zdrojů dat, jako jsou tradiční datová úložiště – může být vytváření modelů založených na umělé inteligenci alternativním řešením, které může být v takových případech dostatečně žádoucí.

Společnosti v oblasti techniky uvádějí, že sběr dat je nezbytný pro školení AI, zatímco u soudu je z právního hlediska sporný stejný proces. Na svou obranu OpenAI a Microsoft proti nim vyhrály obvinění z nezákonného používání materiálů chráněných autorským právem. Přesto uvedli, že jejich jednání spadá do právního principu fair use. V posledních letech překročil počet žádostí podaných držiteli autorských práv americkému úřadu pro autorská práva číslo 10 000, což jasně ukazuje, že autorské právo v éře AI je jedinečné a zcela nové. V důsledku toho hlavní aktéři vždy čelí nebezpečím souvisejícím s porušením mnoha děl pod rouškou, že pro modely využívající AI na tomto základě neexistují žádné licencované účely.

Nezbytnost pro masivní soubory dat

Celkově vzato, Kaipanova práce de Jareda, vědce v měřítku, byla neúmyslně epická ve vývoji AI. Obsah řízený daty je jednou ze součástí umělé inteligence potřebných pro tréninkový proces, ale nemůže dobře fungovat bez modelů, které byly dobře natrénovány a fungují efektivně. S nárůstem technologií umělé inteligence se poptávka po datech pro úspěch na trhu stupňuje vysokou rychlostí, což ve společnostech vyvolává otázky týkající se práva, etiky a soukromí. Algoritmy umělé inteligence proto musí používat tyto datové sady, aby uspěly na trhu.

Chování V.IP při shromažďování dat se mění kvůli vylepšením AI; typická metodická přísaha se zdrsňuje. Ať už prostřednictvím jedné z jejich přednášek na YouTube nebo vytvořením syntetických datových generativních společností, tyto společnosti jsou vůdci na misi odhalit, co to právo, etika a otázky ochrany soukromí skutečně jsou. 

Později by se z nich mohl stát vtip na moři. Vzhledem k tomu, že se objevují obrovské soubory dat potřebných pro řízení inovačního procesu, je od vedoucích představitelů společnosti vyžadováno, aby se aktivně účastnili konstruktivního dialogu s cílem vytvořit pravidla a normy, v nichž bude inovační úsilí vyváženo etickými zásadami práv duševního vlastnictví a soukromí.

Původní příběh z: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html