Technologiegiganten verschieben Grenzen, um den Datenhunger der KI zu stillen

Cryptopolitan · 2024-04-06T12:43:06.000Z

Ob es die Arbeit von OpenAI, Google und Meta ist oder die KI-Finanzierung des Industriesektors, die verschiedene Mittel wie das Sammeln oder Ansammeln enormer Mengen digitaler Daten auf unterschiedliche kreative, aber umstrittene Weise umfasst, es ist klar, dass die Automatisierungsfähigkeiten und -möglichkeiten zunehmen. Insbesondere der Aufwand, der mit Aktionen wie den oben beschriebenen Maßnahmen verbunden ist (d. h. unter Berücksichtigung gesetzlicher Grenzen und Unternehmensrichtlinien), entspricht der beträchtlichen Datenmenge, die zum Trainieren der KI-Systeme verwendet wird.

Ať už jde o práci OpenAI, Google a Meta, AI financuje průmyslový sektor, který zahrnuje různé prostředky, jako je shromažďování nebo akumulace obrovských objemů digitálních dat různými kreativními, ale kontroverzními způsoby, je jasné, že automatizační schopnosti a schopnosti rostou. Je pozoruhodné, že úsilí zahrnující akce, jako je přijetí výše uvedených opatření (tj. zohlednění zákonných limitů a podnikových politik), je ekvivalentní značnému množství dat používaných k výcviku systémů umělé inteligence.
Iniciativa šeptání OpenAI: Těžba konverzací na YouTube
Náš příběh Whisper začal teprve minulý rok. Existuje naprostý nedostatek kvalitních anglických textů, které způsobují zpoždění ve vzdělávání. Whisper byl dalším krokem společnosti Google. Rozuměl oceánu dialogů YouTube a byl vyvinut jako text, aplikace pro převod textu na řeč. Samotný nástroj poháněný umělou inteligencí, který se skládá z více než jednoho milionu hodin videí YouTube, které jsou kontrolovány umělou inteligencí za účelem generování nových textů (v podstatě nové konverzace), byl využit pro trénování modelů umělé inteligence vytvořených na základě nejmodernějších technologií. až po GPT-4, nejnovější verzi chatbota ChatGPT.
I když někteří zaměstnanci tvrdili, že záběry Microsoftu OpenAI by plagiovaly YouTube ze všech stran, etika plagiátorství byla stále diskutabilní; někteří pracovníci navíc připustili, že by nebylo možné přesně sladit záměry YouTube. Podobně, získání námitky při algoritmickém zpracování videí pro extrahování textového obsahu pro krmení A.I. modely mohly být považovány za hrozbu pro autorská práva tvůrců videa, což vyvolalo pobouření. 
Meta, mateřská společnost Facebooku a Instagramu, se také obávala používání prvků chráněných autorskými právy od vydavatelských domů, jako je Simon & Schuster, mimo jiné. Zároveň také jednalo o akvizici obecného obsahu webu, který by mohl být přistižen při porušování autorských práv.
Datová krize: Podpora nekonvenčních přístupů
Shromažďování dat plné konkurence pomáhá zaznamenat stěžejní pozici dat a identifikovat je ve vývoji technologie AI. Jazyk do AI velí stále více trénovacích datových sad, včetně Commonwealthu, které jsou dnes manipulovány až na Wikipedii a Reddit z jiných zdrojů. Pro technologické společnosti – zejména pro ty, které mají potíže s dosažením velmi běžných zdrojů dat, jako jsou tradiční datová úložiště – může být vytváření modelů založených na umělé inteligenci alternativním řešením, které může být v takových případech dostatečně žádoucí.
Společnosti v oblasti techniky uvádějí, že sběr dat je nezbytný pro školení AI, zatímco u soudu je z právního hlediska sporný stejný proces. Na svou obranu OpenAI a Microsoft proti nim vyhrály obvinění z nezákonného používání materiálů chráněných autorským právem. Přesto uvedli, že jejich jednání spadá do právního principu fair use. V posledních letech překročil počet žádostí podaných držiteli autorských práv americkému úřadu pro autorská práva číslo 10 000, což jasně ukazuje, že autorské právo v éře AI je jedinečné a zcela nové. V důsledku toho hlavní aktéři vždy čelí nebezpečím souvisejícím s porušením mnoha děl pod rouškou, že pro modely využívající AI na tomto základě neexistují žádné licencované účely.
Nezbytnost pro masivní soubory dat
Celkově vzato, Kaipanova práce de Jareda, vědce v měřítku, byla neúmyslně epická ve vývoji AI. Obsah řízený daty je jednou ze součástí umělé inteligence potřebných pro tréninkový proces, ale nemůže dobře fungovat bez modelů, které byly dobře natrénovány a fungují efektivně. S nárůstem technologií umělé inteligence se poptávka po datech pro úspěch na trhu stupňuje vysokou rychlostí, což ve společnostech vyvolává otázky týkající se práva, etiky a soukromí. Algoritmy umělé inteligence proto musí používat tyto datové sady, aby uspěly na trhu.
Chování V.IP při shromažďování dat se mění kvůli vylepšením AI; typická metodická přísaha se zdrsňuje. Ať už prostřednictvím jedné z jejich přednášek na YouTube nebo vytvořením syntetických datových generativních společností, tyto společnosti jsou vůdci na misi odhalit, co to právo, etika a otázky ochrany soukromí skutečně jsou. 
Později by se z nich mohl stát vtip na moři. Vzhledem k tomu, že se objevují obrovské soubory dat potřebných pro řízení inovačního procesu, je od vedoucích představitelů společnosti vyžadováno, aby se aktivně účastnili konstruktivního dialogu s cílem vytvořit pravidla a normy, v nichž bude inovační úsilí vyváženo etickými zásadami práv duševního vlastnictví a soukromí.
Původní příběh z: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

Techničtí obři posouvají hranice, aby podpořili apetit AI po datech

Prozkoumat více od tvůrce

Nejnovější zprávy