AI data is like an "oil crisis", and content companies can make money without doing anything

深潮 TechFlow · 2024-07-24T01:23:11.000Z
Written by: Jiang Jiang Editor: Manman Zhou The emergence of ChatGPT and the explosive adoption of Midjourney enabled AI to achieve its first large-scale application, namely the popularization of large models. The so-called big model refers to a machine learning model with a large number of parameters and complex structure, which can process massive data and complete various complex tasks. 01 AI data copyright disputes If we compare the current AI models to cars, the raw data is the crude oil. In any case, the AI models need enough “crude oil” first. The sources of “crude oil” for AI companies are mainly the following:
Napsal: Jiang Jiang
Střih: Manman Zhou
Vznik ChatGPT a explozivní přijetí Midjourney umožnily AI dosáhnout své první rozsáhlé aplikace, tedy popularizace velkých modelů.
Takzvaný velký model označuje model strojového učení s velkým množstvím parametrů a složitou strukturou, který dokáže zpracovávat masivní data a plnit různé složité úkoly.
01 Spory o autorských právech k datům AI
Pokud jsou současné velké modely umělé inteligence srovnány s automobily, jsou surová data ropa. V každém případě za prvé, model AI potřebuje dostatek „surové ropy“.
Mezi hlavní zdroje „surové ropy“ pro společnosti AI patří následující kategorie:
veřejné a bezplatné zdroje dat na internetu, jako je Wikipedie, blogy, fóra, zpravodajské informace atd.;
Zavedená zpravodajská média a vydavatelství;
univerzity a další výzkumné instituce;
Uživatelé na straně C, kteří model používají.
Vlastnictví ropy v reálném světě má již vyzrálé právní předpisy, ale v stále chaotické oblasti AI jsou práva na těžbu „surové ropy“ stále nejasná a z toho plynoucí spory jsou četné.
Zrovna nedávno několik velkých hudebních vydavatelství zažalovalo AI hudební produkční společnosti Suno a Udio a obvinilo je z porušování autorských práv. Žaloba je podobná žalobě, kterou podal The New York Times proti OpenAI loni v prosinci.
Zdroj: Billboard
V červenci 2023 skupina spisovatelů podala žalobu na společnost, která tvrdila, že ChatGPT generoval výňatky z děl autorů na základě obsahu chráněného autorskými právy.
V prosinci téhož roku New York Times také podaly podobnou žalobu na porušení autorských práv proti Microsoftu a OpenAI a obvinily tyto dvě společnosti z využívání obsahu novin k výcviku chatbotů s umělou inteligencí.
Kromě toho byla v Kalifornii podána hromadná žaloba, která tvrdila, že OpenAI získala soukromé informace uživatelů z internetu bez jejich souhlasu s výcvikem ChatGPT.
OpenAI nakonec za obvinění nezaplatila, uvedla, že nesouhlasí s obviněním New York Times a nemůže reprodukovat problémy zmíněné New York Times York Times byl Na OpenAI nezáleží.
Zdroj: https://openai.com/index/openai-and-journalism/
Pro OpenAI je možná největší lekcí z tohoto incidentu správné řešení vztahu s dodavateli dat a vyjasnění práv a povinností obou stran. Výsledkem bylo, že OpenAI v minulém roce dosáhla partnerství s mnoha poskytovateli dat, včetně, ale nejen, The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project. a další.
V budoucnu bude OpenAI legitimně využívat data z těchto médií a tato média budou také integrovat technologii OpenAI do svých produktů.
02 AI řídí monetizaci obsahové platformy
Nejzásadnějším důvodem, proč OpenAI navazovalo partnerství s poskytovateli dat, však není strach ze žaloby, ale hrozící vyčerpání dat, kterému strojové učení čelí. Studie provedená výzkumníky, jako je MIT, odhaduje, že datové sady strojového učení mohou do roku 2026 vyčerpat všechna „kvalitní jazyková data“.
„Vysoce kvalitní data“ se proto stala horkou komoditou pro výrobce modelů, jako je OpenAI a Google. Společnosti zabývající se obsahem a výrobci modelů umělé inteligence opakovaně spolupracovali na zahájení modelu plochého zisku.
Tradiční mediální platforma Shutterstock postupně dosáhla spolupráce se společnostmi s umělou inteligencí, jako jsou Meta, Alphabet, Amazon, Apple, OpenAI, Reka atd., a v roce 2023 zvýší své roční příjmy na 104 milionů USD prostřednictvím licencování obsahu pro modely AI. očekává se, že v roce 2027 vygeneruje příjmy ve výši 250 milionů USD. Příjmy z autorských práv k obsahu licencované společnosti Google dosahují až 60 milionů USD ročně rok. Tantiémy, které společnosti poskytující obsah od společností využívajících umělou inteligenci dostávají, rostou ročně o 450 %.
Zdroj obrázků: CX Scoop
V posledních několika letech bylo obtížné zpeněžit jiný obsah než streamovaná média, což bylo v obsahovém průmyslu velkým problémem. Ve srovnání s érou internetového podnikání přinesl vznik umělé inteligence do odvětví obsahu větší představivost a silnější očekávání příjmů.
03 Vysoce kvalitních dat je stále málo
Samozřejmě ne veškerý obsah odpovídá potřebám AI.
Dalším světlým bodem ohledně výše zmíněné debaty mezi OpenAI a New York Times je kvalita dat. K rafinaci ropy ze surové ropy musí být ropa sama o sobě kvalitní a za druhé musí být dobrá technologie čištění.
OpenAI konkrétně zdůrazňuje, že obsah New York Times nijak významně nepřispěl k modelovému školení OpenAI Ve srovnání s Shutterstock, který umožňuje OpenAI utrácet desítky milionů dolarů každý rok, textová média, jako je New York Times, která se spoléhají na. včasnost není miláček AI éry. AI vyžaduje hluboká a jedinečná data.
Kvalitních dat je však příliš málo a společnosti zabývající se umělou inteligencí také začaly usilovně pracovat na „technologii čištění“ a „jednotné aplikaci“.
25. června OpenAI získala společnost Rockset, která se zabývá databází v reálném čase. Tato společnost poskytuje především indexování dat v reálném čase a funkce dotazů OpenAI integruje technologii Rockset do svých produktů, aby zlepšila hodnotu využití dat v reálném čase.
Zdroj obrázku: DePIN Scan
S akvizicí Rockset plánuje OpenAI zlepšit využití AI a přístup k datům v reálném čase. To umožňuje produktům OpenAI podporovat složitější aplikace, jako jsou systémy doporučení v reálném čase, chatboty řízené dynamickými daty, monitorovací a poplašné systémy v reálném čase atd.
Rocket je vestavěné „petrochemické oddělení“ OpenAI, které přímo převádí běžná data na vysoce kvalitní data vyžadovaná aplikacemi.
04 Je potvrzení práv k datům tvůrců fantazií?
Data internetových mediálních platforem (Facebook, Reddit atd.) z velké části pocházejí z UGC, tedy obsahu přidaného uživateli. Zatímco mnoho platforem účtuje společnostem s umělou inteligencí vysoké poplatky za data, do uživatelských podmínek také v tichosti přidává klauzuli, že „platforma má právo používat uživatelská data k trénování modelů umělé inteligence“.
Přestože uživatelské podmínky jasně udávají práva na trénování modelů umělé inteligence, mnoho autorů neví, které modely používají obsah, který vytvářejí, ani neví, zda za něj platí, ani nemohou získat příslušná práva a zájmy, které by jim měly patřit. jim.
Během únorového rozhovoru o čtvrtletních výdělcích Meta, Zuckerberg jasně řekl, že bude používat obrázky z Facebooku a Instagramu k trénování svých nástrojů generujících umělou inteligenci.
Podle zpráv Tumblr také záhadně dosáhl licenčních dohod na obsah s OpenAi a Midjourney, ale konkrétní obsah konkrétních dohod nebyl zveřejněn.
Tvůrci platformy fotogalerie EyeEm také nedávno obdrželi upozornění, že fotografie, které zveřejnili, budou použity pro trénink AI modelů. Oznámení zmiňovalo, že uživatelé se mohou rozhodnout produkt v důsledku toho nepoužívat, ale nezmiňovalo žádnou politiku kompenzace. Mateřská společnost společnosti EyeEm Freepik sdělila agentuře Reuters, že podepsala smlouvy se dvěma velkými technologickými společnostmi na licencování většiny z jejích 200 milionů obrázků za přibližně 3 centy za obrázek. Generální ředitel Joaquin Cuenca Abela uvedl, že na dalších pěti podobných obchodech se pracuje, ale odmítl identifikovat kupce.
Obsahové platformy vedené UGC, jako jsou Getty Images, Adobe, Photobucket, Flickr, Reddit atd., všechny čelí podobným problémům Pod obrovským pokušením zpeněžení dat se platformy rozhodly ignorovat vlastnictví obsahu uživatelů a data zabalit a prodat je. Modelové společnosti AI.
Celý proces probíhal ve tmě a tvůrci neměli šanci odolat. Dokonce i mnozí tvůrci možná jednoho dne v budoucnu budou muset trénovat obsah podobný jejich vlastním dílům v modelu, než budou mít možnost mít podezření, že jejich předchozí díla byla prodána společnosti AI na modelování určitou platformou.
Web3 může být dobrou volbou k vyřešení problému obtížnosti ochrany datových práv a příjmů tvůrců. Když společnosti s umělou inteligencí dosáhly nových maxim na americkém akciovém trhu, ve stejnou dobu vzrostla i měna konceptu AI společnosti web3. Blockchain se svými decentralizovanými a neovlivnitelnými vlastnostmi má jedinečné výhody při ochraně práv tvůrců.
Mediální obsah, jako jsou obrázky a videa, dokončil rozsáhlou adopci v řetězci na býčím trhu v roce 2021 a obsah UGC sociálních platforem se také tiše odehrává v řetězci. Zároveň mnoho platforem pro modelování web3 AI již motivuje běžné uživatele, kteří přispívají ke školení modelů, ať už jde o vlastníky dat nebo školitele.
Exponenciální vývoj modelů umělé inteligence přinesl větší požadavky na ověřování dat. Tvůrci by se měli zamyslet nad tím: Proč byla moje práce prodána společnosti zabývající se modelováním umělé inteligence za 5 centů za kus bez mého souhlasu? Proč jsem si nebyl vědom celého procesu a nemohl jsem získat žádnou výhodu?
Snaha mediální platformy ulovit velké ryby nemůže zmírnit datovou úzkost společností zabývajících se modelem AI. Předpokladem pro dosažení kvalitních dat a vysokého výstupu je potvrzení datových práv, což je rozumné rozdělení zájmů mezi tvůrce, platformy a AI. modelové společnosti.
Prozkoumat více od tvůrce

Nejnovější zprávy