AI 数据爆发「石油危机」，内容公司可以躺着赚钱了

深潮 TechFlow · 2024-07-24T01:23:11.000Z

撰文：江江编辑：蔓蔓周 ChatGPT 的出现和 Midjourney 的爆发式采用让 AI 实现了第一次大规模应用，即大模型的普及。所谓大模型，是指具有大量参数和复杂结构的机器学习模型，能够处理海量数据、完成各种复杂的任务。 01 AI 数据版权纠纷如果把当下的 AI 大模型比作汽车，原始数据就是原油。无论如何，首先 AI 模型需要足够的「原油」。 AI 公司的「原油」来源主要有以下几类：网上公开免费的数据源，比如维基百科、博客、论坛、新闻资讯等；老牌新闻媒体和出版社；大学等研究机构；使用模型的 C 端用户。现实世界的石油归属权已经有成熟的法律规范，而在 AI 这个天地尚且混沌的领域，「原油」开采权还不明晰，由此造成的纠纷不胜枚举。就在最近，多家大型音乐厂牌起诉 AI 音乐制作公司Suno和Udio，指控其侵犯版权。这起诉讼与《纽约时报》去年 12 月对 OpenAI 的诉讼类似。图源：Billboard 2023 年 7 月，一些作家对该公司提起诉讼，指控 ChatGPT 根据受版权保护的内容生成了作者作品的摘要。同年 12 月，《纽约时报》也对微软和OpenAI提起类似版权侵权诉讼，指控这两家公司利用该报的内容训练人工智能聊天机器人。此外，还有一起集体诉讼在加利福尼亚州提起，指控 OpenAI 未经用户同意，从互联网上获取用户私人信息来训练 ChatGPT。 OpenAI 最终并没有为这份指控买单，他们表示不认同《纽约时报》的指控，也无法复现《纽约时报》提到的问题，更重要的是，所谓《纽约时报》提供的数据源，对于 OpenAI 来说并不重要。来源：https://openai.com/index/openai-and-journalism/ 对于 OpenAI 来说，这件事情带来的最大教训也许就是处理好与数据供应商的关系，明确双方权责。于是，我们在近一年的时间内看到 OpenAI 跟很多数据供应商达成合作伙伴关系，包括但不仅限于 The Atlantic、Vox Media、News Corp、Reddit、Financial Times、Le Monde、Prisa Media、Axel Springer、American Journalism Project 等等。未来，OpenAI 将名正言顺地使用这些媒体的数据，而这些媒体也会将 OpenAI 的技术融合到产品中。 02 AI 推动内容平台变现不过，OpenAI 跟数据供应商达成合作关系最根本的原因不是恐惧被起诉，而是机器学习即将面临的数据枯竭。MIT 等研究人员曾进行一项研究估计，机器学习数据集可能会在 2026 年之前耗尽所有「高质量语言数据」。「高质量的数据」因此成为像 OpenAI 和 Google 这样的模型制造商的香饽饽。内容公司与 AI 模型厂商屡屡达成合作，开启躺平赚钱模式。传统媒体平台 Shutterstock 陆续和 Meta, Alphabet, Amazon, Apple, OpenAI, Reka 等 AI 公司达成合作， 2023 年通过内容授权给 AI 模型将年收入提高到 1.04 亿美元，预计 2027 年产生 2.5 亿美元收入；Reddit 授权给谷歌的内容版权收入每年高达 6000 万美元；苹果也在寻求与主流新闻媒体合作，开出一年至少 5000 万美元的版权费。内容公司从 AI 公司收到的版权费正在以 450% 的年增长率疯狂上涨着。图源：CX Scoop 而在过去一些年里，流媒体之外的内容难以变现，这是内容行业的一大痛点。相比互联网创业时代，AI 的出现给内容行业带来了更大的想象力以及更强烈的收入预期。 03 高质量数据依然稀缺当然不是什么样的内容都符合 AI 的需求。关于前文提到的 OpenAI 和《纽约时报》的争论，另一个亮点是数据质量。从原油中提炼石油，一则是要油本身质量好，二则提纯技术要好。 OpenAI 特意强调《纽约时报》的内容并未对 OpenAI 的模型训练产生任何重大贡献，比起能够让 OpenAI 每年自掏腰包数千万美金的 Shutterstock，《纽约时报》这类靠时效性起家的文字媒体并不是 AI 时代的宠儿。AI 更需要深刻而独特的数据。而高质量数据太稀缺，AI 公司也开始在「提纯技术」和「一站式应用」上下功夫。 6 月 25 日，OpenAI 收购实时分析数据库公司 Rockset。这家公司主要提供实时数据索引和查询功能，OpenAI 将在其产品中集成 Rockset 的技术，提高数据的实时使用价值。图源：DePIN Scan 通过收购 Rockset，OpenAI 计划使 AI 更好地利用和访问实时数据。这能使 OpenAI 的产品支持更复杂的应用，如实时推荐系统、动态数据驱动的聊天机器人、实时监控和报警系统等。 Rocket 是 OpenAI 内置的「石化部门」，将普通数据直接转化为应用所需的高质量数据。 04 创作者数据确权是异想天开吗？互联网媒体平台（Facebook、Reddit 等）的数据很大程度来自于 UGC，即用户贡献内容。很多平台在向 AI 公司收取高额数据费的同时，也悄悄在用户条款上加上了一条「平台拥有使用用户数据训练 AI 模型的权力」。虽然用户条款对 AI 模型训练权力有所标注，但创很多作者并不清楚自己生产的内容具体被哪些模型使用，也不知道是否是付费使用，更无从获得本该属于自己的相关权益。在今年 2 月份的 Meta 季度业绩电话会议上，扎克伯格明确表示将使用 Facebook 和 Instagram 上的图片来训练他的 AI 生成工具。据报道，Tumblr 也已经与 OpenAi 和 Midjourney 神秘达成内容授权协议，但并未公开具体协议的具体的内容。图片库平台 EyeEm 的创作者们最近也收到一份通知，提示他们发布过的照片会用于 AI 模型训练。通知提到，用户可以选择因此不使用产品，但还未提及任何补偿政策。EyeEm 的母公司 Freepik 向路透社透露，该公司已与两家大型科技公司签署协议，以每张图片 3 美分左右的价格授权其 2 亿张图片中的大部分图片。首席执行官 Joaquin Cuenca Abela 表示，还有五笔类似的交易正在进行中，但拒绝透露买家的身份。 Getty Images、Adobe、Photobucket、Flickr、Reddit 等 UGC 为主导的内容平台都面临类似的问题，在巨大的数据变现诱惑下，平台选择忽视用户的内容所有权，一把将数据打包卖给 AI 模型公司。整个过程都在暗处进行，创作者并没有任何反抗的机会。甚至许多创作者，可能要在未来某一天，在某个模型中训练出与自己作品类似的内容时，才能有机会怀疑曾经的作品被某个平台拿去卖给 AI 公司做模型训练。解决创作者的数据确权和收益难以保护的问题，Web3 可能是个好选择。当 AI 公司在美股屡创新高时，web3 的 AI 概念币也在同时一飞冲天。区块链以其去中心化和不可篡改的特性，在保护创作者权益上享有得天独厚的优势。诸如图片和视频这样的媒体内容已经在 2021 年的牛市完成了上链的大规模采用，而社交平台的 UGC 内容上链也在悄然发生。同时，许多 web3 AI 模型平台已经在激励为模型训练做贡献的普通用户，无论是数据所有者，还是训练者，都被激励着。 AI 模型指数级的发展为数据确权提出了更大的需求，创作者应该思考：为什么我的作品在没有经过我同意的情况下被 5 美分一幅卖给了 AI 模型公司？为什么整个过程中我不知情，且无法得到任何收益？媒体平台竭泽而渔也无法缓解 AI 模型公司的数据焦虑，实现高质量数据高产量的前提是数据确权，是创作者、平台和 AI 模型公司三者合理的利益分配。

Scris de: Jiang Jiang
Editor: Manmanzhou
Apariția ChatGPT și adoptarea explozivă a lui Midjourney au permis AI să realizeze prima sa aplicație la scară largă, adică popularizarea modelelor mari.
Așa-numitul model mare se referă la un model de învățare automată cu un număr mare de parametri și o structură complexă, care poate procesa date masive și poate finaliza diverse sarcini complexe.
01 Litigii privind drepturile de autor ale datelor AI
Dacă actualele modele mari de IA sunt comparate cu mașini, datele brute sunt țiței. În orice caz, în primul rând, modelul AI are nevoie de suficient „țiței”.
Principalele surse de „țiței” pentru companiile IA includ următoarele categorii:
Surse de date publice și gratuite de pe Internet, cum ar fi Wikipedia, bloguri, forumuri, informații de știri etc.;
Presa de știri înființată și edituri;
universități și alte instituții de cercetare;
Utilizatorii C-side care folosesc modelul.
Proprietatea petrolului în lumea reală are deja reglementări legale mature, dar în domeniul încă haotic al IA, drepturile de exploatare a „țițeiului” nu sunt încă clare, iar disputele rezultate sunt numeroase.
Recent, mai multe case de discuri importante au dat în judecată companiile de producție muzicală AI Suno și Udio, acuzându-le de încălcarea drepturilor de autor. Procesul este similar cu cel intentat de The New York Times împotriva OpenAI în decembrie anul trecut.
Sursa: Billboard
În iulie 2023, un grup de scriitori a intentat un proces împotriva companiei, susținând că ChatGPT a generat fragmente din lucrările autorilor pe baza conținutului protejat prin drepturi de autor.
În decembrie același an, New York Times a depus un proces similar pentru încălcarea drepturilor de autor împotriva Microsoft și OpenAI, acuzând cele două companii că folosesc conținutul ziarului pentru a antrena chatbot-uri de inteligență artificială.
În plus, în California a fost intentată o acțiune colectivă în care se pretinde că OpenAI a obținut informații private ale utilizatorilor de pe Internet fără consimțământul acestora pentru a instrui ChatGPT.
În cele din urmă, OpenAI nu a plătit pentru acuzație Ei au declarat că nu sunt de acord cu acuzația New York Times și nu au putut reproduce problemele menționate de New York Times York Times a fost Nu contează pentru OpenAI.
Sursa: https://openai.com/index/openai-and-journalism/
Pentru OpenAI, poate cea mai mare lecție din acest incident este gestionarea corectă a relației cu furnizorii de date și clarificarea drepturilor și responsabilităților ambelor părți. Drept urmare, am văzut că OpenAI a ajuns la parteneriate cu mulți furnizori de date în ultimul an, inclusiv, dar fără a se limita la, The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project. și altele.
În viitor, OpenAI va folosi în mod legitim datele din aceste medii, iar aceste medii vor integra, de asemenea, tehnologia OpenAI în produsele lor.
02 AI stimulează monetizarea platformei de conținut
Cu toate acestea, cel mai fundamental motiv pentru care OpenAI ajunge la parteneriate cu furnizorii de date nu este teama de a fi dat în judecată, ci epuizarea iminentă a datelor cu care se confruntă învățarea automată. Un studiu realizat de cercetători precum MIT a estimat că seturile de date de învățare automată pot epuiza toate „datele de limbă de înaltă calitate” până în 2026.
Prin urmare, „date de înaltă calitate” au devenit o marfă fierbinte pentru producătorii de modele precum OpenAI și Google. Companiile de conținut și producătorii de modele AI au ajuns în mod repetat la cooperare pentru a începe un model de profit fix.
Platforma media tradițională Shutterstock a ajuns succesiv în cooperare cu companii de inteligență artificială precum Meta, Alphabet, Amazon, Apple, OpenAI, Reka etc. și își va crește veniturile anuale la 104 milioane USD prin acordarea de licențe de conținut pentru modelele de inteligență artificială în 2023 și este se așteaptă să genereze venituri de 250 de milioane de dolari în 2027. Reddit Veniturile din drepturile de autor asupra conținutului acordate de Google sunt de până la 60 de milioane de dolari pe an an. Redevențele pe care companiile de conținut le primesc de la companiile AI cresc cu o rată anuală de 450%.
Sursa imagine: CX Scoop
În ultimii câțiva ani, a fost dificil să monetizezi conținut, altul decât media streaming, ceea ce a reprezentat un punct de durere major în industria de conținut. În comparație cu epoca antreprenoriatului pe internet, apariția AI a adus o imaginație mai mare și așteptări mai puternice de venituri pentru industria de conținut.
03 Datele de înaltă calitate sunt încă rare
Desigur, nu tot conținutul satisface nevoile AI.
Un alt punct luminos referitor la dezbaterea menționată mai sus dintre OpenAI și New York Times este calitatea datelor. Pentru a rafina uleiul din țiței, în primul rând, uleiul în sine trebuie să fie de bună calitate, iar în al doilea rând, tehnologia de purificare trebuie să fie bună.
OpenAI subliniază în mod special că conținutul New York Times nu a adus nicio contribuție semnificativă la formarea modelului OpenAI, în comparație cu Shutterstock, care permite OpenAI să cheltuiască zeci de milioane de dolari în fiecare an, medii de tip text precum New York Times care se bazează pe. actualitatea nu. Nu draga erei AI. AI necesită date profunde și unice.
Cu toate acestea, datele de înaltă calitate sunt prea rare, iar companiile AI au început, de asemenea, să lucreze la „tehnologia de purificare” și la „aplicație unică”.
Pe 25 iunie, OpenAI a achiziționat compania de baze de date de analiză în timp real Rockset. Această companie oferă în principal funcții de indexare și interogare a datelor în timp real, OpenAI va integra tehnologia Rockset în produsele sale pentru a îmbunătăți valoarea de utilizare în timp real a datelor.
Sursa imagine: DePIN Scan
Odată cu achiziționarea Rockset, OpenAI intenționează să facă AI o mai bună pârghie și să acceseze date în timp real. Acest lucru permite produselor OpenAI să accepte aplicații mai complexe, cum ar fi sisteme de recomandare în timp real, chatbot-uri dinamice bazate pe date, sisteme de monitorizare și alarmă în timp real etc.
Rocket este „departamentul petrochimic” încorporat al OpenAI, care convertește direct datele obișnuite în date de înaltă calitate cerute de aplicații.
04 Confirmarea drepturilor asupra datelor creatorului este o fantezie?
Datele platformelor media de pe Internet (Facebook, Reddit etc.) provin în mare parte din UGC, adică conținutul contribuit de utilizatori. În timp ce multe platforme percepe taxe mari de date companiilor de AI, ele adaugă, în liniște, o clauză în termenii utilizatorilor conform căreia „platforma are dreptul de a folosi datele utilizatorilor pentru a antrena modele de AI”.
Deși termenii de utilizare indică în mod clar drepturile de a instrui modele AI, mulți autori nu știu ce modele folosesc conținutul pe care îl produc, nici nu știu dacă plătesc pentru acesta și nici nu pot obține drepturile și interesele relevante care ar trebui să aparțină. lor.
În timpul apelului trimestrial al Meta în februarie, Zuckerberg a spus clar că va folosi imagini de pe Facebook și Instagram pentru a-și antrena instrumentele de generare a inteligenței artificiale.
Potrivit rapoartelor, Tumblr a ajuns, de asemenea, în mod misterios la acorduri de licențiere a conținutului cu OpenAi și Midjourney, dar conținutul specific al acordurilor specifice nu a fost dezvăluit.
Creatorii platformei de galerie foto EyeEm au primit recent și o notificare că fotografiile pe care le-au postat vor fi folosite pentru instruirea modelelor AI. Anunțul menționa că utilizatorii pot alege să nu folosească produsul ca urmare, dar nu menționa nicio politică de compensare. Compania-mamă a EyeEm, Freepik, a declarat pentru Reuters că a semnat acorduri cu două mari companii de tehnologie pentru a licenția majoritatea celor 200 de milioane de imagini pentru aproximativ 3 cenți per imagine. Directorul executiv Joaquin Cuenca Abela a spus că alte cinci tranzacții similare sunt în lucru, dar a refuzat să identifice cumpărătorii.
Platformele de conținut conduse de UGC, cum ar fi Getty Images, Adobe, Photobucket, Flickr, Reddit etc., toate se confruntă cu probleme similare. Companii model AI.
Întregul proces s-a desfășurat în întuneric, iar creatorii nu au avut nicio șansă să reziste. Chiar și mulți creatori ar putea fi nevoiți să antreneze conținut similar cu propriile lor lucrări într-un model într-o zi în viitor, înainte de a avea ocazia să suspecteze că lucrările lor anterioare au fost vândute unei companii de AI pentru formare de model de către o anumită platformă.
Web3 poate fi o alegere bună pentru a rezolva problema dificultății în protejarea drepturilor de date și a veniturilor creatorilor. Când companiile de inteligență artificială au atins noi cote maxime pe bursa din SUA, moneda conceptului de inteligență artificială a web3 a crescut, de asemenea, în același timp. Blockchain, cu caracteristicile sale descentralizate și nemodificabile, se bucură de avantaje unice în protejarea drepturilor creatorilor.
Conținutul media, cum ar fi imaginile și videoclipurile, a finalizat adoptarea pe scară largă pe lanțul de pe piața taur din 2021, iar conținutul UGC al platformelor sociale se întâmplă, de asemenea, în liniște pe lanț. În același timp, multe platforme de modele web3 AI stimulează deja utilizatorii obișnuiți care contribuie la formarea modelelor, fie că sunt proprietari de date sau formatori.
Dezvoltarea exponențială a modelelor de inteligență artificială a ridicat cerințe mai mari pentru verificarea datelor. Creatorii ar trebui să se gândească la: de ce a fost vândută munca mea unei companii de modele de inteligență artificială pentru 5 cenți pe bucată, fără consimțământul meu? De ce nu am fost ținut la cunoștință de întregul proces și nu am putut obține niciun beneficiu?
Eforturile platformei media de a prinde peștii mari nu pot atenua anxietatea de date a companiilor model AI. Condiția prealabilă pentru obținerea unor date de înaltă calitate și a rezultatelor ridicate este confirmarea drepturilor asupra datelor, care este o distribuție rezonabilă a intereselor între creatori, platforme și AI. companii model.

Explorați mai multe de la acest creator

Ultimele știri