Geschrieben von: Jiang Jiang

Herausgeber: Manmanzhou

Das Aufkommen von ChatGPT und die explosionsartige Einführung von Midjourney ermöglichten es der KI, ihre erste groß angelegte Anwendung zu erreichen, nämlich die Popularität großer Modelle.

Das sogenannte große Modell bezieht sich auf ein maschinelles Lernmodell mit einer großen Anzahl von Parametern und einer komplexen Struktur, das große Datenmengen verarbeiten und verschiedene komplexe Aufgaben erledigen kann.

01 Urheberrechtsstreitigkeiten bei KI-Daten

Vergleicht man die aktuellen großen KI-Modelle mit Autos, handelt es sich bei den Rohdaten um Rohöl. Auf jeden Fall braucht das KI-Modell zunächst einmal genügend „Rohöl“.

Zu den Hauptquellen für „Rohöl“ für KI-Unternehmen gehören die folgenden Kategorien:

  • Öffentliche und kostenlose Datenquellen im Internet, wie Wikipedia, Blogs, Foren, Nachrichteninformationen usw.;

  • Etablierte Nachrichtenmedien und Verlage;

  • Universitäten und andere Forschungseinrichtungen;

  • C-seitige Benutzer, die das Modell verwenden.

Für den Besitz von Öl gibt es in der realen Welt bereits ausgereifte gesetzliche Regelungen, doch im immer noch chaotischen Bereich der KI sind die Rechte zur Ausbeutung von „Rohöl“ noch nicht klar und die daraus resultierenden Streitigkeiten sind zahlreich.

Erst kürzlich haben mehrere große Musiklabels die KI-Musikproduktionsfirmen Suno und Udio verklagt und ihnen Urheberrechtsverletzungen vorgeworfen. Die Klage ähnelt der, die die New York Times im Dezember gegen OpenAI eingereicht hat.

Quelle: Billboard

Im Juli 2023 reichte eine Gruppe von Autoren eine Klage gegen das Unternehmen ein und behauptete, ChatGPT habe Auszüge aus den Werken der Autoren auf der Grundlage urheberrechtlich geschützter Inhalte erstellt.

Im Dezember desselben Jahres reichte die New York Times ebenfalls eine ähnliche Urheberrechtsklage gegen Microsoft und OpenAI ein und beschuldigte die beiden Unternehmen, die Inhalte der Zeitung zum Trainieren von Chatbots mit künstlicher Intelligenz zu nutzen.

Darüber hinaus wurde in Kalifornien eine Sammelklage eingereicht, in der behauptet wurde, dass OpenAI private Daten von Benutzern aus dem Internet erhalten habe, ohne dass diese dem Training von ChatGPT zugestimmt hätten.

OpenAI zahlte letztlich nicht für den Vorwurf. Sie gaben an, dass sie mit dem Vorwurf der New York Times nicht einverstanden seien und die von der New York Times genannten Probleme nicht reproduzieren könnten York Times war für OpenAI egal.

Quelle: https://openai.com/index/openai-and-journalism/

Für OpenAI besteht die vielleicht größte Lektion aus diesem Vorfall darin, die Beziehung zu Datenlieferanten richtig zu verwalten und die Rechte und Pflichten beider Parteien zu klären. Infolgedessen hat OpenAI im vergangenen Jahr Partnerschaften mit vielen Datenanbietern geschlossen, darunter unter anderem The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer und American Journalism Project und mehr.

In Zukunft wird OpenAI die Daten dieser Medien rechtmäßig nutzen und diese Medien werden auch die Technologie von OpenAI in ihre Produkte integrieren.

02 KI treibt die Monetarisierung von Content-Plattformen voran

Der grundlegendste Grund für OpenAI, Partnerschaften mit Datenanbietern einzugehen, ist jedoch nicht die Angst vor einer Klage, sondern die drohende Datenverknappung, mit der maschinelles Lernen konfrontiert ist. Eine von Forschern wie dem MIT durchgeführte Studie schätzte, dass die Datensätze für maschinelles Lernen bis 2026 alle „hochwertigen Sprachdaten“ erschöpfen könnten.

„Hochwertige Daten“ sind daher für Modellbauer wie OpenAI und Google zu einem begehrten Gut geworden. Content-Unternehmen und Hersteller von KI-Modellen haben wiederholt eine Zusammenarbeit erreicht, um ein Flat-Profit-Modell zu starten.

Die traditionelle Medienplattform Shutterstock hat sukzessive Kooperationen mit KI-Unternehmen wie Meta, Alphabet, Amazon, Apple, OpenAI, Reka usw. geschlossen und wird ihren Jahresumsatz durch die Lizenzierung von Inhalten an KI-Modelle im Jahr 2023 auf 104 Millionen US-Dollar steigern voraussichtlich 250 Millionen US-Dollar Umsatz im Jahr 2027; Reddit Die Einnahmen aus an Google lizenzierten Inhalten belaufen sich auf bis zu 60 Millionen US-Dollar pro Jahr; Jahr. Die Lizenzgebühren, die Content-Unternehmen von KI-Unternehmen erhalten, steigen jährlich um 450 %.

Bildquelle: CX Scoop

In den letzten Jahren war es schwierig, andere Inhalte als Streaming-Medien zu monetarisieren, was ein großes Problem in der Content-Branche darstellte. Verglichen mit der Ära des Internet-Unternehmertums hat das Aufkommen der KI der Content-Branche mehr Vorstellungskraft und höhere Umsatzerwartungen beschert.

03 Hochwertige Daten sind immer noch rar

Natürlich erfüllen nicht alle Inhalte die Anforderungen der KI.

Ein weiterer Lichtblick in der oben erwähnten Debatte zwischen OpenAI und der New York Times ist die Datenqualität. Um Öl aus Rohöl zu raffinieren, muss erstens das Öl selbst von guter Qualität sein und zweitens muss die Reinigungstechnologie gut sein.

OpenAI betont ausdrücklich, dass der Inhalt der New York Times keinen wesentlichen Beitrag zum Modelltraining von OpenAI geleistet hat. Im Vergleich zu Shutterstock, das es OpenAI ermöglicht, jedes Jahr Dutzende Millionen Dollar auszugeben, stützen sich Textmedien wie die New York Times darauf Aktualität ist nicht der Liebling der KI-Ära. KI erfordert umfassende und einzigartige Daten.

Allerdings sind qualitativ hochwertige Daten zu knapp, und auch KI-Unternehmen haben begonnen, an „Reinigungstechnologie“ und „One-Stop-Anwendung“ zu arbeiten.

Am 25. Juni erwarb OpenAI das Echtzeitanalyse-Datenbankunternehmen Rockset. Dieses Unternehmen bietet hauptsächlich Echtzeit-Datenindizierungs- und Abfragefunktionen an und wird die Technologie von Rockset in seine Produkte integrieren, um den Echtzeit-Nutzwert von Daten zu verbessern.

Bildquelle: DePIN Scan

Mit der Übernahme von Rockset plant OpenAI, die Nutzung und den Zugriff von KI auf Echtzeitdaten zu verbessern. Dadurch können die Produkte von OpenAI komplexere Anwendungen unterstützen, wie etwa Echtzeit-Empfehlungssysteme, dynamische datengesteuerte Chatbots, Echtzeit-Überwachungs- und Alarmsysteme usw.

Rocket ist die integrierte „petrochemische Abteilung“ von OpenAI, die gewöhnliche Daten direkt in qualitativ hochwertige Daten umwandelt, die von Anwendungen benötigt werden.

04 Ist die Bestätigung der Datenrechte des Erstellers eine Fantasie?

Die Daten von Internet-Medienplattformen (Facebook, Reddit etc.) stammen größtenteils aus UGC, also von Nutzern beigesteuerten Inhalten. Während viele Plattformen KI-Unternehmen hohe Datengebühren in Rechnung stellen, fügen sie den Nutzerbedingungen auch stillschweigend eine Klausel hinzu, dass „die Plattform das Recht hat, Nutzerdaten zum Trainieren von KI-Modellen zu verwenden.“

Obwohl in den Nutzungsbedingungen eindeutig die Rechte zum Trainieren von KI-Modellen angegeben sind, wissen viele Autoren weder, von welchen Modellen ihre Inhalte verwendet werden, noch wissen sie, ob sie dafür bezahlen, noch können sie die entsprechenden Rechte und Interessen erhalten, die dazu gehören sollten ihnen.

Während der vierteljährlichen Telefonkonferenz von Meta im Februar machte Zuckerberg deutlich, dass er Bilder von Facebook und Instagram verwenden würde, um seine KI-generierenden Tools zu trainieren.

Berichten zufolge hat Tumblr auf mysteriöse Weise auch Content-Lizenzvereinbarungen mit OpenAi und Midjourney getroffen, der konkrete Inhalt der konkreten Vereinbarungen wurde jedoch nicht bekannt gegeben.

Auch die Macher der Fotogalerie-Plattform EyeEm erhielten kürzlich eine Benachrichtigung, dass die von ihnen geposteten Fotos für das Training von KI-Modellen verwendet würden. In der Mitteilung wurde erwähnt, dass Benutzer sich daher dafür entscheiden können, das Produkt nicht zu verwenden, es wurden jedoch keine Entschädigungsrichtlinien erwähnt. Die Muttergesellschaft von EyeEm, Freepik, teilte Reuters mit, dass sie Verträge mit zwei großen Technologieunternehmen unterzeichnet habe, um die meisten ihrer 200 Millionen Bilder für etwa 3 Cent pro Bild zu lizenzieren. Geschäftsführer Joaquin Cuenca Abela sagte, fünf weitere ähnliche Deals seien in Arbeit, lehnte es jedoch ab, die Käufer zu nennen.

UGC-basierte Content-Plattformen wie Getty Images, Adobe, Photobucket, Flickr, Reddit usw. stehen alle vor ähnlichen Problemen. Unter der großen Versuchung der Datenmonetarisierung ignorieren die Plattformen das Eigentum der Benutzer an den Inhalten und verpacken die Daten und verkaufen sie an KI-Modellunternehmen.

Der gesamte Prozess verlief im Dunkeln und die Schöpfer hatten keine Chance, Widerstand zu leisten. Sogar viele Schöpfer müssen eines Tages möglicherweise Inhalte, die ihren eigenen Werken ähneln, in einem Modell trainieren, bevor sie den Verdacht haben, dass ihre vorherigen Werke von einer bestimmten Plattform an ein KI-Unternehmen zum Modelltraining verkauft wurden.

Web3 könnte eine gute Wahl sein, um das Problem des schwierigen Schutzes der Datenrechte und des Einkommens der Urheber zu lösen. Als KI-Unternehmen am US-Aktienmarkt neue Höchststände erreichten, schnellte gleichzeitig auch die KI-Konzeptwährung von web3 in die Höhe. Blockchain genießt aufgrund seiner dezentralen und nicht manipulierbaren Eigenschaften einzigartige Vorteile beim Schutz der Rechte der Urheber.

Medieninhalte wie Bilder und Videos haben im Bullenmarkt 2021 die groß angelegte Einführung in der Kette abgeschlossen, und auch der UGC-Inhalt sozialer Plattformen geschieht stillschweigend in der Kette. Gleichzeitig bieten viele web3-KI-Modellplattformen bereits Anreize für normale Benutzer, die zum Modelltraining beitragen, unabhängig davon, ob sie Dateneigentümer oder Trainer sind.

Die exponentielle Entwicklung von KI-Modellen hat zu höheren Anforderungen an die Datenverifizierung geführt. Schöpfer sollten darüber nachdenken: Warum wurde meine Arbeit ohne meine Zustimmung für 5 Cent pro Stück an ein KI-Modellunternehmen verkauft? Warum wurde ich über den gesamten Prozess nicht informiert und konnte keinen Nutzen daraus ziehen?

Die Bemühungen der Medienplattform, den großen Fisch zu fangen, können die Datenangst der KI-Vorzeigeunternehmen nicht lindern. Voraussetzung für die Erzielung hochwertiger Daten und eines hohen Outputs ist die Bestätigung der Datenrechte, also eine vernünftige Interessenverteilung zwischen Urhebern, Plattformen und KI Modellunternehmen.