Es wurde festgestellt, dass Apple, Nvidia und Anthropic YouTube-Untertitel verwenden, um KI-Modelle zu trainieren, was gegen die Richtlinien von YouTube verstößt. Ein Bericht von Proof News und Wired zeigte, dass diese Unternehmen einen Datensatz mit den Transkripten von Tausenden von YouTube-Videos verwendet hatten, ohne die entsprechende Lizenz dafür einzuholen.

Lesen Sie auch: Britische Aufsichtsbehörde leitet Untersuchung zur KI-Talentakquise von Microsoft ein

Die Studie ergab, dass Apple, Nvidia und Anthropic den YouTube-Untertitel-Datensatz verwendeten. Dieser Datensatz besteht aus Transkripten von 173.536 YouTube-Videos aus 48.000 Kanälen. Die Videos umfassen Bildungskanäle wie Khan Academy und MIT, Nachrichtenkanäle wie The Wall Street Journal und Top-Ersteller wie MrBeast und Marques Brownlee.

Beliebte YouTuber reagieren auf Datenmissbrauch

Marques Brownlee, ein beliebter YouTuber, kommentierte das Problem auf X. Er sagte: „Apple hat Daten für KI von anderen Firmen gesammelt. Eines davon hat viele Daten/Transkripte von YouTube-Videos gesammelt, darunter auch von meinem.“ Obwohl Apple die Daten möglicherweise nicht direkt gescrapt hat, wies Brownlee darauf hin, dass dieses Problem weiterhin bestehen wird.

Der Datensatz „YouTube Subtitles“ wurde von EleutherAI entwickelt und 2020 veröffentlicht. Er enthält 5,7 GB an Daten, darunter Untertitel der YouTube-Videos, die von der Plattform entfernt wurden.

Laut den Nutzungsbedingungen von YouTube ist der Zugriff auf Videos mit „automatisierten Mitteln“ verboten. Die Existenz von Untertiteln in entfernten Videos verschärft das Problem nur noch und wirft Fragen zu Datenschutz und Urheberrechtsverletzungen auf.

Auch Salesforce, eine ebenfalls in die Ermittlungen verwickelte Organisation, hat zugegeben, den besagten Datensatz verwendet zu haben.

„Der im Forschungsbericht erwähnte Pile-Datensatz wurde 2021 für akademische und Forschungszwecke trainiert. Der Datensatz war öffentlich verfügbar und wurde unter einer freizügigen Lizenz veröffentlicht.“

Salesforce-Sprecher 

Die Verwendung von YouTube-Inhalten ohne Erlaubnis ist jedoch bis heute umstritten. Im April sagte YouTube-CEO Neal Mohan, dass die Verwendung von YouTube-Videos, -Transkripten oder -Clips für das KI-Training ein „klarer Verstoß“ gegen die Richtlinien sei. Laut der New York Times verwendete OpenAI jedoch eine Million Stunden YouTube-Videos, um sein GPT-4-Modell zu trainieren.

Rechtsstreitigkeiten über die Nutzung von Internetinhalten durch KI-Unternehmen

Das Problem, dass KI-Unternehmen ohne Genehmigung Inhalte aus dem Internet verwenden, hat sich nach dem Start von ChatGPT verschärft. Darüber hinaus verklagen Inhaltsersteller Stability AI und Midjourney, weil sie angeblich urheberrechtlich geschützte Werke ohne Genehmigung kopieren. Der Eigentümer von YouTube, Google, sah sich Sammelklagen wegen ähnlicher Vorwürfe gegenüber und erklärte, dass Klagen dieser Art die Grundlage der generativen KI bedrohen.

In einem Interview mit dem Wall Street Journal ging Mira Murati, CTO von OpenAI, nicht näher darauf ein, ob das Unternehmen Videos von Social-Media-Plattformen verwendet hat, um dieses neue Modell zu trainieren. Mustafa Suleyman, CEO von Microsoft AI, erklärte, dass Inhalte im offenen Web seit den 1990er-Jahren auf der Grundlage dessen, was er den „Gesellschaftsvertrag“ nannte, als „Fair Use“ gelten.