Die New York Times enthüllt die Methodik, mit der OpenAI Millionen Stunden an YouTube-Videotranskripten sammelt, um die riesigen Datenmengen zu generieren, die ihr leistungsstarkes KI-Modell GPT-4 benötigt. Es mag zwar den Anschein erwecken, als würden diese Unternehmen denselben Weg verfolgen und sich in eine Reihe mit den Giganten Google und Meta einreihen, doch dieser Weg wird durch die Weiterentwicklung der KI-Technologien immer schneller. All dies führt zur Frage der „digitalen Kluft“ und deren Auswirkungen auf die Fähigkeit des Einzelnen, an der Wirtschaft teilzunehmen, insbesondere auf Fragen wie Urheberrecht und Datenethik.

OpenAIs mutige Datenerfassungstaktik

OpenAI hat diesen YouTube-Inhalt entdeckt und analysiert. Diese Strategie berührt trotz des innovativen Charakters der freien Nutzung die Grundsätze der fairen Nutzung, die für dieses Unternehmen Voraussetzung für seine Arbeit sind. Das Aufzeichnen von YouTube-Videos, einer der von Google betriebenen Plattformen für den KI-Lernprozess, wirft Bedenken hinsichtlich Urheberrechtsverletzungen und ethischer Probleme auf, die mit der Datennutzung ohne Zustimmung des Autors verbunden sind.

Lustigerweise hat Google, nachdem es als Eigentümer von YouTube wegen derselben Sache in die Kritik geraten war, angeblich derartige Praktiken für seine KI-Modelle angewandt. Dieser gemeinsame Schnüffelprozess ist eindeutig ein ausgefallener Teil des Berichts, der die verwirrenden ethischen und rechtlichen Grenzen der Technologieunternehmen bei ihren Bemühungen um künstliche Intelligenz weiter offenbart. Andererseits hat Google erwähnt, dass sie die Erlaubnis des Erstellers zur Verwendung von Videos einholen können, bevor sie ein KI-System mit diesen Daten trainieren, was letztendlich zu einem Streitpunkt in der Erzählung wird.

Die Überarbeitung der Datenschutzrichtlinie

Eines der wichtigsten Ereignisse in diesem Zusammenhang war Googles Unternehmensmaßnahme zur Änderung seiner Datenschutzrichtlinien bis Ende Juni 2023. Die Strategie zielte darauf ab, die Möglichkeiten des Unternehmens zu erweitern, öffentlich zugängliche Datenquellen – von Google-Dokumenten bis hin zu Google Maps-Bewertungen – zu nutzen, um KI-gesteuerte Innovationen zu fördern. Dies deutet auf ein breiteres Phänomen im Technologiesektor hin, bei dem diese großen Technologieunternehmen sowohl in den Bereichen Innovation als auch Datenschutz eine Vorreiterrolle einnehmen und darum kämpfen, die richtige Balance zwischen beidem zu finden.

Die Enthüllungen dieser Tech-Giganten, dass OpenAI und Google Daten ohne ausdrückliche Zustimmung sammeln, werfen nun Fragen über den Verlauf des KI-Wachstums und den ethischen Umgang mit Daten auf. Neil Mohan, CEO von YouTube, wurde von Bloomberg zu diesem Thema zitiert und sagte, die Plattform erlaube keine Downloads aus diesen nicht autorisierten Quellen.

Industrielle und rechtliche Auswirkungen

Aufgrund der Mehrdeutigkeit stellt sich die Frage nach der Moralität und Rechtmäßigkeit dieser Daten-Scraping-Bemühungen. Ein weiterer Bereich, in dem Verbesserungen nötig sind, sind Plagiatsprobleme, da diese Ansätze zwar kreativ sein können, aber auch Urheberrechtsprobleme aufwerfen. Datenschutzprobleme sind in dieser Branche ebenfalls ein Problem. Die Reichweite dieser Fehler beschränkt sich jedoch nicht nur auf rechtliche und ethische Probleme, sondern geht weit darüber hinaus. Aufgrund ihrer Fülle lenken sie die Aufmerksamkeit auf ein bedeutenderes Technologierennen (KI-Technologie), das darauf abzielt, Daten zu nutzen, um KI-Fortschritte voranzutreiben.

 Während Pioniere der KI-Technologie wie OpenAI und Google den Umfang des nächsten KI-Paradigmas erweitern, weitet sich die Debatte darüber aus, welche Datenmengen verwendet werden können, welche Aspekte beim Urheberrechtsschutz zu berücksichtigen sind und welche enormen gesellschaftlichen Auswirkungen KI-Anwendungen haben. Die Vermischung von Innovation und Ethik führt zu einem komplexeren Bild und erfordert die Entwicklung von Regulierungsgrundsätzen und klaren Richtlinien.

Die Vorgehensweise von OpenAI und Google bei der Nutzung von YouTube-Videos zu Schulungszwecken wirft das mehrdimensionale Problem subjektiver Natur auf, das rechtliche, ethische und technologische Dimensionen umfasst. Daher ist der Technologiesektor ständig mit Herausforderungen wie Innovation, Datenschutz und Ethik konfrontiert, ohne die kein weiteres Wachstum gewährleistet werden kann. Die Diskussion zu diesen Themen wird weitergehen. Sie wird sich jedoch auch auf alle Beteiligten in der Gesellschaft erstrecken, von Rechtsexperten bis hin zu KI-Entwicklern selbst, um schließlich einen Lösungsvorschlag zu erarbeiten.

Originalgeschichte von https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/