Ob es die Arbeit von OpenAI, Google und Meta ist oder die KI-Finanzierung des Industriesektors, die verschiedene Mittel wie das Sammeln oder Ansammeln enormer Mengen digitaler Daten auf unterschiedliche kreative, aber umstrittene Weise umfasst, es ist klar, dass die Automatisierungsfähigkeiten und -möglichkeiten zunehmen. Insbesondere der Aufwand, der mit Aktionen wie den oben beschriebenen Maßnahmen verbunden ist (d. h. unter Berücksichtigung gesetzlicher Grenzen und Unternehmensrichtlinien), entspricht der beträchtlichen Datenmenge, die zum Trainieren der KI-Systeme verwendet wird.

OpenAIs Flüsterinitiative: YouTube-Gespräche auswerten

Unsere Whisper-Geschichte begann erst letztes Jahr. Es herrscht ein überwältigender Mangel an erstklassigen englischen Texten, der zu Verzögerungen bei der Bereitstellung von Bildung führt. Whisper war der nächste Schritt von Google. Es verstand das Meer an Dialogen auf YouTube und wurde als Text entwickelt, eine Text-to-Speech-Anwendung. Das KI-gestützte Tool selbst, das aus mehr als einer Million Stunden YouTube-Videos besteht, die von der KI geprüft werden, um neue Texte (im Wesentlichen eine neue Konversation) zu generieren, wurde zum Trainieren von KI-Modellen verwendet, die vom neuesten Stand der Technik bis hin zu GPT-4, der neuesten Version des ChatGPT-Chatbots, erstellt wurden.

Auch wenn einige Mitarbeiter argumentierten, dass das Microsoft-Filmmaterial von OpenAI YouTube in jeder Hinsicht plagiieren würde, war die Ethik des Plagiats immer noch umstritten; außerdem räumten einige Mitarbeiter ein, dass es unmöglich sei, es genau den Absichten von YouTube anzupassen. Ebenso könnte die Anhäufung von Einwänden bei der algorithmischen Verarbeitung der Videos zur Extraktion der Textinhalte zur Fütterung der KI-Modelle als Bedrohung des Urheberrechts der Videoersteller angesehen worden sein, was zu Empörung führte.

Meta, die Muttergesellschaft von Facebook und Instagram, war ebenfalls besorgt über die Verwendung urheberrechtlich geschützter Elemente von Verlagen wie Simon & Schuster und anderen. Gleichzeitig diskutierte sie auch über den Erwerb allgemeiner Webinhalte, die möglicherweise einer Urheberrechtsverletzung unterliegen könnten.

Der Datencrash: Unkonventionelle Ansätze vorantreiben

Die wettbewerbsorientierte Datenerfassung hilft dabei, die zentrale Bedeutung von Daten zu erkennen und sie bei der Entwicklung von KI-Technologien zu identifizieren. Die Sprache in einer KI erfordert immer mehr Trainingsdatensätze, darunter das Commonwealth, die heute von außerhalb dieser Quellen bis hin zu Wikipedia und Reddit manipuliert werden. Für Technologieunternehmen – insbesondere solche, die Schwierigkeiten haben, auf sehr gängige Datenquellen wie herkömmliche Datenspeicher zuzugreifen – kann die Erstellung von KI-gestützten Modellen eine alternative Lösung sein, die in solchen Fällen durchaus wünschenswert sein kann.

Unternehmen aus der Technologiebranche geben an, dass die Datenerfassung für das Training von KI erforderlich ist, obwohl derselbe Prozess vor Gericht angefochten wird. Zu ihrer Verteidigung haben OpenAI und Microsoft eine Anklage wegen illegaler Verwendung von urheberrechtlich geschütztem Material gewonnen. Dennoch sagten sie, ihre Handlungen fielen unter das Rechtsprinzip der fairen Verwendung. In den letzten Jahren hat die Zahl der von Urheberrechtsinhabern beim US-amerikanischen Urheberrechtsamt eingereichten Anträge die Zahl 10.000 überschritten, was deutlich zeigt, dass das Urheberrecht im KI-Zeitalter einzigartig und brandneu ist. Folglich sind die Hauptakteure immer mit der Gefahr konfrontiert, dass viele Werke verletzt werden, unter dem Vorwand, dass es für die Modelle, die KI auf dieser Grundlage verwenden, keine lizenzierten Zwecke gibt.

Die Notwendigkeit riesiger Datensätze

Insgesamt war Kaipans Arbeit, de Jared, Wissenschaftler der Skala, ungewollt episch in der KI-Entwicklung. Datengesteuerte Inhalte sind eine der Komponenten der KI, die für den Trainingsprozess benötigt werden, aber sie kann ohne die Modelle, die gut trainiert wurden und effektiv arbeiten, nicht gut funktionieren. Mit der Zunahme der künstlichen Intelligenztechnologie steigt die Nachfrage nach Daten, um auf dem Markt erfolgreich zu sein, stark an, was Unternehmen vor Fragen in Bezug auf Recht, Ethik und Datenschutz stellt. Daher müssen künstliche Intelligenzalgorithmen diese Datensätze verwenden, um auf dem Markt erfolgreich zu sein.

Das Datenerfassungsverhalten von V.IPs wird für KI-Verbesserungen entstellt; der typische methodologische Eid wird vergröbert. Ob durch einen ihrer YouTube-Vorträge oder die Erstellung synthetischer Datengenerierung – diese Unternehmen sind Vorreiter auf einer Mission, um herauszufinden, was die rechtlichen, ethischen und Datenschutzprobleme wirklich sind.

Sie könnten später zu einer Lachnummer werden. Angesichts der enormen Datenmengen, die für den Innovationsprozess erforderlich sind, müssen sich die gesellschaftlichen Entscheidungsträger aktiv an einem konstruktiven Dialog beteiligen, um Regeln und Standards zu entwickeln, die Innovationsbemühungen mit ethischen Grundsätzen des geistigen Eigentums und des Datenschutzes in Einklang bringen.

Originalgeschichte von: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html