Wenn man die aktuelle Debatte darüber diskutiert, wie Open und Google ihre Daten so gestalten, dass sie als Modell passen, wird man feststellen, dass zwei Begriffe die Debatte dominieren: Open und Google. Die kürzlich im Wall Street Journal und in der New York Times veröffentlichten Artikel zeigen, dass die Art und Weise, wie KI-Unternehmen Daten sammeln, nicht den Anforderungen entspricht und Kopfschmerzen bereitet, welche Daten wahr sind und welcher ethische Ansatz bei der Erstellung des KI-bezogenen Systems verfolgt wurde.

Die fragwürdigen Taktiken von OpenAI

Auf ihrem Höhepunkt betonte die New York Times jedoch die größeren Ergebnisse von Open AI, die mit Whisper erzielt wurden. Dieses Audio-zu-Text-Transkriptionsmodell ist eine Ergänzung zur LP-4-Technologie des Sprachprozessors von Open AI. Tatsächlich basiert das selbstfahrende Auto von OpenAI nicht auf der Informationssammlung, die ein herausforderndes Problem darstellt, mit dem sich das Unternehmen auseinandersetzt; letzteres kommt vielmehr unter solchen Bedingungen ins Spiel.

Obwohl die anfängliche Popularität der Datensammlungsgesetze mit dem Fair-Use-Use-Gesetz zusammenhing, wurde letzteres auch zur Rechtsgrundlage für diese Gesetze. Wie Brockman es ausdrückte, lieferten eines der Gründungsmitglieder und der CEO von OpenAI einige für die Transkription notwendige Informationen. Er sagt jedoch weiter, dass auch der Historiker zur Transkription beigetragen habe.

Allerdings steht die Google Corporation selbst bei diesen kleinen Problemen im Mittelpunkt, im Gegensatz zu größeren Unterfangen wie diesem, das heißt, eine Datenerfassungsfunktion wie OpenAI ist eine kleinere Organisation und beteiligt sich an Projekten, die auf den Branchenriesen ausgerichtet sind, und der Benutzer wurde nur gewarnt, aber nicht darüber informiert, wer von YouTube verantwortlich gemacht werden sollte.

Neben diesem Ansatz hat Facebook auch die Compliance-Grundlage in den Nutzungsbedingungen abgedeckt und unerlaubte Aktionen verboten, insbesondere das sogenannte Datenscraping. Im Fall von John Conly (YouTube-Sprecher) antwortete er auf die Frage, ob die Modelle für inhaltsbasiertes KI-Training verwendet wurden, nachdem Daten von Inhaltserstellern gesammelt wurden.

Im Gegenteil. Sowohl das Trainieren von Maschinen als auch Meta ist ein aktuelles Problem, das zu seiner Undurchführbarkeit führt. Die KI-Gruppe in der Firma, die im Wettbewerb mit OpenAI erfolgreich war, war der Ansicht, dass beide Teams alle verfügbaren Mittel nutzten, um an einem besseren Ergebnis für ihre Unternehmen zu arbeiten, einschließlich originellem Denken, ohne auf Aspekte zu achten, die der abgelehnten Partei zugutekommen.

Meta scheint Fragen vorbereitet zu haben, deren Antworten sie darauf abzielen, welche delegierten Arbeiten ausgeführt werden und wer für den Kauf von Büchern bei welchen auf bestimmte Bereiche spezialisierten Verlagen zuständig ist. Obwohl das Benutzererlebnis des Netzwerks äußerst erstaunlich ist, hat die etablierte Regierungspolitik die Initiative ergriffen, sich in die Privatsphäre des Einzelnen einzumischen, was 2018 durch die Cambridge-Analytica-Affäre deutlich wurde.

Der breitere KI-Trainingssektor steht vor einem dringenden Dilemma: Einerseits ist die Frage des Datenmangels in den letzten Jahren akuter geworden, andererseits. Obwohl der Zusammenhang zwischen beidem weiterhin besteht, bestehen Forscher immer darauf, über ausreichend Daten zu verfügen, um die Genauigkeit zu verbessern und die Leistung zu steigern.

Auch die Prognose des Wall Street Journals weckt Begeisterung, da sie für das frühere Jahr 2020 Höhen jenseits aller Ziele projiziert und das Jahresende mit dem höchsten Marktpunkt kreuzt. Diese Methode basiert auf zwei Faktoren: dem Vertrauen auf die Modelle, die synthetisch sein können, um eine externe Matrix anzugeben, und einem Lehrplan für den Entscheidungsprozess, bei dem die Modelle aus ihren Entscheidungen lernen. Erwarten Sie nicht, dass sie Ergebnisse liefern, aber lassen Sie sie beobachtbar sein.

Rechtliche und ethische Auswirkungen

Das Fehlen einer Piraterie-Regel könnte Probleme bereiten, da Benutzer nicht auf die urheberrechtlich geschützten Objekte zugreifen können und es zu Meinungsverschiedenheiten hinsichtlich Recht, Ethik usw. kommen könnte. Werden Daten zu immateriellem Eigentum und zur Grundlage dafür, zu wissen und festzustellen, was Ihnen gehört und was nicht, wobei Daten und Benutzer als Quelle des Geschäfts bekannt sind, wenn die Verwendung dieser Daten ungerechtfertigt ist? Dieses Risiko würde dazu führen, dass sich die Programmleiter des F&E-Teams darauf konzentrieren müssten, sie zu überprüfen und Antworten zu erarbeiten.

Der Zusammenhang im Zweck der Sammelklagekampagnen würde bedeuten, dass Datenschutz und Datennutzung Antworten sind, die die Organisation nicht gut genug kennt, um ihre Aktivitäten legitim zu machen. Tatsächlich werden die Herausforderungen (wie die ethischen Fragen im Zusammenhang mit dem Prozess des Data Mining, der für die KI-Forschung und -Entwicklung verwendet wird) kompliziert, weil wir die Regulierungsbeschränkungen und den Datenschutz der Daten berücksichtigen müssen (da die Art der Daten im Kontext der Art und Weise steht, wie die Daten verarbeitet und verwendet werden).

Der härteste KI-Wettbewerb der Zukunft besteht darin, die besten Daten für das Training der KI-Systeme zu ermitteln, und noch mehr geht es darum, ob diese Daten gemeinsamen ethischen oder rechtlichen Regulierungsrahmen unterliegen. Alles rund um KI betont und erweitert von Natur aus Konzepte wie Innovation und Implementierung durch Datensatzfilter für Unternehmen.

Da es sich bei künstlicher Intelligenz um eine Technologie handelt, ist sie nie statisch. Das Hauptproblem wird also immer die Datennutzung sein. Und sie wird auch weiterhin eine der Prioritäten der Community-Mitglieder bleiben, die durch die Nutzung künstlicher Intelligenz Gestalt annehmen.

Originalgeschichte von: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb