KI-Unternehmen navigieren durch rechtliche Grauzonen bei Trainingsdaten

Cryptopolitan · 2024-04-06T23:33:02.000Z

Wenn man die aktuelle Debatte darüber diskutiert, wie Open und Google ihre Daten so gestalten, dass sie als Modell passen, wird man feststellen, dass zwei Begriffe die Debatte dominieren: Open und Google. Die kürzlich im Wall Street Journal und in der New York Times veröffentlichten Artikel zeigen, dass die Art und Weise, wie KI-Unternehmen Daten sammeln, nicht den Anforderungen entspricht und Kopfschmerzen bereitet, welche Daten wahr sind und welcher ethische Ansatz bei der Erstellung des KI-bezogenen Systems verfolgt wurde. Die fragwürdigen Taktiken von OpenAI Auf ihrem Höhepunkt betonte die New York Times jedoch die größeren Ergebnisse von Open AI, die mit Whisper erzielt wurden. Dieses Audio-zu-Text-Transkriptionsmodell ist eine Ergänzung zur LP-4-Technologie des Sprachprozessors von Open AI. Tatsächlich basiert das selbstfahrende Auto von OpenAI nicht auf der Informationssammlung, die ein herausforderndes Problem darstellt, mit dem sich das Unternehmen auseinandersetzt; letzteres kommt vielmehr unter solchen Bedingungen ins Spiel.

Open と Google がどのようにしてモデルに適合するデータを取得するかについての最近の議論について議論すると、2 つの用語が議論の中心になっていることに気付くでしょう。それは、Open と Google です。最近、The Wall Street Journal と NY Times に掲載された記事は、AI 関連企業のデータ収集方法が基準を満たしておらず、どのデータが真実で、AI 関連システムの作成にどのような倫理的観点が使用されたかという問題を引き起こしたことを示しています。
OpenAIの疑わしい戦術
しかし、ニューヨークタイムズ紙は、そのピーク時に、Whisper で示された Open AI のより大きな成果を強調しました。この音声からテキストへの転写モデルは、Open AI の言語プロセッサ LP-4 テクノロジーを補完するものとして開発されています。実際、OpenAI の自動運転車は、同社が直面する困難な課題である情報収集によるものではなく、むしろ、そのような状況下で後者が機能するのです。
データ収集法が最初に人気を博したのは、著作権の公正使用に関する配慮によるものだが、後者はこれらの法の法的根拠にもなった。ブロックマン氏が言うように、OpenAIの創立メンバーの1人でCEOの彼が転写に必要な情報を提供した。しかし、歴史家も転写に貢献したと彼は続ける。
しかし、Google社は、このような小さな問題からこのような大規模な事業に至るまで、中心的な役割を担っています。つまり、OpenAIのようなデータ収集機能は小規模な組織であり、業界大手に向けたプロジェクトに携わっており、ユーザーには警告されただけで、YouTubeが誰を責めるべきかは伝えられていません。
このアプローチの他に、Facebookは利用規約の遵守基準もカバーし、特にいわゆるデータスクレイピングなどの不正行為を禁止しました。ジョン・コニー氏（YouTubeの広報担当者）の場合、コンテンツ作成者からデータを収集した後、モデルがコンテンツベースのAIトレーニングに使用されたかどうかという質問に答えました。
それどころか、Meta のどちら側でもマシンのトレーニングが現在問題となっており、それが実現不可能な状況につながっています。OpenAI との競争で成功を収めた同社の AI グループは、両チームが、拒否された側に有利な事柄には一切注意を払わずに独創的な思考を含め、自社にとってより良い結果を得るために利用可能なあらゆる手段を講じたと考えています。
Meta は、委任された業務はどのようなものになるのか、特定の分野に特化したどの出版社から書籍を購入するのは誰なのか、といった質問の答えを得られるようなタイプの質問を用意していたようです。ネットワークのユーザー エクスペリエンスは非常に素晴らしいものですが、既存の政府政策は個人のプライバシーに干渉する主導権を握っており、これは 2018 年の Cambridge Analytica 事件で浮き彫りになりました。
AI トレーニングの幅広い分野は、差し迫ったジレンマに直面しています。一方では、データ不足の問題がここ数年でさらに深刻化しています。この 2 つの関係は依然として残っていますが、研究者は常に、精度とパフォーマンスの向上のために十分なデータが必要であると主張しています。
また、ウォール ストリート ジャーナルの予測は、2020 年初頭のすべての目標を上回る上昇を予測し、年末に最高市場ポイントを迎えるという熱狂を呼び起こしています。この方法は、外部マトリックスを記述するために合成できるモデルへの依存と、モデルが意思決定から学習する意思決定プロセスのカリキュラムという 2 つの要素に基づいています。結果が出ることを期待するのではなく、観察できるようにします。
法的および倫理的影響
著作権侵害ルールがないと、著作権で保護されたアイテムにユーザーがアクセスできないため、問題が発生する可能性があります。また、ミッションの理解には法律、倫理などに関する問題が発生する可能性があります。データは、そのデータの使用が不当である場合に、データとユーザーがビジネスの源泉であることがわかっている無形資産となり、何が自分のものであり何が自分のものではないかを知り、述べる基礎になりますか？このリスクは、R＆Dチームのプログラムリーダーがそれらをレビューして答えを見つけることに集中することになるでしょう。
集団訴訟キャンペーンの目的における関係は、プライバシーとデータの使用は、組織がその運営を合法化するのに十分な知識を持っていない答えであることを意味します。実際、規制上の制限とデータのプライバシーを考慮する必要があるため（データの性質は、データがどのように処理され使用されるかという文脈内にあるため）、課題（AI の研究開発に使用されるデータ マイニングのプロセスに関する倫理的問題など）は複雑になります。
将来最も厳しい AI 競争は、AI システムのトレーニングに最適なデータを特定することであり、さらに重要なのは、そのようなデータが共通の倫理的または法的規制の枠組みに該当するかどうかです。AI を取り巻くすべてのものは、その性質上、企業向けのデータセット フィルターを介したイノベーションや実装などの概念を強調し、拡大しています。
技術的な人工知能は決して静的なものではないため、主な問題は常にデータの使用であり、人工知能の使用を通じて形をとるコミュニティメンバーの優先事項の 1 つであり続けるでしょう。
元記事：https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

クリエイターからの情報をさらに見る

最新ニュース