テクノロジー大手がAIのデータ需要を満たすために限界を押し広げる

OpenAI、Google、Meta の取り組みがあるかどうかにかかわらず、AI は、さまざまな独創的だが物議を醸す方法で膨大な量のデジタルデータを収集または蓄積するなど、さまざまな手段を含む産業部門に資金を提供していますが、自動化の能力と機能が高まっていることは明らかです。特に、上記の対策を講じるなどのアクションを伴う取り組み (つまり、法的制限と企業ポリシーを考慮する) は、AI システムをトレーニングするために使用される膨大な量のデータに相当します。
OpenAI のウィスパー イニシアチブ: YouTube の会話をマイニング
Whisper の物語は、昨年始まったばかりです。質の高い英語のテキストが圧倒的に不足しており、教育の提供に遅れが生じています。Whisper は Google の次のステップでした。YouTube の膨大な会話を理解し、テキスト (テキスト読み上げアプリケーション) として開発されました。AI 搭載のツール自体は、100 万時間を超える YouTube 動画を AI が監査して新しいテキスト (基本的には新しい会話) を生成するもので、最先端のものから ChatGPT チャットボットの最新バージョンである GPT-4 まで、さまざまな AI モデルのトレーニングに利用されています。
一部の従業員は、OpenAIのマイクロソフト映像は全面的にYouTubeを盗作するものだと主張したが、盗作の倫理性は依然として議論の余地があり、さらに一部の従業員はYouTubeの意図に正確に沿うことは不可能だと認めた。同様に、AIモデルに入力するテキストコンテンツを抽出するためにビデオをアルゴリズム処理することに対する異議の取得は、ビデオクリエイターの著作権に対する脅威と見なされ、怒りを招いた可能性がある。
FacebookとInstagramの親会社であるMetaも、Simon & Schusterなどの出版社の著作権で保護された要素を使用することを懸念していました。同時に、著作権侵害に問われる可能性のある一般的なWebコンテンツの取得についても議論しました。
データ危機：型破りなアプローチの推進
競争の激しいデータ収集は、データの極めて重要な位置に注目し、AI 技術の開発においてそれを特定するのに役立ちます。AI に言語を導入するには、連邦を含むますます多くのトレーニング データセットが必要ですが、今日ではこれらのソースの外部から Wikipedia や Reddit にまで操作されています。テクノロジー企業、特に従来のデータ ストアのような非常に一般的なデータ ソースへのアクセスが難しい企業にとって、AI を利用したモデルを作成することは、そのような場合に十分に望ましい代替ソリューションになる可能性があります。
テクノロジー企業は、データ収集がAIトレーニングに必要であると指摘しているが、同じプロセスが法廷で法的に問題となっている。OpenAIとMicrosoftは、著作権素材の違法使用に関する申し立てに勝訴した。それでも、彼らは自分たちの行動はフェアユースの法的原則の範囲内であると主張した。近年、著作権者から米国著作権局に提出された申請の数は1万件を超えており、AI時代の著作権法が独特で新しいものであることは明らかである。その結果、主要なプレーヤーは、この根拠に基づいてAIを使用するモデルにライセンス目的がないという名目で、多くの作品の侵害に関連する危険に常に直面している。
膨大なデータセットの必要性
全体的に、カイパン氏の研究は、スケールの科学者であるデ・ジャレッド氏にとって、AI 開発において意図せず壮大なものとなりました。データ駆動型コンテンツは、トレーニング プロセスに必要な AI コンポーネントの 1 つですが、適切にトレーニングされ、効果的に動作するモデルがなければ、うまく機能しません。人工知能技術の増加に伴い、市場で成功するためのデータに対する需要が急速に高まり、企業は法律、倫理、プライバシーに関する疑問を抱えています。したがって、人工知能アルゴリズムは、市場で成功するためにこれらのデータ セットを使用する必要があります。
V.IP のデータ収集行動は AI 強化のために歪められており、典型的な方法論的誓約は粗雑化しています。YouTube での講演を通じてであれ、合成データ生成の作成を通じてであれ、これらの企業は法律、倫理、プライバシーの問題が実際に何であるかを明らかにするという使命を帯びたリーダーです。
それらは、後々、海の上の笑いものになるかもしれません。イノベーションのプロセスを推進するために必要な膨大なデータセットの出現により、社会のリーダーは、イノベーションの取り組みと知的財産権およびプライバシーの倫理原則とのバランスがとれたルールと基準を開発するための建設的な対話に積極的に参加する必要があります。
元記事：https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
テクノロジー大手がAIのデータ需要を満たすために限界を押し広げる

クリエイターからの情報をさらに見る

最新ニュース