ニューヨークタイムズは、OpenAI が強力な AI モデル GPT-4 に必要な膨大なデータを生成するために、YouTube 動画の何百万時間ものトランスクリプトを収集するために使用した手法を暴露しました。これらの企業は、Google と Meta という巨大企業に先導されて同じ道をたどっているように見えますが、AI 技術がアップグレードされるにつれて、この道は加速しています。これらすべては、「デジタル ディバイド」の問題と、それが個人の経済参加能力、特に著作権やデータ倫理などの問題にどのような影響を与えるかという問題につながります。

OpenAIの大胆なデータ収集戦略

OpenAI はこの YouTube コンテンツを発見し、分析しました。この戦略は、フリー スカート使用の革新的な性質にもかかわらず、この会社にとって可能性の前提条件である公正な利用の原則に触れています。Google が AI 学習プロセスのために所有するステージの 1 つである YouTube 動画の録画は、著作権侵害や、著者の同意なしにデータを使用することに伴う倫理的問題に関する懸念を引き起こします。

面白いことに、YouTube を所有する Google も同じことで非難された後、自社の AI モデルで同様の行為を行っていたとされています。この共同スヌーピング プロセスは明らかにレポートの派手な部分であり、テクノロジー企業の人工知能への取り組みにおける倫理的および法的境界の曖昧さをさらに明らかにしています。一方、Google は、そのデータで AI システムをトレーニングする前に、動画を使用するために作成者から許可を得ることができると述べており、最終的にはこの話の論点となっています。

プライバシーポリシーの改訂

その主な出来事の1つは、2023年6月末までにプライバシーポリシーを変更するという企業施策をGoogleが打ち出したことだ。この戦略は、GoogleドキュメントからGoogleマップのレビューに至るまで、公開されているデータソースをAI主導のイノベーション強化のために活用する同社の能力を高めることを目的としていた。これは、これらのビッグテック企業がイノベーションとユーザープライバシーの両分野でリーダーシップを発揮し、両者の適切なバランスに苦戦しているという、より広範なテクノロジー分野の現象を示している。

OpenAIとGoogleが明示的な同意なしにデータを収集する慣行を明らかにしたことで、AIの成長の方向性とデータの倫理的使用に関する疑問が生じている。YouTubeのCEO、ニール・モハン氏は、この件についてブルームバーグに引用され、同プラットフォームはこれらの無許可のソースのダウンロードを許可していないと述べた。

業界と法的影響

こうしたデータスクレイピングの取り組みの道徳性と合法性は、その曖昧さゆえに疑問視される。また、盗作問題も改善の余地がある。こうしたアプローチは創造的かもしれないが、著作権問題も引き起こすからだ。プライバシー問題もこの業界では懸念事項だ。しかし、こうしたバグの影響は、法的および倫理的問題に限定されるのではなく、それをはるかに超える。バグの多さから、データを使用して AI の進歩を強化することを目的とした、より重要なテクノロジー (AI テクノロジー) 競争への注目が集まっている。

OpenAI や Google などの AI 技術の先駆者たちが次世代の AI パラダイムの範囲を前進させる傾向があるため、使用できるデータの量、著作権保護の考慮事項、AI アプリケーションの大きな社会的影響に関する議論が広がっています。イノベーションと倫理を組み合わせると、より複雑な状況になり、規制の原則と明確なポリシーの開発が必要になります。

OpenAI と Google が YouTube 動画をトレーニング目的で利用するという取り組みは、法的、倫理的、技術的な側面から成る主観的な性質という多次元の問題を引き起こします。そのため、テクノロジー業界はイノベーション、プライバシー、倫理などの課題に常に直面しており、これらがなければ継続的な成長は保証されません。これらの問題に関する議論は今後も続くでしょう。しかし、最終的には、法律の専門家から AI 開発者自身に至るまで、社会のあらゆる利害関係者にまで広がり、解決策が提案されることになります。

元記事:https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/