作者: ジャン・ジャン

編集者:満満州

ChatGPT の出現と Midjourney の爆発的な普及により、AI は初めての大規模なアプリケーション、つまり大規模モデルの普及を実現することができました。

いわゆる大規模モデルとは、大量のパラメーターと複雑な構造を備えた機械学習モデルを指し、大量のデータを処理し、さまざまな複雑なタスクを完了できます。

01 AIデータの著作権紛争

現在の大型 AI モデルを自動車に例えるなら、生データは原油です。いずれにせよ、まず第一に、AIモデルには十分な「原油」が必要です。

AI 企業の「原油」の主な供給源には次のカテゴリが含まれます。

  • インターネット上の公開および無料のデータ ソース (Wikipedia、ブログ、フォーラム、ニュース情報など)。

  • 確立された報道機関と出版社。

  • 大学およびその他の研究機関。

  • モデルを使用する C 側ユーザー。

現実世界における石油の所有権については、すでに成熟した法規制が整備されていますが、依然として混沌としたAI分野においては、「原油」を搾取する権利はいまだ不明確であり、それに伴う紛争も数多くあります。

つい最近、いくつかの大手音楽レーベルがAI音楽制作会社SunoとUdioを著作権侵害で告訴した。この訴訟は、ニューヨーク・タイムズが12月にOpenAIに対して起こした訴訟と類似している。

出典: ビルボード

2023年7月、作家のグループがChatGPTが著作権で保護されたコンテンツに基づいて作家の作品の概要を生成したとして同社に対して訴訟を起こした。

同年12月、ニューヨーク・タイムズもマイクロソフトとOpenAIに対して同様の著作権侵害訴訟を起こし、両社が新聞のコンテンツを人工知能チャットボットの訓練に利用しているとして非難した。

さらに、OpenAI が ChatGPT をトレーニングするためにユーザーの同意なしにユーザーの個人情報をインターネットから取得したとして、カリフォルニア州で集団訴訟が起こされました。

OpenAIは最終的に、ニューヨーク・タイムズの告発には同意せず、ニューヨーク・タイムズが指摘した問題を再現することはできなかったと述べた。 York Times は OpenAI には関係ありません。

出典: https://openai.com/index/openai-and-journalism/

OpenAI にとって、おそらくこの事件からの最大の教訓は、データ サプライヤーとの関係を適切に処理し、両当事者の権利と責任を明確にすることです。その結果、OpenAI は過去 1 年間で、The Atlantic、Vox Media、News Corp、Reddit、Financial Times、Le Monde、Prisa Media、Axel Springer、American Journalism Project を含むがこれらに限定されない多くのデータ プロバイダーと提携することができました。などなど。

将来的には、OpenAI はこれらのメディアからのデータを合法的に使用し、これらのメディアも OpenAI のテクノロジーを自社の製品に統合することになります。

02 AI がコンテンツ プラットフォームの収益化を推進

しかし、OpenAI がデータプロバイダーと提携する最も根本的な理由は、訴訟されることへの恐怖ではなく、機械学習が直面している差し迫ったデータ枯渇です。 MIT などの研究者が実施した調査では、機械学習データセットは 2026 年までにすべての「高品質言語データ」を使い果たす可能性があると推定されています。

したがって、「高品質データ」は、OpenAI や Google などのモデルメーカーにとって注目の商品となっています。コンテンツ企業とAIモデルメーカーは、定額収益モデルの開始に向けて協力を繰り返してきた。

従来のメディア プラットフォームである Shutterstock は、Meta、Alphabet、Amazon、Apple、OpenAI、Reka などの AI 企業と次々に提携に達しており、2023 年にはコンテンツを AI モデルにライセンス供与することで年間収益が 1 億 400 万米ドルに増加する予定です。 2027 年には 2 億 5,000 万米ドルの収益が見込まれる; Reddit は、Google にライセンスされたコンテンツ著作権からの収益が年間 6,000 万米ドルに達すると見込まれており、Apple は主流のニュースメディアと協力し、1 件当たり少なくとも 5,000 万米ドルの著作権料を提供することを目指している。年。コンテンツ企業がAI企業から受け取るロイヤルティは年率450%で増加している。

画像出典:CXスクープ

ここ数年、ストリーミング メディア以外のコンテンツを収益化することが難しくなり、これがコンテンツ業界の大きな課題となってきました。インターネット起業の時代と比較して、AI の出現はコンテンツ業界に大きな想像力とより強い収益期待をもたらしました。

03 高品質なデータはまだ不足しています

もちろん、すべてのコンテンツが AI のニーズを満たしているわけではありません。

OpenAI とニューヨーク タイムズ間の前述の議論に関するもう 1 つの明るい点は、データの品質です。原油から石油を精製するには、第一に油そのものの品質が良くなければならず、第二に精製技術が優れていなければなりません。

OpenAIは、OpenAIが毎年数千万ドルを費やすことを可能にしているShutterstockと比較すると、New York TimesのコンテンツがOpenAIのモデルトレーニングに大きな貢献をしていないことを特に強調している。適時性はAI時代の寵児ではありません。 AI には詳細でユニークなデータが必要です。

しかし、質の高いデータは不足しすぎており、AI企業も「精製技術」や「ワンストップ申請」に取り組み始めている。

6月25日、OpenAIはリアルタイム分析データベース会社Rocksetを買収した。同社は主にリアルタイムデータのインデックス作成とクエリ機能を提供しており、Rockset のテクノロジーを自社製品に統合してデータのリアルタイム利用価値を向上させます。

画像ソース: DePIN スキャン

OpenAI は、Rockset の買収により、AI によるリアルタイム データの活用とアクセスを改善することを計画しています。これにより、OpenAI の製品は、リアルタイム レコメンデーション システム、動的なデータ駆動型チャットボット、リアルタイム監視およびアラーム システムなど、より複雑なアプリケーションをサポートできるようになります。

Rocket は OpenAI に組み込まれた「石油化学部門」であり、通常のデータをアプリケーションが必要とする高品質のデータに直接変換します。

04 クリエイターデータの権利確認は幻想ですか?

インターネット メディア プラットフォーム (Facebook、Reddit など) のデータは主に UGC、つまりユーザーが投稿したコンテンツから得られます。多くのプラットフォームはAI企業に高額のデータ料金を請求する一方で、ユーザー規約に「プラットフォームはAIモデルをトレーニングするためにユーザーデータを使用する権利がある」という条項を密かに追加している。

ユーザー規約には AI モデルをトレーニングする権利が明確に示されていますが、多くの作成者は、自分が作成したコンテンツがどのモデルに使用されているかも知らず、それに料金を払っているかどうかも知らず、帰属すべき関連する権利や利益を取得することもできません。彼らに。

2月のメタ社の四半期決算会見で、ザッカーバーグ氏はAI生成ツールのトレーニングにFacebookとInstagramの画像を使用することを明らかにした。

報道によると、Tumblrも不思議なことにOpenAiおよびMidjourneyとコンテンツライセンス契約を結んだが、具体的な契約内容は明らかにされていない。

写真ギャラリー プラットフォーム EyeEm の作成者も最近、投稿した写真が AI モデルのトレーニングに使用されるという通知を受け取りました。この通知では、結果としてユーザーが製品を使用しないことを選択できると述べられていましたが、補償方針については言及されていませんでした。 EyeEmの親会社Freepikは、2億枚の画像のほとんどを1枚あたり約3セントでライセンス供与する契約を大手ハイテク企業2社と結んだとロイターに語った。ホアキン・クエンカ・アベラ最高経営責任者(CEO)は、他にも5件の同様の取引が進行中だと述べたが、買い手の特定は避けた。

Getty Images、Adobe、Photobucket、Flickr、Reddit などの UGC 主導のコンテンツ プラットフォームはすべて、データ収益化という大きな誘惑にさらされ、ユーザーのコンテンツ所有権を無視してデータをパッケージ化して販売することを選択しています。 AIモデル企業。

プロセス全体は暗闇の中で行われ、制作者には抵抗する余地がありませんでした。多くのクリエイターであっても、自分の以前の作品がモデルのトレーニングのために特定のプラットフォームによって AI 企業に販売されたのではないかと疑う機会が得られる前に、いつか将来、自分の作品に似たコンテンツをモデルでトレーニングする必要があるかもしれません。

クリエイターのデータ権利と収入を保護することが難しいという問題を解決するには、Web3 が良い選択になるかもしれません。 AI企業が米国株式市場で最高値を更新すると、同時にWeb3のAIコンセプト通貨も急騰した。ブロックチェーンは、分散型で改ざん不可能な特性を備えており、作成者の権利を保護する上で独自の利点を享受しています。

2021年の強気市場では、写真や動画などのメディアコンテンツがチェーン上で大規模な採用を完了し、ソーシャルプラットフォームのUGCコンテンツもチェーン上で静かに起きています。同時に、多くの web3 AI モデル プラットフォームは、データ所有者であろうとトレーナーであろうと、モデルのトレーニングに貢献する一般ユーザーにすでにインセンティブを与えています。

AI モデルの急激な発展により、データ検証に対する要求が高まっています。クリエイターは、なぜ私の作品が私の同意なしに AI モデル会社に 1 つあたり 5 セントで販売されたのかを考えるべきです。なぜ私はプロセス全体を知らされず、何の利益も得ることができなかったのでしょうか?

メディアプラットフォームが大物を捕まえようと努力しても、AIモデル企業のデータ不安を軽減することはできない。高品質なデータと高い出力を実現するための前提条件は、クリエイター、プラットフォーム、AI間の利害の合理的な配分であるデータの権利の確認である。モデル企業。