非常に人気のあるChatGPTには「コンプライアンスブレーキ」が緊急に必要です

原題: 「非常に人気のある ChatGPT には、緊急に「コンプライアンス ブレーキ」が必要です」 原著者: Xiao Sa の法務チーム 重要なヒント: ChatGPT および自然言語処理技術に基づくその他のチャット AI には、緊急に必要な法的コンプライアンスの問題があります。チャット AI の応答内容に含まれる知的財産権の問題 最も重要なコンプライアンス問題は、チャット AI によって生成された応答が対応する知的財産権を生成するかどうかです。知的財産権の承認は必要ですか?第二に、膨大な量の自然言語処理テキスト (一般にコーパスと呼ばれます) に対するデータ マイニングとチャット AI のトレーニングのプロセスには、対応する知的財産権の承認が必要ですか?第三に、ChatGPT などのチャット AI の仕組みの 1 つは、多数の既存の自然言語テキストに対して数学的統計を実行し、統計に基づいて言語モデルを取得するというものであり、この仕組みにより、チャット AI は「真面目にくだらない話をする」可能性が高くなります。このような技術背景のもと、チャットAIにおける虚偽情報の拡散リスクを可能な限り低減するにはどうすればよいでしょうか？一般的に言えば、我が国の人工知能立法はまだ研究前の段階にあり、正式な立法計画や関連動議草案は存在せず、関連部門は人工知能分野の監督に特に慎重である。人工知能の段階的な発展に伴い、これに対応して、法令順守に関する頭痛の種は増大するばかりです。 1. ChatGPT は「時代を超えた人工知能技術」ではありません。ChatGPT は本質的に自然言語処理技術の発展の産物であり、依然として本質的には単なる言語モデルです。 2023 年の初め、世界的なテクノロジー大手 Microsoft からの巨額投資により、ChatGPT はテクノロジー分野で「トップクラス」となり、その輪から抜け出すことに成功しました。資本市場におけるChatGPTの概念の盛り上がりに伴い、多くの国内テクノロジー企業もこの分野への展開を開始しており、資本市場ではChatGPTの概念が熱狂している一方で、法律実務家としては法的安全性を評価せざるを得ません。 ChatGPT 自体がもたらす可能性のあるリスクと法的遵守の道は何ですか? ChatGPT の法的リスクとコンプライアンス パスについて議論する前に、まず ChatGPT の技術原則を検討する必要があります。ニュースで言われているように、ChatGPT は質問者が望むあらゆる質問を与えることができるのでしょうか?Sajie チームの観点から見ると、ChatGPT は一部のニュースで宣伝されているほど「魔法」ではないようです。一言で言えば、それは Transformer や GPT などの自然言語処理テクノロジを統合したものであり、依然として本質的には次の言語に基づいています。ニューラル ネットワーク：「世代を超えた AI の進歩」ではなく、モデル。 ChatGPT は自然言語処理技術の発展の産物であることは前述しましたが、この技術の開発の歴史からすると、文法ベースの言語モデル - 統計ベースの言語モデル - ニューラルネットワークベースの大きく 3 つの段階を経ています。言語モデル. , ChatGPT が存在する段階は、ニューラル ネットワークに基づく言語モデル段階です。ChatGPT の動作原理と、この原理が引き起こす可能性のある法的リスクをより直接的に理解したい場合は、まず、その前任者を明確にする必要があります。ニューラル ネットワークに基づく言語モデル—— 統計ベースの言語モデルがどのように機能するか。統計に基づく言語モデルの段階では、AIエンジニアが膨大な自然言語テキストの統計を実施し、単語間の連続的なつながりの確率を割り出し、人々が質問すると、AIは単語を構成する言語環境の分析を開始します。次に、どの単語の組み合わせが確率が高いかを調べ、これらの確率の高い単語をつなぎ合わせて、統計に基づいて答えを返します。この原理は自然言語処理技術の登場以来、その発展に浸透してきたと言え、その後のニューラルネットワークベースの言語モデルもある意味、統計ベースの言語モデルの改良版とも言えます。わかりやすい例を挙げると、以下の図に示すように、Sa 姉妹のチームは ChatGPT チャット ボックスに「大連にはどのような観光スポットがありますか?」という質問を入力しました。AI の最初のステップでは、 「大連、どの、観光名所」という質問の基本的な形態素を検索し、既存のコーパス内でこれらの形態素が位置する自然言語テキストのコレクションを見つけ、このコレクション内で最も高い出現確率を持つ連語を見つけて、これらの連語を組み合わせます。最終的な答えを形成します。例えば、AIは「大連、観光、リゾート」という3つの単語のコーパスに「中山公園」という単語が高い確率で含まれることを発見するため、「中山公園」を返します。 「公園」という単語は庭園を連想させるということです。湖、噴水、彫像などの単語が一致する確率が最も高いため、さらに「これは美しい庭園、湖、噴水、彫像がある歴史的な公園です」に戻ります。 。」言い換えれば、プロセス全体は AI の背後にある既存の自然言語テキスト情報 (コーパス) に基づいた確率統計に基づいているため、返される回答も「統計結果」となり、ChatGPT が多くの問題に対して「真剣」であることがわかります。ナンセンス」。 「大連にはどんな観光スポットがありますか？」という質問の答えのように、大連には中山公園がありますが、中山公園には湖も噴水も銅像もありません。大連には歴史上「スターリン広場」があったが、スターリン広場は最初から最後まで商業広場ではなかったし、ショッピングモールやレストラン、娯楽施設もなかった。どうやら、ChatGPT から返された情報は誤りであるようです。 2. ChatGPT は現在、言語モデルに最も適した適用シナリオである 前節で統計ベースの言語モデルの欠点を端的に説明しましたが、結局のところ、ChatGPT は統計ベースを大幅に改善したニューラル ネットワーク ベースのモデルです。言語モデル. ChatGPT の言語モデル, その技術基盤は Transformer と GPT の両方とも最新世代の言語モデルです. ChatGPT は基本的に、大量のデータと強力な表現力を持つ Transformer モデルを組み合わせて、自然言語の非常に詳細なモデリングを実行します。文章は時には「ナンセンス」ですが、一見すると「人間の応答」のように見えるため、この技術は、人間とコンピュータの大規模なインタラクションを必要とするシナリオに幅広く適用されます。現時点では、そのようなシナリオが 3 つあります: 1 つ目は検索エンジン、2 つ目は、銀行、法律事務所、さまざまな仲介業者、ショッピング モール、病院、および上記のような政府サービス プラットフォームにおける人間とコンピュータの対話メカニズム 顧客苦情システム、医療指導とナビゲーション、政府相談システム、3番目に、スマートカー、スマートホーム（スマートスピーカー、スマートライトなど）などの相互作用メカニズム。 ChatGPT などの AI チャット テクノロジを組み合わせた検索エンジンは、ニューラル ネットワーク ベースの言語モデルによって補完された従来の検索エンジン ベースのアプローチを採用する可能性があります。現在、Google や Baidu などの伝統的な検索大手には、ニューラル ネットワークに基づく言語モデル技術の蓄積があり、たとえば、Google には ChatGPT に匹敵する Sparrow や Lamda があり、これらの言語モデルの恩恵により、検索エンジンはさらに高度なものになるでしょう。 「人間化」。ChatGPTなどのAIチャット技術を顧客苦情システム、病院やショッピングモールの案内ナビゲーション、政府機関の行政相談システムなどに適用することで、関係部門の人件費が大幅に削減され、コミュニケーション時間の節約が期待できます。統計に基づいた回答により、完全に間違った内容の回答が生成される可能性があり、その結果として生じるリスク管理リスクについては、さらなる評価が必要になる可能性があります。上記の 2 つのアプリケーション シナリオと比較すると、スマート カーやスマート ホームなどの分野でのアプリケーション環境は比較的プライベートであるため、ChatGPT アプリケーションがスマート カーやスマート ホームなどの分野で上記のデバイスの人間とコンピューターの対話メカニズムになることの法的リスクははるかに小さくなります。 AI フィードバックのエラー内容は重大な法的リスクを引き起こすものではありませんが、このタイプのシナリオでは内容の正確性に対する高度な要件はなく、ビジネス モデルはより成熟しています。 3. ChatGPT の法的リスクとコンプライアンス パスの予備調査 まず、我が国における人工知能の全体的な規制状況は、多くの新興技術と同じです。ChatGPT に代表される自然言語処理技術も、「コリングリッジのジレンマ」に直面しています。このジレンマには、情報のジレンマと制御のジレンマがあり、いわゆる情報のジレンマとは、新興技術の社会的影響が技術の初期段階では予測できないことを指し、いわゆる制御のジレンマとは、新興技術が社会にもたらす影響を社会にもたらすことが予測できないことを意味します。社会的悪影響が発見されると、テクノロジーが社会経済構造全体の一部となることが多く、社会的悪影響を効果的に制御することが不可能になります。現在、人工知能の分野、特に自然言語処理技術の分野は急速な発展段階にあり、いわゆる「コリングリッジのジレンマ」に陥る可能性が高く、これに対応する法的監督も整っていないと思われる。 「ペースについていく」。現在、我が国には国家レベルの人工知能産業に関する法律はありませんが、関連する地方立法が試みられています。つい昨年9月、深セン市は人工知能産業に関する国家特別法「深セン経済特区人工知能産業促進条例」を発表し、続いて上海も「上海人工知能産業発展促進条例」を可決した。間もなく、さまざまな場所で人工知能業界に対して同様の法律が導入されると考えられています。人工知能の倫理規制に関しては、国家新世代人工知能ガバナンス専門委員会も2021年に「新世代人工知能倫理規定」を発表し、倫理と道徳を人工知能の研究開発と開発のライフサイクル全体に統合することを提案しています。おそらく近い将来、アシモフの小説に登場する「ロボット工学三原則」が人工知能分野を支配する鉄則となるだろう。第二に、ChatGPT によってもたらされる虚偽の情報による法的リスクにより、焦点がマクロからミクロに移りました。人工知能業界の全体的な規制状況や人工知能の倫理規制はさておき、基盤に存在する実際的なコンプライアンス問題は、 ChatGPTなどのAIチャットにも早急な対応が必要です。さらに厄介な問題は、ChatGPT が返信する誤った情報です。この記事の後半で述べたように、ChatGPT の動作原理は、その返信がまったくの「重大なナンセンス」である可能性があることを意味します。非常に誤解を招きます。もちろん、「大連にはどのような観光スポットがありますか?」などの質問に対する虚偽の回答は重大な結果を引き起こすことはないかもしれませんが、ChatGPT が検索エンジンや顧客苦情システムなどに適用される場合、返信される虚偽の情報は非常に重大な結果を引き起こす可能性があります。法的リスクがあります。実際、このような法的リスクはすでに顕在化しており、2022年11月にChatGPTとほぼ同時に開始されたメタサービスの科学研究分野向け言語モデルであるギャラクティカは、わずか3日間のテスト後にユーザーによって閉鎖された。正解と虚偽の回答が混在する問題のため。技術原則は短期間で突破できないことを前提として、ChatGPT や類似の言語モデルを検索エンジンや顧客苦情システムなどの分野に適用する場合は、コンプライアンスに合わせて変換する必要があります。ユーザーが専門的な質問をしている可能性があることが検出された場合、ユーザーは人工知能からの回答を探すのではなく、対応する専門家に相談するよう誘導されるべきであり、同時に、返された質問の信頼性がユーザーに明確に通知される必要があります。チャット AI による対応は、対応するコンプライアンス リスクのリスクを最小限に抑えるために、さらなる検証が必要になる場合があります。第三に、ChatGPT によってもたらされる知的財産コンプライアンスの問題です。マクロからミクロに目を向けると、AI の応答メッセージの信頼性に加えて、チャット AI、特に ChatGPT のような大規模な言語モデルの知的財産の問題も解決する必要があります。コンプライアンス上の問題も引き起こします。担当者の注意。最初のコンプライアンス問題は、「テキスト データ マイニング」に対応する知的財産権の認可が必要かどうかです。上で示したように、ChatGPT の動作原理は、膨大な量の自然言語テキスト (または音声コーパス) に依存しています。ChatGPT は、コーパス内のデータをマイニングしてトレーニングする必要があります。ChatGPT は、コーパスの内容を独自のデータベースにコピーする必要があります。対応する動作は、通常、自然言語処理の分野では「テキスト データ マイニング」と呼ばれます。対応するテキストデータが著作物を構成する可能性がある場合、テキストデータマイニングが複製権を侵害するかどうかについては、依然として議論の余地がある。比較法の分野では、日本と欧州連合の両国は著作権法におけるフェアユースの範囲を拡大し、AIにおける「テキストデータマイニング」を新たなフェアユース状況として追加した。 2020年の我が国の著作権法改正の際、一部の学者が我が国のフェアユース制度を「クローズド」から「オープン」に変更することを主張しましたが、最終的にはこの考えは採用されず、現在も我が国の著作権法ではフェアユース制度が維持されています。厳密に規定されているが、著作権法第 24 条に規定されている 13 の状況のみがフェアユースとして認められており、言い換えれば、我が国の著作権法は現在、AI における「テキストデータマイニング」を合理的な適用範囲に含めていない。私の国では、テキスト データ マイニングには依然として対応する知的財産権の認可が必要です。コンプライアンスの 2 番目の課題は、ChatGPT によって生成された応答はオリジナルかどうかということです。 AIによって生成された作品がオリジナルであるかどうかについて、匡家チームは、その判断基準が既存の判断基準と異なるべきではないと考えており、言い換えれば、ある答えがAIによって完成されたのか、それとも人間によって完成されたのかは、基準に基づくべきであると考えています。独創性に対する既存の基準。実は、この質問の背後には、AI が生成した応答がオリジナルである場合、著作権者は AI になり得るのかという、さらに物議を醸す質問があります。明らかに、我が国を含むほとんどの国の知的財産法の下では、作品の作者は自然人のみであり、AI が作品の作者になることはできません。最後に、ChatGPT がサードパーティの著作物をその応答に接続する場合、その知的財産の問題はどのように処理されるべきでしょうか? Sajie チームは、ChatGPT の返信のコーパスに著作権で保護された作品が含まれている場合 (ただし、ChatGPT の動作原則に基づくと、このようなことが起こる可能性は低い)、中国の現在の著作権法に従って、それがフェアユースに該当しない限り、複製は禁止されると考えています。著作権者の許可なく使用することはできません。