ChatGPT, si populaire, a un besoin urgent de « freins à la conformité »

Titre original : « ChatGPT, qui est si populaire, a un besoin urgent d'un « frein à la conformité » » Auteur original : l'équipe juridique de Xiao Sa Conseil principal : ChatGPT et d'autres IA de chat basées sur la technologie de traitement du langage naturel ont des problèmes urgents de conformité juridique qui nécessitent à résoudre à court terme Il y a trois problèmes principaux : Premièrement, la question des droits de propriété intellectuelle dans les réponses fournies par l'IA du chat. Le problème de conformité le plus important est de savoir si les réponses générées par l'IA du chat génèrent des droits de propriété intellectuelle correspondants. Une autorisation de propriété intellectuelle est-elle requise ? Deuxièmement, le processus d'exploration de données et de formation de l'IA de chat sur d'énormes quantités de textes de traitement du langage naturel (généralement appelés corpus) nécessite-t-il une autorisation de propriété intellectuelle correspondante ? Troisièmement, l'un des mécanismes de l'IA de chat tel que ChatGPT consiste à effectuer des statistiques mathématiques sur un grand nombre de textes en langage naturel existants pour obtenir un modèle de langage basé sur des statistiques. Ce mécanisme rend l'IA de chat susceptible de « dire sérieusement des bêtises ». Paths", ce qui entraîne à son tour des risques juridiques liés à la propagation de fausses informations. Dans ce contexte technique, comment réduire autant que possible le risque de propagation de fausses informations dans le chat AI ? D'une manière générale, la législation chinoise sur l'intelligence artificielle est encore au stade de pré-recherche, et il n'y a pas de plan législatif formel ni de projet de motion pertinent. Les départements concernés sont particulièrement prudents dans la supervision du domaine de l'intelligence artificielle. Les problèmes de conformité juridique correspondants ne font que croître. 1. ChatGPT n'est pas une « technologie d'intelligence artificielle inter-ère ». ChatGPT est essentiellement un produit du développement de la technologie de traitement du langage naturel et n'est encore essentiellement qu'un modèle de langage. Début 2023, l'énorme investissement du géant mondial de la technologie Microsoft a fait de ChatGPT la « classe supérieure » dans le domaine technologique et a réussi à sortir du cercle. Avec la montée en puissance du concept de ChatGPT sur le marché des capitaux, de nombreuses entreprises technologiques nationales ont également commencé à se déployer dans ce domaine. Bien que le concept de ChatGPT suscite l'enthousiasme sur le marché des capitaux, en tant que praticiens du droit, nous ne pouvons nous empêcher d'évaluer quelle est la sécurité juridique. ChatGPT lui-même peut apporter. Quel est le risque et la voie de conformité juridique ? Avant de discuter des risques juridiques et des voies de conformité de ChatGPT, nous devons d'abord examiner les principes techniques de ChatGPT : ChatGPT, comme le dit l'actualité, peut-il poser à l'interlocuteur toutes les questions qu'il souhaite ?Du point de vue de l'équipe de Sajie, ChatGPT semble être beaucoup moins « magique » que certaines informations le prétendent : en une phrase, il s'agit simplement d'une intégration de technologies de traitement du langage naturel telles que Transformer et GPT, et reste essentiellement un langage basé sur réseaux de neurones. Un modèle plutôt qu’un « progrès générationnel de l’IA ». Comme mentionné précédemment, ChatGPT est le produit du développement de la technologie de traitement du langage naturel, à en juger par l'histoire du développement de cette technologie, elle est passée par trois étapes : modèle de langage basé sur la grammaire - modèle de langage basé sur les statistiques - basé sur le réseau neuronal. modèle de langage. , l'étape dans laquelle se trouve ChatGPT est l'étape de modèle de langage basé sur les réseaux de neurones. Si vous souhaitez comprendre plus directement le principe de fonctionnement de ChatGPT et les risques juridiques que ce principe peut entraîner, vous devez d'abord clarifier le prédécesseur du modèle de langage. modèle de langage basé sur des réseaux de neurones—— Comment fonctionnent les modèles de langage basés sur des statistiques. Au stade du modèle linguistique basé sur les statistiques, les ingénieurs en IA effectuent des statistiques sur d’énormes quantités de texte en langage naturel pour déterminer la probabilité de connexions séquentielles entre les mots. Lorsque les gens posent une question, l’IA commence à analyser l’environnement linguistique composé des mots qui le composent. la question. Ensuite, quelles combinaisons de mots sont à haute probabilité, puis assemblez ces mots à haute probabilité pour renvoyer une réponse basée sur des statistiques. On peut dire que ce principe a imprégné le développement de la technologie de traitement du langage naturel depuis son émergence. Dans un sens, les modèles linguistiques ultérieurs basés sur les réseaux neuronaux sont également des modifications des modèles linguistiques basés sur les statistiques. Pour donner un exemple facile à comprendre, l'équipe Sajie a saisi la question « Quelles attractions touristiques y a-t-il à Dalian ? » dans la boîte de discussion ChatGPT, comme le montre la figure ci-dessous : La première étape de l'IA analysera les morphèmes de base dans la question "Dalian, qui, attractions touristiques", puis trouvez la collection de textes en langage naturel où se trouvent ces morphèmes dans le corpus existant, trouvez la collocation avec la plus forte probabilité d'apparition dans cette collection, puis combinez ces collocations pour former le final répondre. Par exemple, l'IA constatera que le mot « Parc Zhongshan » est inclus dans le corpus des trois mots « Dalian, tourisme, station balnéaire » avec une forte probabilité d'occurrence, elle renverra donc « Parc Zhongshan ». est que le mot « parc » est associé aux jardins. Les mots tels que lac, fontaine et statue ont la plus grande probabilité de correspondre, ils reviendront donc à « C'est un parc historique avec de beaux jardins, lacs, fontaines et statues. ".» En d’autres termes, l’ensemble du processus est basé sur des statistiques de probabilité basées sur les informations textuelles en langage naturel (corpus) existantes derrière l’IA, de sorte que les réponses renvoyées sont également des « résultats statistiques », ce qui amène ChatGPT à être « sérieux » sur de nombreuses questions. absurdité". Tout comme la réponse à la question « Quelles attractions touristiques y a-t-il à Dalian ? », bien que Dalian possède le parc Zhongshan, il n'y a pas de lacs, de fontaines ou de statues dans le parc Zhongshan. Dalian a eu la « place Staline » dans l'histoire, mais la place Staline n'a jamais été une place commerciale du début à la fin, et elle n'avait pas de centres commerciaux, de restaurants ou de lieux de divertissement. Apparemment, les informations renvoyées par ChatGPT sont fausses. 2. ChatGPT est actuellement le scénario d'application le plus approprié pour les modèles de langage Bien que nous ayons expliqué clairement les inconvénients des modèles de langage basés sur des statistiques dans la section précédente, ChatGPT est, après tout, un modèle basé sur un réseau neuronal qui a considérablement amélioré les modèles de langage basés sur les statistiques. modèles de langage. ChatGPT est un modèle de langage dont les fondements techniques, Transformer et GPT, sont tous deux la dernière génération de modèles de langage. ChatGPT combine essentiellement des données massives avec le modèle Transformer très expressif pour effectuer une modélisation très approfondie du langage naturel. les phrases sont parfois « absurdes », elles ressemblent quand même à première vue à des « réponses humaines ». Par conséquent, cette technologie a un large éventail de scénarios d'application dans des scénarios qui nécessitent une interaction homme-machine massive. À l'heure actuelle, il existe trois scénarios de ce type : premièrement, les moteurs de recherche ; deuxièmement, les mécanismes d'interaction homme-machine dans les banques, les cabinets d'avocats, divers intermédiaires, les centres commerciaux, les hôpitaux et les plateformes de services gouvernementaux, comme ceux mentionnés ci-dessus. Système de réclamation des clients , conseils médicaux et navigation, système de consultation gouvernementale ; troisièmement, le mécanisme d'interaction des voitures intelligentes, des maisons intelligentes (telles que les haut-parleurs intelligents, les lumières intelligentes), etc. Un moteur de recherche combinant des technologies de chat IA telles que ChatGPT est susceptible d'adopter une approche traditionnelle basée sur un moteur de recherche complétée par un modèle linguistique basé sur un réseau neuronal. À l'heure actuelle, les géants de la recherche traditionnels tels que Google et Baidu ont une profonde accumulation de technologies de modèles de langage basées sur les réseaux neuronaux. Par exemple, Google a Sparrow et Lamda qui sont comparables à ChatGPT. Avec la bénédiction de ces modèles de langage, les moteurs de recherche seront plus nombreux. "Humaniser".L'application des technologies de chat IA telles que ChatGPT dans les systèmes de réclamation des clients, la navigation guidée dans les hôpitaux et les centres commerciaux et les systèmes de consultation gouvernementale des agences gouvernementales réduiront considérablement les coûts en ressources humaines des unités concernées et permettront de gagner du temps de communication. les réponses basées sur des statistiques peuvent générer des réponses de contenu complètement erronées, les risques de contrôle des risques qui en résultent peuvent nécessiter une évaluation plus approfondie. Par rapport aux deux scénarios d'application ci-dessus, le risque juridique que l'application ChatGPT devienne un mécanisme d'interaction homme-machine pour les appareils mentionnés ci-dessus dans des domaines tels que les voitures intelligentes et les maisons intelligentes est beaucoup plus faible, car l'environnement d'application dans ces domaines est relativement privé. et le contenu erroné des commentaires de l'IA n'est pas quant aux risques juridiques majeurs, ce type de scénario n'a pas d'exigences élevées en matière d'exactitude du contenu et le modèle commercial est plus mature. 3. Une exploration préliminaire des risques juridiques et des voies de conformité de ChatGPT. Premièrement, le paysage réglementaire global de l'intelligence artificielle dans mon pays est le même que celui de nombreuses technologies émergentes. La technologie de traitement du langage naturel représentée par ChatGPT est également confrontée au « dilemme de Collingridge ». Ce dilemme comprend le dilemme de l'information et le dilemme du contrôle. Le soi-disant dilemme de l'information signifie que les conséquences sociales d'une technologie émergente ne peuvent pas être anticipées dès les premiers stades de la technologie. À propos Lorsque des conséquences sociales néfastes sont découvertes, la technologie est souvent devenue partie intégrante de la structure sociale et économique dans son ensemble, ce qui rend impossible un contrôle efficace des conséquences sociales néfastes. À l'heure actuelle, le domaine de l'intelligence artificielle, en particulier le domaine de la technologie de traitement du langage naturel, est dans une phase de développement rapide. Cette technologie est susceptible de tomber dans ce qu'on appelle le « dilemme de Collingridge », et il ne semble pas y avoir de contrôle juridique correspondant. pour « suivre le rythme ». Il n'existe actuellement aucune législation nationale sur l'industrie de l'intelligence artificielle dans notre pays, mais des tentatives législatives locales pertinentes ont été faites. En septembre dernier, Shenzhen a annoncé la législation nationale spéciale pour l'industrie de l'intelligence artificielle, le « Règlement sur la promotion de l'industrie de l'intelligence artificielle dans la zone économique spéciale de Shenzhen », puis Shanghai a également adopté le « Règlement de Shanghai sur la promotion du développement de l'industrie de l'intelligence artificielle ». Je crois que bientôt, divers endroits introduiront une législation similaire pour l'industrie de l'intelligence artificielle. En termes de réglementation éthique de l'intelligence artificielle, le Comité professionnel national de gouvernance de l'intelligence artificielle de nouvelle génération a également publié le « Code d'éthique de l'intelligence artificielle de nouvelle génération » en 2021, proposant d'intégrer l'éthique et la moralité dans le cycle de vie complet de la recherche et du développement de l'intelligence artificielle et application. Peut-être dans un avenir proche. Dans le futur, les « Trois lois de la robotique », similaires à celles des romans d'Asimov, deviendront les lois d'airain régissant le domaine de l'intelligence artificielle.Deuxièmement, les risques juridiques liés aux fausses informations provoqués par ChatGPT ont déplacé l'attention du macro vers le micro. En mettant de côté le paysage réglementaire global du secteur de l'intelligence artificielle et la réglementation éthique de l'intelligence artificielle, les problèmes de conformité pratiques existant dans la fondation. des discussions IA telles que ChatGPT nécessitent également une attention urgente. Le problème le plus gênant concerne les fausses informations auxquelles ChatGPT répond. Comme mentionné dans la deuxième partie de cet article, le principe de fonctionnement de ChatGPT signifie que ses réponses peuvent être des « absurdités sérieuses ». en fait scandaleux. Extrêmement trompeur. Bien entendu, les fausses réponses à des questions telles que « Quelles sont les attractions touristiques de Dalian ? » peuvent ne pas entraîner de conséquences graves, mais si ChatGPT est appliqué aux moteurs de recherche, aux systèmes de réclamation des clients, etc., les fausses informations auxquelles il répond peuvent avoir des conséquences extrêmement graves. risques juridiques. En fait, de tels risques juridiques sont déjà apparus. Galactica, un modèle de langage pour le domaine de la recherche scientifique du service Meta, lancé presque en même temps que ChatGPT en novembre 2022, a été fermé par les utilisateurs après seulement 3 jours de tests. en raison de problèmes avec des réponses mixtes vraies et fausses. Partant du principe que les principes techniques ne peuvent pas être brisés en peu de temps, si ChatGPT et des modèles linguistiques similaires sont appliqués aux moteurs de recherche, aux systèmes de réclamation des clients et à d'autres domaines, ils doivent être transformés pour être conformes. Lorsqu'il est détecté qu'un utilisateur peut poser une question professionnelle, il doit être guidé pour consulter le professionnel correspondant au lieu de chercher des réponses auprès de l'intelligence artificielle. Dans le même temps, il convient de rappeler clairement à l'utilisateur l'authenticité des questions renvoyées. par le chat AI peut nécessiter une vérification supplémentaire pour minimiser le risque de risques de conformité correspondants. Troisièmement, les problèmes de conformité en matière de propriété intellectuelle provoqués par ChatGPT. Lorsque nous tournons notre attention du macro vers le micro, outre l'authenticité des messages de réponse de l'IA, les problèmes de propriété intellectuelle de l'IA du chat, en particulier les grands modèles de langage comme ChatGPT, devraient être pris en compte. également causer des problèmes de conformité. Attention du personnel. La première question de conformité est de savoir si « l’exploration de données textuelles » nécessite une autorisation de propriété intellectuelle correspondante. Comme indiqué ci-dessus, le principe de fonctionnement de ChatGPT repose sur une énorme quantité de textes en langage naturel (ou corpus vocaux) dont ChatGPT a besoin pour extraire et entraîner les données du corpus. ChatGPT doit copier le contenu du corpus dans sa propre base de données. Le comportement correspondant est généralement appelé « text data mining » dans le domaine du traitement du langage naturel.La question de savoir si l'exploration de données textuelles porte atteinte au droit de reproduction reste controversée lorsque les données textuelles correspondantes peuvent constituer une œuvre. Dans le domaine du droit comparé, le Japon et l'Union européenne ont élargi la portée de l'utilisation équitable dans leur législation sur le droit d'auteur, en ajoutant « l'exploration de données textuelles » dans l'IA comme nouvelle situation d'utilisation équitable. Bien que certains universitaires aient préconisé de changer le système d'utilisation équitable de mon pays de « fermé » à « ouvert » lors de la révision de la loi sur le droit d'auteur de mon pays en 2020, cette idée n'a finalement pas été adoptée. À l'heure actuelle, la loi sur le droit d'auteur de mon pays maintient toujours l'utilisation équitable. En termes précis, seules les treize situations stipulées dans l'article 24 de la loi sur le droit d'auteur peuvent être reconnues comme une utilisation équitable. En d'autres termes, la loi sur le droit d'auteur de mon pays n'inclut actuellement pas « l'exploration de données textuelles » dans l'IA dans le cadre d'une application raisonnable. L'exploration de données textuelles nécessite toujours une autorisation de propriété intellectuelle correspondante dans mon pays. Le deuxième défi de conformité est le suivant : les réponses générées par ChatGPT sont-elles originales ? Concernant la question de savoir si les œuvres générées par l’IA sont originales, l’équipe de Sajie estime que les critères de jugement ne devraient pas être différents des critères de jugement existants. En d’autres termes, qu’une certaine réponse soit complétée par l’IA ou par des humains, elle devrait être basée sur. normes existantes en matière d'originalité. En fait, derrière cette question se cache une autre question plus controversée. Si la réponse générée par l’IA est originale, le détenteur des droits d’auteur peut-il être l’IA ? Évidemment, en vertu des lois sur la propriété intellectuelle de la plupart des pays, y compris le nôtre, l'auteur d'une œuvre ne peut être qu'une personne physique, et AI ne peut pas être l'auteur de l'œuvre. Enfin, si ChatGPT intègre des travaux tiers dans sa réponse, comment ses problèmes de propriété intellectuelle doivent-ils être traités ? L'équipe Sajie estime que si la réponse de ChatGPT contient des œuvres protégées par le droit d'auteur dans le corpus (bien que basé sur le principe de fonctionnement de ChatGPT, la probabilité que cela se produise est faible), alors selon la loi chinoise actuelle sur le droit d'auteur, à moins qu'elle ne constitue une utilisation équitable, sinon la reproduction est n'est pas autorisé sans l'autorisation du détenteur des droits d'auteur.