Les responsables d'Amazon ont déclaré que la division cloud de l'entreprise enquêtait sur les allégations selon lesquelles la startup d'IA Perplexity supprimerait le contenu des sites Web sans aucune approbation. Cette évolution est intervenue après que plusieurs médias ont accusé Perplexity d'extraire illégalement du contenu.

Perplexity AI ignorerait la norme Web appelée Robots Exclusion Protocol. Le protocole est communément connu sous le nom de robots.txt, selon lequel les sites Web définissent les pages auxquelles les moteurs de recherche, l'IA et autres robots d'exploration peuvent accéder, selon un rapport de WIRED. Forbes a également accusé la startup d’IA de plagier le travail des journalistes.

A lire aussi : SoftBank investit dans Perplexity AI, une alternative à Google, valorisée 3 milliards de dollars

La conformité avec robots.txt est obligatoire pour les sites qui utilisent des hébergements ou des serveurs Amazon Web Services (AWS). Bien que la plupart des sites Web respectent la norme, la loi n’oblige personne à suivre le protocole.

Perplexity violerait les normes du Web

La porte-parole d'Amazon, Samantha Mayowa, a déclaré vendredi que la société évaluait les informations sur la violation du protocole par Perplexity. Un média d'information, WIRED, a accusé Perplexity d'avoir supprimé le contenu des sites d'information qui interdisent de telles pratiques. Il est important de rappeler que Perplexity utilise AWS pour ses besoins en serveur.

Mayowa a déclaré dans un communiqué que : 

« Les conditions de service [d'Amazon] interdisent les activités abusives et illégales, et nos clients sont responsables du respect de ces conditions », Source : AP.

Le porte-parole a déclaré que l'entreprise recevait régulièrement des plaintes de diverses sources concernant des allégations de mauvaise conduite. Elle a également ajouté qu'AWS s'engage auprès de ses clients pour comprendre les problèmes signalés.

Sara Platnick, représentante de Perplexity AI, a déclaré que les robots de l'entreprise n'accèdent pas aux sites Web d'une manière contraire aux conditions d'utilisation d'AWS. WIRED a publié un rapport d'enquête plus tôt ce mois-ci, affirmant qu'il avait alimenté les titres du modèle Perplexity AI de son site d'information ainsi que des invites sur des sujets spécifiques. Les résultats ont montré des histoires étroitement paraphrasées, y compris de fausses affirmations attribuées à WIRED.   

Plusieurs publications ont accusé la licorne IA de supprimer du contenu

Forbes a également fait des allégations contre Perplexity, affirmant qu'il plagiait via une nouvelle fonctionnalité appelée Perplexity Pages. La publication indique que les pages organisées par Perplexity sur sa plateforme affichent un contenu similaire aux publications originales de médias comme Bloomberg et CNBC. 

Le problème est que Perplexity a acquis la réputation d'attribuer correctement le contenu à ses créateurs. Forbes affirme que les articles qui ont reçu des milliers de vues ne mentionnent pas les éditeurs originaux dans le texte. Il a déclaré que Perplexity n'attribue aux créateurs que de petits logos pour les liens faciles à manquer.

A lire aussi : OpenAI et Microsoft poursuivis en justice pour violation du droit d'auteur

L'Associated Press a également rapporté que Perplexity avait inventé de fausses citations et les avait attribuées à de vraies personnes, ce qui est préoccupant. Perplexity a attiré l'attention des investisseurs technologiques et a récemment été évalué à 3 milliards de dollars. 

La startup a levé plus de 100 millions de dollars auprès d'investisseurs tels que le fondateur d'Amazon Jeff Bezos, le scientifique en chef de Meta Yann LeCun et le scientifique en chef de Google Jeff Dean. Récemment, la société japonaise SoftBank s'est également engagée à investir entre 10 et 20 millions de dollars dans la startup.

Le PDG de Perplexity, Aravind Srinivas, a déclaré que la question soulevée par WIRED reflète un « malentendu profond et fondamental » sur la manière dont Perplexity mène ses opérations. Il a déclaré que l'adresse IP trouvée par la publication en récupérant le contenu est exploitée par un tiers qui fournit des services d'exploration et d'indexation du Web.

Reportage cryptopolitain d'Aamir Sheikh