Amazon Is Investigating Claims That Perplexity Allegedly Scraped Web Content

Cryptopolitan · 2024-06-29T20:03:02.000Z

Amazon officials have said the company’s cloud division is investigating claims that AI startup Perplexity is scraping content from websites without any approvals. The development came after several news outlets accused Perplexity of illegally extracting content. Perplexity AI is allegedly ignoring the web standard called Robots Exclusion Protocol. The protocol is commonly known as robots.txt, according to which websites define which pages search engines, AI, and other crawlers can access, according to a report by WIRED. Forbes has also accused the AI startup of plagiarizing journalists’ work. Also read: SoftBank invests in Google alternative Perplexity AI at $3B valuation Compliance with robots.txt is mandatory for sites that use Amazon Web Services (AWS) hostings or servers. While most websites follow the standard, the law does not force anyone to follow the protocol. Perplexity is allegedly violating web standards Amazon spokesperson Samantha Mayowa said on Friday that the firm was assessing the information about Perplexity’s violation of the protocol. A news outlet, WIRED, accused Perplexity of scraping content from news sites that prohibit such practices. It is important to remember that Perplexity uses AWS for its server needs. Mayowa said in a statement that, “[Amazon’s] terms of service prohibit abusive and illegal activities, and our customers are responsible for complying with those terms,” Source: AP. The spokesperson said that the company routinely receives complaints from various sources about alleged misconduct. She also added that AWS engages with its customers to understand the reported issues. Perplexity AI’s representative Sara Platnick said that the firm’s bots are not accessing websites in a way that goes against AWS’s terms of use. WIRED published an investigative report earlier this month saying that it fed the Perplexity AI model headlines from its news site along with prompts about specific topics. The results showed closely paraphrased stories, including false claims attributed to WIRED. Multiple publications have accused the AI unicorn of scraping content Forbes has also made allegations against Perplexity, saying that it is plagiarizing through a new feature called Perplexity Pages. The publication said that pages curated by Perplexity on its platform show content similar to original posts by news outlets like Bloomberg and CNBC. The concern is that Perplexity has gained a name for properly attributing content to its creators. Forbes claims that the posts that have received thousands of views do not mention the original publishers in the text. It said that Perplexity only attributes the creators with small logos for links that are easy to miss. Also read: OpenAI and Microsoft sued over copyright infringement The Associated Press also reported that Perplexity invented fake quotes and attributed them to real people, which is concerning. Perplexity has garnered attention from tech investors and was recently valued at $3 billion. The startup has raised over $100 million from investors like Amazon founder Jeff Bezos, Meta chief scientist Yann LeCun, Google Chief Scientist Jeff Dean. Recently Japan’s SoftBank also pledged to invest $10 million to $20 million in the startup. Perplexity CEO Aravind Srinivas said that the question raised by WIRED reflects a “deep and fundamental misunderstanding” of how Perplexity carries out its operations. He said that the IP address the publication found scraping content is operated by a third party that provides web crawling and indexing services. Cryptopolitan reporting by Aamir Sheikh

Oficialii Amazon au spus că divizia de cloud a companiei investighează afirmațiile conform cărora startup-ul AI Perplexity scoate conținut de pe site-uri web fără nicio aprobare. Evoluția a venit după ce mai multe instituții de știri au acuzat Perplexity de extragerea ilegală de conținut.
Perplexity AI ignoră standardul web numit Robots Exclusion Protocol. Protocolul este cunoscut în mod obișnuit ca robots.txt, conform căruia site-urile web definesc ce pagini pot accesa motoarele de căutare, AI și alte crawler-uri, potrivit unui raport realizat de WIRED. Forbes a acuzat, de asemenea, startup-ul AI că a plagiat munca jurnaliştilor.
Citește și: SoftBank investește în alternativa Google Perplexity AI la o evaluare de 3 miliarde USD
Respectarea robots.txt este obligatorie pentru site-urile care utilizează găzduiri sau servere Amazon Web Services (AWS). În timp ce majoritatea site-urilor web respectă standardul, legea nu obligă pe nimeni să respecte protocolul.
Se presupune că perplexitatea încalcă standardele web
Purtătorul de cuvânt al Amazon, Samantha Mayowa, a declarat vineri că firma evaluează informațiile despre încălcarea protocolului de către Perplexity. Un canal de știri, WIRED, a acuzat-o pe Perplexity că a îndepărtat conținut de pe site-urile de știri care interzic astfel de practici. Este important să rețineți că Perplexity folosește AWS pentru nevoile sale de server.
Mayowa a spus într-o declarație că, 
„Termenii și condițiile [Amazon] interzic activitățile abuzive și ilegale, iar clienții noștri sunt responsabili pentru respectarea acelor termeni”, Sursa: AP.
Purtătorul de cuvânt a spus că compania primește în mod obișnuit plângeri din diverse surse cu privire la presupuse abateri. Ea a adăugat, de asemenea, că AWS interacționează cu clienții săi pentru a înțelege problemele raportate.
Reprezentantul Perplexity AI, Sara Platnick, a spus că roboții companiei nu accesează site-urile într-un mod care contravine termenilor de utilizare ai AWS. WIRED a publicat un raport de investigație la începutul acestei luni, spunând că a alimentat titlurile modelului Perplexity AI de pe site-ul său de știri, împreună cu solicitări despre subiecte specifice. Rezultatele au arătat povești parafrazate îndeaproape, inclusiv afirmații false atribuite lui WIRED.   
Mai multe publicații l-au acuzat pe unicornul cu inteligență artificială de răzuit conținut
Forbes a făcut, de asemenea, acuzații împotriva Perplexity, spunând că plagiază printr-o nouă funcție numită Perplexity Pages. Publicația a spus că paginile organizate de Perplexity pe platforma sa arată conținut similar cu postările originale ale instituțiilor de știri precum Bloomberg și CNBC. 
Preocuparea este că Perplexity și-a câștigat un nume pentru atribuirea corectă a conținutului creatorilor săi. Forbes susține că postările care au primit mii de vizualizări nu menționează în text editorii originali. S-a spus că Perplexity atribuie creatorilor doar logo-uri mici pentru link-uri care sunt ușor de ratat.
Citește și: OpenAI și Microsoft au dat în judecată pentru încălcarea drepturilor de autor
Associated Press a mai raportat că Perplexity a inventat citate false și le-a atribuit unor oameni reali, ceea ce este îngrijorător. Perplexity a atras atenția investitorilor în tehnologie și a fost evaluată recent la 3 miliarde de dolari. 
Startup-ul a strâns peste 100 de milioane de dolari de la investitori precum fondatorul Amazon Jeff Bezos, cercetătorul șef Meta Yann LeCun, cercetătorul șef Google Jeff Dean. Recent, SoftBank din Japonia s-a angajat să investească între 10 și 20 de milioane de dolari în startup.
CEO-ul Perplexity, Aravind Srinivas, a spus că întrebarea ridicată de WIRED reflectă o „neînțelegere profundă și fundamentală” a modului în care Perplexity își desfășoară operațiunile. El a spus că adresa IP pe care a găsit-o publicația pentru scraping conținut este operată de o terță parte care furnizează servicii de crawling și indexare web.
Reportaj criptopolitan de Aamir Sheikh

Amazon investighează afirmațiile conform cărora perplexitatea ar fi răzuit conținutul web

Explorați mai multe de la acest creator

Ultimele știri