Amazon Is Investigating Perplexity Over Claims of Scraping Abuse
La division Cloud d'Amazon a lancé une enquête sur Perplexity IA. La question est de savoir si la startup de recherche sur l'IA viole les règles d'Amazon Web Services en grattant les sites Web qui ont tenté de l'empêcher de le faire, a appris Wired.
Le porte-parole de l'AWS, Patrick Neighnorn, a confirmé l'enquête de la société sur la perplexité à la suite d'une enquête câblée sur les pratiques apparentes de grattage de la startup. Wired avait précédemment constaté que la perplexité – qui support du Jeff Bezos Family Fund et Nvidia, et était récemment estimé À 3 milliards de dollars, apporte à compter sur le contenu des sites Web grattés qui avaient interdit l'accès via le protocole d'exclusion des robots, une norme Web commune. Bien que le protocole d'exclusion des robots ne soit pas juridiquement contraignant, les conditions de service le sont généralement.
Le protocole d'exclusion des robots est une norme Web vieille de plusieurs décennies qui consiste à placer un fichier en texte en clair (comme wired.com/robots.txt) sur un domaine pour indiquer quelles pages ne doivent pas être accessibles par des robots et des robots automatisés. Alors que les entreprises qui utilisent des grattoirs peuvent choisir d'ignorer ce protocole, la plupart l'ont traditionnellement respectée. Neighnorn a déclaré à Wired que les clients AWS devaient adhérer à la norme Robots.txt tout en rampant des sites Web.
“Les conditions d'utilisation d'AWS interdisent les activités abusives et illégales et nos clients sont responsables de la conformité de ces conditions”, a déclaré Neighnorn dans un communiqué. “Nous recevons régulièrement des rapports d'abus présumés de diverses sources et engageons nos clients pour comprendre ces rapports. “
Examen minutieux des pratiques de perplexité suit Un rapport du 11 juin de Forbes Cela a accusé la startup d'avoir volé au moins un de ses articles. Les enquêtes filaires ont confirmé la pratique et ont trouvé des preuves supplémentaires de gratter les abus et le plagiat par des systèmes liés au chatbot de recherche alimenté par perplexité. Ingénieurs de Condé Nast, la société mère de Wired, bloque le robot de Perplexity sur tous ses sites Web à l'aide d'un fichier robots.txt. Mais Wired a trouvé que la société avait accès à un serveur en utilisant une adresse IP non publiée – 44.221.181.252 – qui a visité les propriétés de Condo Nast au moins des centaines de fois au cours des trois derniers mois, apparemment pour gratter les sites Web de condé.
La machine associée à la perplexité semble être engagée dans une rampe généralisée de sites de nouvelles qui interdisent aux robots d'accéder à leur contenu. Les porte-parole de The Guardian, Forbes et du New York Times disent également qu'ils ont détecté l'adresse IP en visitant à plusieurs reprises leurs serveurs.
Wired a retracé l'adresse IP à une machine virtuelle connue sous le nom d'instance de Calcul de calcul élastique (EC2) hébergé sur AWS, qui a lancé son enquête après avoir demandé si l'utilisation de l'infrastructure AWS pour gratter les sites Web qui l'ont interdit de violer les conditions d'utilisation de l'entreprise.
La semaine dernière, le PDG de Perplexity, Aravind Srinivas, a d'abord répondu à l'enquête de Wired en disant que les questions que nous avons posées à l'entreprise «reflètent un malentendu profond et fondamental de la perplexité et du fonctionnement d'Internet». Srinivas alors Tell Fast Company Que l'adresse IP secrète câblée a observé des sites Web Condé Nast et un site de test que nous avons créé a été exploité par une société tierce qui effectue des services Web de rampage et d'indexation. Il a refusé de nommer l'entreprise, citant un accord de non-divulgation. Lorsqu'on lui a demandé s'il dirait au tiers d'arrêter de ramper câblé, Srinivas a répondu: «C'est compliqué.»