Cloudflare指控Perplexity伪装浏览器抓取禁爬网站，百万级请求引爆AI数据伦理危机

Cloudflare指控Perplexity伪装浏览器抓取禁爬网站，百万级请求引爆AI数据伦理危机 Perplexity违规抓取 Cloudflare指控 AI爬虫绕过robots.txt 数据伦理危机网站屏蔽技术 Stealth爬虫 AI版权诉讼数据获取合法性第1张

互联网基础设施巨头Cloudflare在8月4日发布的技术报告中揭露：AI搜索新锐Perplexity通过伪造浏览器身份、轮换IP地址等系统性手段，绕过全球数十万网站设置的禁止抓取指令。检测数据显示，其隐蔽爬虫日均发起最高600万次违规请求，彻底颠覆了互联网三十年来的信任基石。

技术团队在实验中发现，当网站通过robots.txt文件和防火墙明确屏蔽Perplexity官方爬虫（PerplexityBot）后，该平台立即启用伪装成Chrome浏览器的未声明爬虫。这些代理使用未公开的IP地址池，并频繁切换自治系统编号（ASN），使请求看似来自普通用户。更令人震惊的是，Cloudflare为验证该行为专门创建了未公开的测试域名，设置全面禁爬协议后，Perplexity仍能精准抓取内容详情。

"这是对网站主自主权的公然践踏"，某媒体技术主管在匿名访谈中表示。其新闻集团内部日志显示，尽管早在今年6月就封禁了Perplexity的IP段，但通过伪装代理的抓取量仍占全站流量的2.3%。此类案例在CondeNast、福布斯等媒体机构中同样存在，其中某科技网站因原创产品评测被爬取，导致页面流量单月暴跌15%。

面对指控，Perplexity发言人辩称涉事IP与其无关，并质疑Cloudflare报告动机。但公开记录显示，BBC已在6月向其发出侵权警告，要求删除内容并赔偿；道琼斯集团更联合新闻集团发起诉讼，直指其抓取行为违反《计算机欺诈与滥用法案》。法律专家指出，虽然robots.txt不具直接法律效力，但故意规避行为可能构成"未经授权访问"。

这场冲突暴露了AI数据饥渴与内容权益的深层矛盾。当Cloudflare启用新规则封禁其爬虫时，Perplexity搜索质量显著下降——证明其模型高度依赖违规抓取内容。行业监测表明，逾60%采用AI屏蔽工具的网站遭遇类似规避行为，迫使亚马逊AWS启动对Perplexity的条款审查。

危机正在重塑数据生态。欧盟或将援引《2019文本数据挖掘条例》追究商业爬取责任，而Cloudflare已推出谈判平台，推动AI公司与出版商建立许可分成模式。某学术机构研究显示，合规数据采购将使AI训练成本增加23%，但这是产业可持续发展的唯一路径。