Cloudflare指控Perplexity伪装浏览器抓取禁爬网站,百万级请求引爆AI数据伦理危机
- IT大事件
- 2025-08-05
- 1212
互联网基础设施巨头Cloudflare在8月4日发布的技术报告中揭露:AI搜索新锐Perplexity通过伪造浏览器身份、轮换IP地址等系统性手段,绕过全球数十万网站设置的禁止抓取指令。检测数据显示,其隐蔽爬虫日均发起最高600万次违规请求,彻底颠覆了互联网三十年来的信任基石。
技术团队在实验中发现,当网站通过robots.txt文件和防火墙明确屏蔽Perplexity官方爬虫(PerplexityBot)后,该平台立即启用伪装成Chrome浏览器的未声明爬虫。这些代理使用未公开的IP地址池,并频繁切换自治系统编号(ASN),使请求看似来自普通用户。更令人震惊的是,Cloudflare为验证该行为专门创建了未公开的测试域名,设置全面禁爬协议后,Perplexity仍能精准抓取内容详情。
"这是对网站主自主权的公然践踏",某媒体技术主管在匿名访谈中表示。其新闻集团内部日志显示,尽管早在今年6月就封禁了Perplexity的IP段,但通过伪装代理的抓取量仍占全站流量的2.3%。此类案例在CondeNast、福布斯等媒体机构中同样存在,其中某科技网站因原创产品评测被爬取,导致页面流量单月暴跌15%。
面对指控,Perplexity发言人辩称涉事IP与其无关,并质疑Cloudflare报告动机。但公开记录显示,BBC已在6月向其发出侵权警告,要求删除内容并赔偿;道琼斯集团更联合新闻集团发起诉讼,直指其抓取行为违反《计算机欺诈与滥用法案》。法律专家指出,虽然robots.txt不具直接法律效力,但故意规避行为可能构成"未经授权访问"。
这场冲突暴露了AI数据饥渴与内容权益的深层矛盾。当Cloudflare启用新规则封禁其爬虫时,Perplexity搜索质量显著下降——证明其模型高度依赖违规抓取内容。行业监测表明,逾60%采用AI屏蔽工具的网站遭遇类似规避行为,迫使亚马逊AWS启动对Perplexity的条款审查。
危机正在重塑数据生态。欧盟或将援引《2019文本数据挖掘条例》追究商业爬取责任,而Cloudflare已推出谈判平台,推动AI公司与出版商建立许可分成模式。某学术机构研究显示,合规数据采购将使AI训练成本增加23%,但这是产业可持续发展的唯一路径。
本文由YangZhiDa于2025-08-05发表在吾爱品聚,如有疑问,请联系我们。
本文链接:https://www.521pj.cn/20257385.html
发表评论