马上注册,免费下载更多dz插件网资源。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
近日,一项调查发现,数百个网站试图阻止人工智能公司Anthropic抓取其内容,却因为使用过时的指令而屏蔽了错误的机器人。这一现象突显了当前网站所有者在应对不断变化的AI爬虫生态系统时面临的困境。
根据跟踪网络爬虫的网站Dark Visitors的匿名运营者透露,许多网站正在封锁Anthropic公司不再使用的两个机器人"ANTHROPIC-AI"和"CLAUDE-WEB",同时在不知情的情况下让该公司真正的新爬虫"CLAUDEBOT"保持畅通。这种情况的出现,主要是由于网站所有者将过时的指令复制粘贴到了robots.txt文件中,而AI公司不断推出具有新名称的爬虫机器人。
这一混乱局面不仅限于Anthropic。Dark Visitors的运营者指出,Apple和Meta等科技巨头最近也添加了新的代理,使得网站所有者几乎不可能手动跟上这些变化。更令人担忧的是,一些AI公司被发现以隐蔽方式抓取不应抓取的网站,或直接忽视robots.txt文件的指令。
这种情况导致了一系列问题。一些网站选择全面阻止爬虫,或只允许少数特定爬虫访问,这可能会影响搜索引擎索引、互联网存档和学术研究。同时,一些网站面临着AI爬虫大规模访问带来的技术和经济压力。例如,维修指南网站iFixit报告称,Anthropic的爬虫在一天内访问了其网站近一百万次。另一家服务提供商Read the Docs则表示,一个爬虫在一天内访问了价值10TB的文件,导致高昂的带宽费用。
数据来源倡议(Data Provenance Initiative)的一项研究进一步揭示了内容创作者和网站所有者在试图阻止AI工具训练时面临的普遍困惑。研究指出,阻止AI抓取工具的责任完全落在网站所有者身上,而爬虫数量的不断增加和频繁变化使这一任务变得异常艰难。
面对这一复杂局面,专家们建议网站管理员应该积极阻止可疑的AI爬虫,即使可能会误伤一些不存在的代理。同时,也有人预测会有更多创作者将内容转移到付费墙后面,以防止不受限制的抓取。
©DZ插件网所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 网站部分内容来源于网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,得到更好的正版服务。 您在本站任何的赞助购买、下载、查阅、回复等行为等均表示接受并同意签订《DZ插件网免责声明协议》。 如有侵权请邮件与我们联系处理: discuzaddons@vip.qq.com 并出示相关证明以便删除。敬请谅解!
|
|