AI公司爬虫混乱网站屏蔽努力徒劳无功

xiao9469 · 发表于 2024-7-30 22:51:39

马上注册，免费下载更多dz插件网资源。

您需要登录才可以下载或查看，没有账号？立即注册

×

近日，一项调查发现，数百个网站试图阻止人工智能公司Anthropic抓取其内容，却因为使用过时的指令而屏蔽了错误的机器人。这一现象突显了当前网站所有者在应对不断变化的AI爬虫生态系统时面临的困境。

根据跟踪网络爬虫的网站Dark Visitors的匿名运营者透露，许多网站正在封锁Anthropic公司不再使用的两个机器人"ANTHROPIC-AI"和"CLAUDE-WEB"，同时在不知情的情况下让该公司真正的新爬虫"CLAUDEBOT"保持畅通。这种情况的出现，主要是由于网站所有者将过时的指令复制粘贴到了robots.txt文件中，而AI公司不断推出具有新名称的爬虫机器人。
AI公司爬虫混乱网站屏蔽努力徒劳无功维修,机器人,爬虫,人工智能,带宽

这一混乱局面不仅限于Anthropic。Dark Visitors的运营者指出，Apple和Meta等科技巨头最近也添加了新的代理，使得网站所有者几乎不可能手动跟上这些变化。更令人担忧的是，一些AI公司被发现以隐蔽方式抓取不应抓取的网站，或直接忽视robots.txt文件的指令。

这种情况导致了一系列问题。一些网站选择全面阻止爬虫，或只允许少数特定爬虫访问，这可能会影响搜索引擎索引、互联网存档和学术研究。同时，一些网站面临着AI爬虫大规模访问带来的技术和经济压力。例如，维修指南网站iFixit报告称，Anthropic的爬虫在一天内访问了其网站近一百万次。另一家服务提供商Read the Docs则表示，一个爬虫在一天内访问了价值10TB的文件，导致高昂的带宽费用。

数据来源倡议（Data Provenance Initiative）的一项研究进一步揭示了内容创作者和网站所有者在试图阻止AI工具训练时面临的普遍困惑。研究指出，阻止AI抓取工具的责任完全落在网站所有者身上，而爬虫数量的不断增加和频繁变化使这一任务变得异常艰难。

面对这一复杂局面，专家们建议网站管理员应该积极阻止可疑的AI爬虫，即使可能会误伤一些不存在的代理。同时，也有人预测会有更多创作者将内容转移到付费墙后面，以防止不受限制的抓取。

©DZ插件网所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。
本站内容为站长个人技术研究记录或网络，不提供用户交互功能，所有内容版权归原作者所有。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，得到更好的正版服务。
您在本站任何的赞助购买、下载、查阅、回复等行为等均表示接受并同意签订《DZ插件网免责声明协议》。
如有侵权请邮件与我们联系处理: discuzaddons@vip.qq.com 并出示相关证明以便删除。敬请谅解！