·设为首页收藏本站📧邮箱修改🎁免费下载专区💎积分✅卡密📒收藏夹👽聊天室
返回列表 发布新帖

AI公司爬虫混乱 网站屏蔽努力徒劳无功

152 2
发表于 2024-7-30 22:51:39 | 查看全部 阅读模式

马上注册,免费下载更多dz插件网资源。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
近日,一项调查发现,数百个网站试图阻止人工智能公司Anthropic抓取其内容,却因为使用过时的指令而屏蔽了错误的机器人。这一现象突显了当前网站所有者在应对不断变化的AI爬虫生态系统时面临的困境。


根据跟踪网络爬虫的网站Dark Visitors的匿名运营者透露,许多网站正在封锁Anthropic公司不再使用的两个机器人"ANTHROPIC-AI"和"CLAUDE-WEB",同时在不知情的情况下让该公司真正的新爬虫"CLAUDEBOT"保持畅通。这种情况的出现,主要是由于网站所有者将过时的指令复制粘贴到了robots.txt文件中,而AI公司不断推出具有新名称的爬虫机器人。
AI公司爬虫混乱 网站屏蔽努力徒劳无功 维修,机器人,爬虫,人工智能,带宽 这一混乱局面不仅限于Anthropic。Dark Visitors的运营者指出,Apple和Meta等科技巨头最近也添加了新的代理,使得网站所有者几乎不可能手动跟上这些变化。更令人担忧的是,一些AI公司被发现以隐蔽方式抓取不应抓取的网站,或直接忽视robots.txt文件的指令。


这种情况导致了一系列问题。一些网站选择全面阻止爬虫,或只允许少数特定爬虫访问,这可能会影响搜索引擎索引、互联网存档和学术研究。同时,一些网站面临着AI爬虫大规模访问带来的技术和经济压力。例如,维修指南网站iFixit报告称,Anthropic的爬虫在一天内访问了其网站近一百万次。另一家服务提供商Read the Docs则表示,一个爬虫在一天内访问了价值10TB的文件,导致高昂的带宽费用。


数据来源倡议(Data Provenance Initiative)的一项研究进一步揭示了内容创作者和网站所有者在试图阻止AI工具训练时面临的普遍困惑。研究指出,阻止AI抓取工具的责任完全落在网站所有者身上,而爬虫数量的不断增加和频繁变化使这一任务变得异常艰难。


面对这一复杂局面,专家们建议网站管理员应该积极阻止可疑的AI爬虫,即使可能会误伤一些不存在的代理。同时,也有人预测会有更多创作者将内容转移到付费墙后面,以防止不受限制的抓取。
我要说一句 收起回复
创宇盾启航版免费网站防御网站加速服务

评论2

CrystαlLv.8 发表于 2024-7-30 22:51:52 | 查看全部
今井,我的片子呢
我要说一句 收起回复
TyCodingLv.8 发表于 2024-7-30 22:52:28 | 查看全部
我都不管它
我要说一句 收起回复

回复

 懒得打字嘛,点击右侧快捷回复【查看最新发布】   【应用商城享更多资源】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

图文热点
创宇盾启航版免费网站防御网站加速服务
投诉/建议联系

discuzaddons@vip.qq.com

未经授权禁止转载,复制和建立镜像,
如有违反,按照公告处理!!!
  • 联系QQ客服
  • 添加微信客服

联系DZ插件网微信客服|最近更新|Archiver|手机版|小黑屋|DZ插件网! ( 鄂ICP备20010621号-1 )|网站地图 知道创宇云防御

您的IP:18.191.200.114,GMT+8, 2024-11-22 08:24 , Processed in 0.343613 second(s), 92 queries , Gzip On, Redis On.

Powered by Discuz! X5.0 Licensed

© 2001-2024 Discuz! Team.

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表