CDN/反向代理未回源:若网站使用Cloudflare或阿里云CDN,蜘蛛可能直接抓取CDN节点(产生CDN日志),而源服务器无访问记录
负载均衡分流:多服务器架构中抓取请求可能被分配到其他节点,需检查所有服务器日志
日志配置异常
日志轮转机制:Linux系统采用logrotate时,可能已将旧日志压缩归档(如access.log.1.gz)
虚拟主机配置:Apache虚拟主机未单独配置日志路径,导致记录到默认日志文件
日志级别过滤:Nginx配置中map模块可能过滤了蜘蛛流量(如排除特定User-Agent)
网络拦截行为
防火墙规则:iptables可能丢弃了来自百度ASN(AS38283、AS59191)的流量
Web应用防火墙:阿里云WAF可能误判蜘蛛为恶意流量,触发"拦截但不记录"规则
Robots.txt误屏蔽:虽不影响抓取记录,但会导致后续抓取频率下降 不影响的 以百度后台为准 会不会你的日志分析工具有问题? 后台为主 后台显示抓取了 就是抓取了不用纠结这个 一般网站日志为准,可能是你用了什么插件自动清理掉了日志? 或者下载的日志压根不对,再或者是你的日志分析工具有问题呢? 当然百度后台有抓取 那就是抓取了吧 百度后台是真实的
页:
1
[2]