·设为首页收藏本站📧邮箱修改🎁免费下载专区💎积分✅卡密📒收藏夹👽聊天室
返回列表 发布新帖

记一次爬马蜂窝的心酸历程

156 1
发表于 2024-1-7 16:36:32 | 查看全部 阅读模式

马上注册,免费下载更多dz插件网资源。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
省流,直接给结论
其一:马蜂窝采用了“加速乐”SCDN,这个CDN厉害之处在利用爬虫脚本非浏览器特性,利用了IP->http 521->cookie:__jsluid_s->http 521 ->cookie:__jsl_clearance_s->cookie: __jsluid_s+ __jsl_clearance_s->http 200
其二:__jsluid_s又是IP+浏览器关系,换了IP会导致__jsl_clearance_s失效,继续http头部报521
其三:__jsl_clearance_s,他有时效性,目前估算是45分钟,也就是意味着,45分钟后,必须重新获取到最新的且有效的值
其四:SCDN,还有请求访问频率限制(根据IP),超出qps频率,IP直接被封30分钟,http头部返回403拒绝。
其五:马蜂窝部分业务,最多让你前25页的数据,就算原则游10000多页,但也只能让拿到前25页数据



那么怎么解决呢?
【有钱人的方案】
采用python+v8扩展,可以参考另外大神 分析过程 https://blog.csdn.net/YungGuo/article/details/109818327,以及代码样本 https://github.com/YungGuo08/WebSpider/tree/master/cookie_analysis/1

IP呢? 免费的http代理不靠谱,花钱找一个服务商提供代理池,你得同时要解决每个IP应该需要爬取多少个http请求,不然会进入403被封IP的禁地

【穷人的方案】
PC+chrome+F12,手动抓取__jsluid_s + __jsl_clearance_s,
如果出现403,让爬虫等待30分钟,接着干活

对于我本人,哈哈,当然属于穷人一列了。
记一次爬马蜂窝的心酸历程 域名,服务商,爬虫,浏览器,IP

最后问问各位大佬, 已经BA老域名,怎么能快速被百毒尽快收录,或者也可以私信我,51cdu.com 友情链接一下(要求必须BA)
我要说一句 收起回复
创宇盾启航版免费网站防御网站加速服务

评论1

浅生Lv.8 发表于 2024-1-7 16:37:25 | 查看全部
点赞,谢谢分享
我要说一句 收起回复

回复

 懒得打字嘛,点击右侧快捷回复【查看最新发布】   【应用商城享更多资源】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

图文热点
创宇盾启航版免费网站防御网站加速服务
投诉/建议联系

discuzaddons@vip.qq.com

未经授权禁止转载,复制和建立镜像,
如有违反,按照公告处理!!!
  • 联系QQ客服
  • 添加微信客服

联系DZ插件网微信客服|最近更新|Archiver|手机版|小黑屋|DZ插件网! ( 鄂ICP备20010621号-1 )|网站地图 知道创宇云防御

您的IP:18.225.56.78,GMT+8, 2024-11-25 04:17 , Processed in 0.247778 second(s), 83 queries , Gzip On, Redis On.

Powered by Discuz! X5.0 Licensed

© 2001-2024 Discuz! Team.

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表