记一次爬马蜂窝的心酸历程-站长圈子-DZ插件网

记一次爬马蜂窝的心酸历程

xiao9469

2024/01/07 16:36:32

省流，直接给结论

其一：马蜂窝采用了“加速乐”SCDN，这个CDN厉害之处在利用爬虫脚本非浏览器特性，利用了IP->http 521->cookie:__jsluid_s->http 521 ->cookie:__jsl_clearance_s->cookie: __jsluid_s+ __jsl_clearance_s->http 200

其二：__jsluid_s又是IP+浏览器关系，换了IP会导致__jsl_clearance_s失效，继续http头部报521

其三：__jsl_clearance_s，他有时效性，目前估算是45分钟，也就是意味着，45分钟后，必须重新获取到最新的且有效的值

其四：SCDN，还有请求访问频率限制（根据IP），超出qps频率，IP直接被封30分钟，http头部返回403拒绝。

其五：马蜂窝部分业务，最多让你前25页的数据，就算原则游10000多页，但也只能让拿到前25页数据

那么怎么解决呢？

【有钱人的方案】
采用python+v8扩展，可以参考另外大神分析过程 https://blog.csdn.net/YungGuo/article/details/109818327，以及代码样本 https://github.com/YungGuo08/WebSpider/tree/master/cookie_analysis/1

IP呢？免费的http代理不靠谱，花钱找一个服务商提供代理池，你得同时要解决每个IP应该需要爬取多少个http请求，不然会进入403被封IP的禁地

【穷人的方案】
PC+chrome+F12，手动抓取__jsluid_s + __jsl_clearance_s，
如果出现403，让爬虫等待30分钟，接着干活

对于我本人，哈哈，当然属于穷人一列了。

最后问问各位大佬，已经BA老域名，怎么能快速被百毒尽快收录，或者也可以私信我，51cdu.com 友情链接一下（要求必须BA）

进入原文参与互动