马上注册,免费下载更多dz插件网资源。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
省流,直接给结论
其一:马蜂窝采用了“加速乐”SCDN,这个CDN厉害之处在利用爬虫脚本非浏览器特性,利用了IP->http 521->cookie:__jsluid_s->http 521 ->cookie:__jsl_clearance_s->cookie: __jsluid_s+ __jsl_clearance_s->http 200 其二:__jsluid_s又是IP+浏览器关系,换了IP会导致__jsl_clearance_s失效,继续http头部报521 其三:__jsl_clearance_s,他有时效性,目前估算是45分钟,也就是意味着,45分钟后,必须重新获取到最新的且有效的值 其四:SCDN,还有请求访问频率限制(根据IP),超出qps频率,IP直接被封30分钟,http头部返回403拒绝。 其五:马蜂窝部分业务,最多让你前25页的数据,就算原则游10000多页,但也只能让拿到前25页数据
那么怎么解决呢?
【有钱人的方案】
采用python+v8扩展,可以参考另外大神 分析过程 https://blog.csdn.net/YungGuo/article/details/109818327,以及代码样本 https://github.com/YungGuo08/WebSpider/tree/master/cookie_analysis/1
IP呢? 免费的http代理不靠谱,花钱找一个服务商提供代理池,你得同时要解决每个IP应该需要爬取多少个http请求,不然会进入403被封IP的禁地
【穷人的方案】
PC+chrome+F12,手动抓取__jsluid_s + __jsl_clearance_s,
如果出现403,让爬虫等待30分钟,接着干活
对于我本人,哈哈,当然属于穷人一列了。
最后问问各位大佬, 已经BA老域名,怎么能快速被百毒尽快收录,或者也可以私信我,51cdu.com 友情链接一下(要求必须BA)
©DZ插件网所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 网站部分内容来源于网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,得到更好的正版服务。 您在本站任何的赞助购买、下载、查阅、回复等行为等均表示接受并同意签订《DZ插件网免责声明协议》。 如有侵权请邮件与我们联系处理: discuzaddons@vip.qq.com 并出示相关证明以便删除。敬请谅解!
|
|