搞了一个整站爬取链接,这样子采集一个网站轻轻松松
很多小伙伴说是不是我把列表页关闭和把网站文章页MD5加密就可以防掉大部分采j?今天测试下整站链接都爬下来,当然是一个原创手工站一起3000多文章全部搞定,可以自已设置目标网站,需要排除的链接,比如tag链接就没必要爬取了,和爬取深度自定义,搞个500并发10OW内容几分钟搞定,当然采j别人还是低调一点,我一般是开10并发1
当然还是需要搞下随机ua访问,ip也可以自定义,当然是代理哈,挂在动态服务器随便搞
爬取整站其实也是可以并发的,但是太猛怕把别人网站搞挂了
当然还是需要搞下随机ua访问,ip也可以自定义,当然是代理哈,挂在动态服务器随便搞
爬取整站其实也是可以并发的,但是太猛怕把别人网站搞挂了