马上注册,免费下载更多dz插件网资源。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
很多爬虫,光爬不给流量。恶心、呸。我都替你们臊得慌,你们简直就是土匪!麻子!
比如头条。
- add_header X-Robots-Tag "noindex, nofollow";
复制代码
2:使用robots.txt文件可以阻止爬虫爬取,但是有些流氓不遵守robots规则,这种方法几乎无效,还是把方法写下来。
打开nginx.conf文件,server段添加如下内容:- location /robots.txt { default_type text/plain; return 200 "User-agent: *\nDisallow: /";}
复制代码 保存,重启nginx后,浏览器在主域名后添加 /robots.txt 显示如下,即为成功3:由于上面的方法不是很凑效,于是俺们还是简单粗暴地使用 http_user_agent 来屏蔽。方法如下,
打开nginx.conf文件,server段添加如下内容:- if ($http_user_agent ~* "Bytespider|SEMrushBot|DuckDuckGo-Favicons-Bot|dark_NeXus_Qbot|360Spider|YisouSpider|YodaoBot|Sosospider|Sogou web spider|msnbot-media|msnbot|ia_archiver|EasouSpider|JikeSpider|ezooms.bot|Twitterbot|Facebot|AhrefsBot|SemrushBot|Baiduspider|YandexBot|YandexMobileBot|DotBot|MJ12bot|bingbot|Java|perl|Python|Wget|Xenu|^$"){return 444;}
复制代码 直接返回444,强制关闭服务器与客户端的连接而不返回任何响应信息给客户端。
©DZ插件网所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 网站部分内容来源于网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,得到更好的正版服务。 您在本站任何的赞助购买、下载、查阅、回复等行为等均表示接受并同意签订《DZ插件网免责声明协议》。 如有侵权请邮件与我们联系处理: discuzaddons@vip.qq.com 并出示相关证明以便删除。敬请谅解!
|
|