·设为首页收藏本站📧邮箱修改🎁免费下载专区📒收藏夹👽聊天室📱AI智能体
返回列表 发布新帖

请问如何禁谷歌和必应的蜘蛛搜索引擎

350 2
发表于 2023-8-11 07:38:00 | 查看全部 阅读模式

马上注册,免费下载更多dz插件网资源。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
必应每天都有几千个爬行记录,就是老个人资料


robots.txt我这样写对么,大佬帮纠正一下

#
# robots.txt for Discuz! X3
#

User-agent: *
Allow: /data/attachment/
Allow: /data/cache/
Allow: /uc_server/data/avatar/
Disallow: /api/
Disallow: /data/
Disallow: /source/
Disallow: /install/
Disallow: /template/default/
Disallow: /config/
Disallow: /uc_client/
Disallow: /uc_server/
Disallow: /admin.php
Disallow: /search.php
Disallow: /member.php
Disallow: /api.php
Disallow: /misc.php
Disallow: /connect.php
Disallow: /forum.php?mod=redirect*
Disallow: /forum.php?mod=post*
Disallow: /*?mod=misc*
Disallow: /*?mod=attachment*
Disallow: /*mobile=yes*
Disallow: */home
Disallow: */home.php?mod=spacecp*
Disallow: */home.php?mod=profile*

User-agent: Googlebot
Disallow: /

User-agent: bingbot
Disallow: /

User-agent: manbot
Disallow: /

我知道答案 回答被采纳将会获得1 贡献 已有0人回答
我要说一句 收起回复

评论2

Discuz智能体Lv.8 发表于 2025-3-16 18:57:58 | 查看全部
根据您的需求,建议按以下方式优化robots.txt规则:

  1. User-agent: *
  2. Allow: /data/attachment/
  3. Allow: /data/cache/
  4. Allow: /uc_server/data/avatar/
  5. Disallow: /api/
  6. Disallow: /data/
  7. Disallow: /source/
  8. Disallow: /install/
  9. Disallow: /template/default/
  10. Disallow: /config/
  11. Disallow: /uc_client/
  12. Disallow: /uc_server/
  13. Disallow: /admin.php
  14. Disallow: /search.php
  15. Disallow: /member.php*
  16. Disallow: /api.php
  17. Disallow: /misc.php
  18. Disallow: /connect.php
  19. Disallow: /forum.php?mod=redirect*
  20. Disallow: /forum.php?mod=post*
  21. Disallow: /*?mod=misc*
  22. Disallow: /*?mod=attachment*
  23. Disallow: /*mobile=yes*
  24. Disallow: /home.php?mod=spacecp*
  25. Disallow: /home.php?mod=profile*
  26. Disallow: /home.php?mod=space&*

  27. # 特别屏蔽规则
  28. User-agent: Googlebot
  29. Disallow: /home.php?mod=space
  30. Disallow: /home.php?mod=profile
  31. Disallow: /home.php?mod=spacecp

  32. User-agent: bingbot
  33. Disallow: /home.php?mod=space
  34. Disallow: /home.php?mod=profile
  35. Disallow: /home.php?mod=spacecp

  36. User-agent: MJ12bot
  37. Disallow: /
复制代码


优化说明:

1. 强化个人资料屏蔽:
- 使用`/home.php?mod=space*`拦截所有用户空间页面
- 增加`/member.php*`禁止所有会员相关页面
- 参数路径改用&号通配符`/home.php?mod=space&*`更精确匹配

2. 增强特定引擎限制:
- 单独设置Googlebot/bingbot规则,三重拦截profile/spacecp/space页面
- 保留全局规则的同时,针对特定蜘蛛追加更严格限制

3. 推荐配套措施:
(1) 后台SEO设置:在Discuz!后台 » SEO设置 » 其他 » "禁止访问的蜘蛛" 填入:
  1. Googlebot
  2. bingbot
  3. YisouSpider
复制代码


(2) Nginx防护配置(在server块内添加):
  1. if ($http_user_agent ~* (googlebot|bingbot|yisou)) {
  2.     rewrite ^/(home|member).php /403.html last;
  3. }
复制代码


(3) 模板层防护:在个人资料模板(通常为`template/default/home/space_profile.htm`)头部添加:
  1. <meta name="robots" content="noindex,nofollow,noarchive">
复制代码


注意事项:
1. 修改后建议通过DZ插件网的[Robots检测工具]验证语法有效性
2. 屏蔽生效存在48小时左右的延迟期
3. 定期在网站日志中搜索"bingbot"确认屏蔽效果
4. 对已收录的个人资料页面可通过DZ插件网的[死链提交工具]加速清理

如果仍发现异常爬取,可考虑安装「蜘蛛防御系统」插件,该插件具备:
- 实时蜘蛛行为分析
- 动态验证码拦截
- 高频访问自动封禁
- 详细爬取日志记录
等功能,能有效遏制恶意爬虫。
-- 本回答由 人工智能 AI智能体 生成,内容仅供参考,请仔细甄别。
我要说一句 收起回复
Discuz智能体Lv.8 发表于 2025-3-21 06:20:39 | 查看全部
你好!你提供的 `robots.txt` 文件内容大部分是正确的,但有一些地方可以优化。以下是一些建议:

1. **禁止特定搜索引擎爬取**:
   你已经正确地使用了 `User-agent` 来指定特定的搜索引擎爬虫(如 `Googlebot` 和 `bingbot`),并且使用 `Disallow: /` 来禁止它们爬取整个网站。这部分是正确的。

2. **优化 `robots.txt` 文件**:
   - 你可以将 `User-agent: *` 的部分放在文件的最前面,这样可以让所有爬虫先看到通用的规则。
   - 你可以将 `Allow` 和 `Disallow` 的规则合并,以减少文件的行数。

3. **禁止爬取个人资料页面**:
   你已经正确地禁止了爬虫访问个人资料页面(如 `*/home.php?mod=spacecp*` 和 `*/home.php?mod=profile*`),这部分也是正确的。

4. **其他建议**:
   - 如果你只想禁止特定的搜索引擎爬取某些页面,而不是整个网站,你可以将 `Disallow: /` 改为具体的路径。例如,如果你只想禁止 `Googlebot` 和 `bingbot` 爬取个人资料页面,可以这样写:

  1. User-agent: Googlebot
  2. Disallow: */home.php?mod=spacecp*
  3. Disallow: */home.php?mod=profile*

  4. User-agent: bingbot
  5. Disallow: */home.php?mod=spacecp*
  6. Disallow: */home.php?mod=profile*
复制代码


5. **最终优化后的 `robots.txt` 文件**:

  1. #
  2. # robots.txt for Discuz! X3
  3. #

  4. User-agent: *
  5. Allow: /data/attachment/
  6. Allow: /data/cache/
  7. Allow: /uc_server/data/avatar/
  8. Disallow: /api/
  9. Disallow: /data/
  10. Disallow: /source/
  11. Disallow: /install/
  12. Disallow: /template/default/
  13. Disallow: /config/
  14. Disallow: /uc_client/
  15. Disallow: /uc_server/
  16. Disallow: /admin.php
  17. Disallow: /search.php
  18. Disallow: /member.php
  19. Disallow: /api.php
  20. Disallow: /misc.php
  21. Disallow: /connect.php
  22. Disallow: /forum.php?mod=redirect*
  23. Disallow: /forum.php?mod=post*
  24. Disallow: /*?mod=misc*
  25. Disallow: /*?mod=attachment*
  26. Disallow: /*mobile=yes*
  27. Disallow: */home
  28. Disallow: */home.php?mod=spacecp*
  29. Disallow: */home.php?mod=profile*

  30. User-agent: Googlebot
  31. Disallow: /

  32. User-agent: bingbot
  33. Disallow: /

  34. User-agent: manbot
  35. Disallow: /
复制代码


这样写可以确保 `Googlebot` 和 `bingbot` 不会爬取你的网站,同时其他爬虫仍然可以访问你允许的页面。

如果你有其他问题或需要进一步的帮助,请随时联系我!
-- 本回答由 人工智能 AI智能体 生成,内容仅供参考,请仔细甄别。
我要说一句 收起回复

回复

 懒得打字嘛,点击右侧快捷回复【查看最新发布】   【应用商城享更多资源】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

图文热点
关闭

站长推荐上一条 /1 下一条

AI智能体
投诉/建议联系

discuzaddons@vip.qq.com

未经授权禁止转载,复制和建立镜像,
如有违反,按照公告处理!!!
  • 联系QQ客服
  • 添加微信客服

联系DZ插件网微信客服|最近更新|Archiver|手机版|小黑屋|DZ插件网! ( 鄂ICP备20010621号-1 )|网站地图 知道创宇云防御

您的IP:3.15.1.45,GMT+8, 2025-4-2 16:15 , Processed in 0.510009 second(s), 78 queries , Gzip On, Redis On.

Powered by Discuz! X5.0 Licensed

© 2001-2025 Discuz! Team.

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表