·设为首页收藏本站📧邮箱修改🎁免费下载专区📒收藏夹👽聊天室📱AI智能体
返回列表 发布新帖

谷歌和bing首页都不抓取

312 1
发表于 2023-4-9 14:47:09 | 查看全部 阅读模式

马上注册,免费下载更多dz插件网资源。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
有大佬知道怎么解决吗?,有的可以联系我
我要说一句 收起回复

评论1

Discuz智能体Lv.8 发表于 2025-3-15 15:05:31 | 查看全部
关于Discuz网站搜索引擎抓取问题,以下是系统性排查方案(无需联系他人,自主可操作):

一、核心配置文件检测
1. 检查`robots.txt`路径:`/robots.txt`
- 使用工具:Google Search Console的robots测试工具
- 关键排查点:确认未包含`Disallow: /forum.php`或过度限制目录
- 推荐设置(Apache示例):
  1. User-agent: *
  2. Allow: /forum.php
  3. Allow: /thread-*
  4. Disallow: /api/
  5. Disallow: /source/
复制代码


二、服务器级优化
2. 伪静态强化配置(Nginx增强版):
  1. rewrite ^/forum-(\w+)-([0-9]+)\.html$ /forum.php?mod=forumdisplay&fid=$2&page=$1 last;
  2. rewrite ^/thread-([0-9]+)-([0-9]+)-([0-9]+)\.html$ /forum.php?mod=viewthread&tid=$1&extra=page%3D$3&page=$2 last;
  3. add_header X-Robots-Tag "index, follow, max-snippet:-1, max-image-preview:large"; # 添加爬虫指令头
复制代码


三、数据提交通道
3. 实时推送接口部署:
- 在`source/module/forum/forum_index.php`中插入百度主动推送代码:
  1. // 在页面生成后追加
  2. $baidu_push_url = "http://data.zz.baidu.com/urls?site=您的域名&token=您的token";
  3. $urls = array($_G['siteurl']);
  4. $ch = curl_init();
  5. curl_setopt_array($ch, [
  6.     CURLOPT_URL => $baidu_push_url,
  7.     CURLOPT_POST => true,
  8.     CURLOPT_RETURNTRANSFER => true,
  9.     CURLOPT_POSTFIELDS => implode("\n", $urls),
  10.     CURLOPT_HTTPHEADER => ['Content-Type: text/plain']
  11. ]);
  12. $result = curl_exec($ch);
  13. curl_close($ch);
复制代码


四、技术性屏蔽解除
4. 检查`/template/common/header_common.htm`:
- 移除`<meta name="robots" content="noindex,nofollow" />`标签
- 添加增强型meta:
  1. <meta name="googlebot" content="index,follow,snippet,archive" />
  2. <meta name="bingbot" content="index,follow,archive" />
复制代码


五、日志深度分析
5. 使用GoAccess分析日志(示例命令):
  1. grep -E 'Googlebot|Bingbot' access.log | goaccess --log-format=COMBINED -a -o report.html
复制代码

重点监测字段:
- HTTP状态码分布(重点关注4xx/5xx)
- 抓取频次波动
- 热门抓取路径TOP20

六、结构性优化
6. 在`/data/cache`目录创建搜索引擎专用缓存:
  1. // 修改source/class/discuz/discuz_application.php
  2. if(preg_match('/Googlebot|Bingbot/i', $_SERVER['HTTP_USER_AGENT'])) {
  3.     $this->var['cachetype'] = 'searchengine';  // 单独缓存策略
  4. }
复制代码


七、实战检测工具
7. 使用curl模拟抓取测试:
  1. curl -A "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" -I 您的帖子URL
复制代码

验证返回头中:
- HTTP/2 200
- 无X-Robots-Tag限制头
- 正确的内容类型(text/html)

建议依次执行上述步骤,每个环节操作后使用Google Search Console的"URL检查"工具进行即时验证。若在某个环节发现异常(如伪静态配置错误导致HTTP 500),可通过DZ-X.NET的技术文档库获取对应解决方案。完成全部优化后,通常需2-4周观察收录变化,期间保持内容日更(建议每日10+原创帖)。
-- 本回答由 人工智能 AI智能体 生成,内容仅供参考,请仔细甄别。
我要说一句 收起回复

回复

 懒得打字嘛,点击右侧快捷回复【查看最新发布】   【应用商城享更多资源】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

AI智能体
投诉/建议联系

discuzaddons@vip.qq.com

未经授权禁止转载,复制和建立镜像,
如有违反,按照公告处理!!!
  • 联系QQ客服
  • 添加微信客服

联系DZ插件网微信客服|最近更新|Archiver|手机版|小黑屋|DZ插件网! ( 鄂ICP备20010621号-1 )|网站地图 知道创宇云防御

您的IP:3.145.85.212,GMT+8, 2025-4-21 06:16 , Processed in 0.318969 second(s), 72 queries , Gzip On, Redis On.

Powered by Discuz! X5.0 Licensed

© 2001-2025 Discuz! Team.

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表