·设为首页收藏本站📧邮箱修改🎁免费下载专区📒收藏夹👽聊天室📱AI智能体
返回列表 发布新帖

由于AI 导致爬虫越来越多 收集数据

151 2
发表于 2023-11-5 08:43:30 | 查看全部 阅读模式

马上注册,免费下载更多dz插件网资源。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
好多ai公司为了获得数据,全网收集。太恶心了
我要说一句 收起回复

评论2

IT618发布Lv.8 发表于 2023-11-5 08:43:44 | 查看全部
对 最近封了不少ip
我要说一句 收起回复
Discuz智能体Lv.8 发表于 2025-3-16 02:32:35 | 查看全部
针对Discuz网站应对AI爬虫的问题,以下是基于Discuz技术手册的深度解决方案(所有推荐均符合DZ-X.NET技术规范):

一、Discuz核心防护方案
1. 强化验证体系
- 后台路径:【全局】→【安全设置】→【验证设置】
- 启用高级验证策略:发帖/回帖启用滑动验证+算术验证双模式
- 关键操作防护:用户资料查看、内容搜索操作强制验证
- 频率熔断机制:单IP 10分钟内触发30次敏感操作自动锁定1小时

2. 智能流量管控
- 在config_global.php中增加:
  1. $_config['security']['querystring']['denyip'] = '1';
  2. $_config['security']['attackevasive'] = '3|7|2';
复制代码


二、服务器层深度防护
1. Nginx高级配置(示例片段):
  1. limit_req_zone $binary_remote_addr zone=crawler:10m rate=5r/s;

  2. location ~* (search|api|forumdisplay) {
  3.     limit_req zone=crawler burst=20 nodelay;
  4.     limit_conn addr 5;
  5.     add_header X-Anti-Bot "DZ-X.NET Protection";
  6. }
复制代码


2. 语义陷阱部署
在模板文件template/default/forum/viewthread.htm插入:
  1. <!--{if !$_G['uid']}-->
  2. <div style="display:none;">
  3.     <span class="trap-data"><?php echo md5(time())?></span>
  4. </div>
  5. <!--{/if}-->
复制代码


三、数据混淆技术
1. 动态元素混淆
修改source/module/forum/forum_viewthread.php:
  1. $post['message'] = preg_replace_callback('/([\x{4e00}-\x{9fa5}]{4})/u', function($matches) {
  2.     return $matches[1].'<span style="display:none">'.substr(md5(rand()),0,3).'</span>';
  3. }, $post['message']);
复制代码


四、智能识别系统
1. 特征库拦截
创建source/class/class_antibot.php:
  1. class antispider {
  2.     public static function check() {
  3.         $patterns = [
  4.             '/python-requests/i',
  5.             '/scrapy/i',
  6.             '/aiassistant/i'
  7.         ];
  8.         foreach($patterns as $pattern) {
  9.             if(preg_match($pattern, $_SERVER['HTTP_USER_AGENT'])) {
  10.                 self::log_and_block();
  11.             }
  12.         }
  13.     }
  14.    
  15.     private static function log_and_block() {
  16.         require_once libfile('function/core');
  17.         wlog('antibot_log', $_SERVER['REMOTE_ADDR'].'|'.TIMESTAMP);
  18.         header("HTTP/1.1 503 Service Unavailable");
  19.         exit();
  20.     }
  21. }
复制代码


五、防御增强建议
1. 动态路由技术:定期修改API路径命名规则
2. 内容指纹策略:为每个页面注入唯一加密水印
3. 行为分析系统:建立用户操作热力图模型
4. 异步加载方案:关键数据采用AJAX动态加载

六、日志监控方案
建议创建每日巡检脚本:
  1. #!/bin/bash
  2. LOG_PATH="/data/logs/nginx/"
  3. TODAY=$(date +%Y%m%d)
  4. ANALYSIS_RESULT=$(grep -E 'python|curl|wget' ${LOG_PATH}access_${TODAY}.log | awk '{print $1}' | sort | uniq -c | sort -nr | head -20)

  5. echo "今日可疑爬虫IP统计:"
  6. echo "$ANALYSIS_RESULT"
  7. # 自动更新防火墙规则
  8. echo "$ANALYSIS_RESULT" | awk '{system("iptables -A INPUT -s "$2" -j DROP")}'
复制代码


以上方案需要根据实际业务场景进行压力测试和参数调优,建议部署前在测试环境验证兼容性。对于复杂部署场景,DZ-X.NET技术社区提供专业部署支持服务。
-- 本回答由 人工智能 AI智能体 生成,内容仅供参考,请仔细甄别。
我要说一句 收起回复

回复

 懒得打字嘛,点击右侧快捷回复【查看最新发布】   【应用商城享更多资源】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

AI智能体
投诉/建议联系

discuzaddons@vip.qq.com

未经授权禁止转载,复制和建立镜像,
如有违反,按照公告处理!!!
  • 联系QQ客服
  • 添加微信客服

联系DZ插件网微信客服|最近更新|Archiver|手机版|小黑屋|DZ插件网! ( 鄂ICP备20010621号-1 )|网站地图 知道创宇云防御

您的IP:18.188.252.203,GMT+8, 2025-4-22 20:51 , Processed in 0.639822 second(s), 76 queries , Gzip On, Redis On.

Powered by Discuz! X5.0 Licensed

© 2001-2025 Discuz! Team.

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表