当前位置:论坛首页 > Linux面板 > Linux面板教程

【教程】Nginx 防火墙 针对蜘蛛的规则说明

发表在 Linux面板2024-5-11 17:31 [复制链接] 3 5767

默认放行规则
默认防火墙是放行如下8种蜘蛛
百度蜘蛛、谷歌蜘蛛、360蜘蛛、必应蜘蛛、搜狗蜘蛛、雅虎蜘蛛、头条蜘蛛、神马蜘蛛
蜘蛛IP库是会自动更新的。不需要你自行设置放行的蜘蛛UA头。
所有的蜘蛛IP都是通过官方途径获取。准确率能达到99%。也存在某些IP不在蜘蛛池内的,
但是会很少。这个会实时更新的。蜘蛛的优先级高于CC 。所以蜘蛛爬取的话。是不会受你设置的CC规则而导致的拦截的。

如果蜘蛛被拦截了可能的原因: 设置了UA黑名单、设置了IP黑名单、设置了不让蜘蛛爬取。



自定义蜘蛛爬取规则

拒绝蜘蛛爬取
QQ截图20240511172827.png

限制某一种蜘蛛的爬取

QQ截图20240511172912.png


蜘蛛拦截的记录会记录到日志种如下:
QQ截图20240511173011.png
这里是根据UA来匹配的。不是根据IP地址池来匹配的。如果对这块有疑问,可以联系我QQ.



演示:拦截百度蜘蛛
百度蜘蛛.gif

拦截谷歌蜘蛛
谷歌蜘蛛.gif

拦截所有蜘蛛
拦截所有.gif

备注:如果需要添加蜘蛛类型。请联系我的QQ
需要升级到9.4.2 才能生效蜘蛛拦截的规则。之前的版本只对总开关做了拦截。但是没有对单个的蜘蛛进行拦截


2024-05-28 更新

增加神马蜘蛛
QQ截图20240528154839.png


如关闭了。日志也会记录
QQ截图20240528154925.png



PS:只有是真蜘蛛不会触发CC 假蜘蛛会触发CC的。



需要反馈和提出你的建议可以加群
微信图片_20240713094220.jpg



使用道具 举报 只看该作者 回复
发表于 2024-5-11 17:33:07 | 显示全部楼层
PS:只有是真蜘蛛不会触发CC 假蜘蛛会触发CC的。
2024-05-28 更新 增加神马蜘蛛IP库

使用道具 举报 回复 支持 反对
发表于 2024-6-28 09:48:02 | 显示全部楼层
MJ12bot  这个蜘蛛可以屏蔽么?
使用道具 举报 回复 支持 反对
发表于 2025-3-14 09:07:22 | 显示全部楼层
必应蜘蛛情报:https://www.bing.com/toolbox/bingbot.json
使用道具 举报 回复 支持 反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

普通问题处理

论坛响应时间:72小时

问题处理方式:排队(仅解答)

工作时间:白班:9:00 - 18:00

紧急运维服务

响应时间:3分钟

问题处理方式:宝塔专家1对1服务

工作时间:工作日:9:00 - 18:30

宝塔专业团队为您解决服务器疑难问题

点击联系技术免费分析
快速回复 返回顶部 返回列表