宝塔技术-小强 发表于 2024-5-11 17:31:41

【教程】Nginx 防火墙 针对蜘蛛的规则说明

默认放行规则
默认防火墙是放行如下8种蜘蛛
百度蜘蛛、谷歌蜘蛛、360蜘蛛、必应蜘蛛、搜狗蜘蛛、雅虎蜘蛛、头条蜘蛛、神马蜘蛛
蜘蛛IP库是会自动更新的。不需要你自行设置放行的蜘蛛UA头。
所有的蜘蛛IP都是通过官方途径获取。准确率能达到99%。也存在某些IP不在蜘蛛池内的,
但是会很少。这个会实时更新的。蜘蛛的优先级高于CC 。所以蜘蛛爬取的话。是不会受你设置的CC规则而导致的拦截的。

如果蜘蛛被拦截了可能的原因: 设置了UA黑名单、设置了IP黑名单、设置了不让蜘蛛爬取。



自定义蜘蛛爬取规则

拒绝蜘蛛爬取


限制某一种蜘蛛的爬取




蜘蛛拦截的记录会记录到日志种如下:

这里是根据UA来匹配的。不是根据IP地址池来匹配的。如果对这块有疑问,可以联系我QQ.



演示:拦截百度蜘蛛


拦截谷歌蜘蛛


拦截所有蜘蛛


备注:如果需要添加蜘蛛类型。请联系我的QQ
需要升级到9.4.2 才能生效蜘蛛拦截的规则。之前的版本只对总开关做了拦截。但是没有对单个的蜘蛛进行拦截


2024-05-28 更新

增加神马蜘蛛



如关闭了。日志也会记录




PS:只有是真蜘蛛不会触发CC 假蜘蛛会触发CC的。



需要反馈和提出你的建议可以加群




宝塔技术-小强 发表于 2024-5-11 17:33:07

PS:只有是真蜘蛛不会触发CC 假蜘蛛会触发CC的。
2024-05-28 更新 增加神马蜘蛛IP库

牧童 发表于 2024-6-28 09:48:02

MJ12bot这个蜘蛛可以屏蔽么?

王大帅 发表于 2025-3-14 09:07:22

必应蜘蛛情报:https://www.bing.com/toolbox/bingbot.json
页: [1]
查看完整版本: 【教程】Nginx 防火墙 针对蜘蛛的规则说明