节省流量与资源：手把手教你屏蔽恶意网站爬虫-东亦宁的山海之旅

你是否曾查看过服务器账单，为莫名的流量和资源消耗感到困惑？你的网站是否在某些时段变得异常缓慢，而真实访客并不多？问题的元凶，很可能就是那些在后台疯狂抓取的恶意网站爬虫。

对于个人站长或拥有小型网站的开发者来说，每一分流量、每一秒CPU时间都弥足珍贵。让恶意的、不守规矩的爬虫肆意消耗这些资源，无异于在浪费金钱和性能。今天，我就手把手教你如何识别并屏蔽它们，为你的网站“节流开源”。

第一步：识别不速之客——绘制你的爬虫地图

我的网站搭建于阿里云轻量应用服务器，并通过宝塔面板进行管理。程序选用Z-Blog，并安装了专门的蜘蛛日志记录插件，用于追踪爬虫访问动态及生成可视化统计图表。

图片1.png

第二步：发现资源浪费的源头——识别恶意爬虫

按下键盘上的“Win键+R键”（Win键即带Windows图标的按键），弹出“运行”对话框，输入“cmd”，点击“确定”或按回车，快速打开命令提示符。

输入nslookup52.167.144.195（蜘蛛IP地址），地址按回车。

如果结果中出现搜索引擎名称那么这就是真蜘蛛IP；

如果结果中出现:找不到IP地址:Non-existentdomain,那么这就是假蜘蛛IP

常见的搜索引擎爬虫(插件已经大部分识别）

Googlebot是谷歌的网络爬虫

Baiduspider是百度的网页爬虫

bingbot是微软bing搜索的爬虫

360Spider是360搜索的爬虫

Sogouwebspider是搜狗搜索的网页爬虫

YisouSpider是神马搜索的爬虫

YandexBot是俄罗斯最大搜索引擎和互联网巨头Yandex的网页爬虫，这个爬虫没有被插件识别，它的特点是短时间内有大量不同IP地址。

常见的“资源杀手”类型：

常见的“资源杀手”类型：

SEO数据采集器：如AhrefsBot,SemrushBot。它们为商业数据库抓取内容，对你个人毫无益处。

安全漏洞扫描器：它们会系统地请求/wp-admin、zb_system/cmd.php?act=verify、phpmyadmin、env等敏感路径，大量消耗资源。

内容剽窃爬虫：专门抓取全文，用于内容农场，通常不遵守任何规则。

第三步：行动指南——手把手配置屏蔽规则

我们将从温和劝退升级到强制拦截。

方法A：温和劝退（使用robots.txt）

在网站根目录的robots.txt文件中，明确告知守规矩的爬虫不要抓取。部分合规的商业爬虫会遵守此规则并停止抓取，对恶意爬虫和扫描器无效。

User-agent: *

Allow: /

Disallow: /zb_system/

Disallow: /search.php

Disallow: /zb_users/data/

Disallow: /zb_users/language/

Disallow: /zb_users/logs/

Disallow: /*.php?*

Disallow: /*.txt

Disallow: /*.log

方法B：强制拦截（屏蔽恶意IP地址）

1. 登录宝塔面板，进入【安全】模块，点击【系统防火墙】。

2. 选择【IP规则】选项卡，点击【添加IP规则】。

3. 在IP地址输入框中，填入需要屏蔽的IP地址，多个IP之间使用英文逗号“,”隔开。

4. 【策略】选择“禁止”，【方向】选择“入站（默认）”。

5. 点击【确认】保存，即可完成IP屏蔽规则的添加。

第四步：定期更新

网络环境在变化，新的恶意爬虫会不断出现。建议每个月回顾一次访问日志，更新你的屏蔽列表。

对于资源有限的个人网站而言，主动管理爬虫访问不是一个可选的高级技巧，而是一项至关重要的运维工作。现在就花上半小时，为你的网站“减负”吧！

东亦宁的山海之旅

心游东浩渺，神驻亦宁泊

节省流量与资源：手把手教你屏蔽恶意网站爬虫2025-10-09 19:31:26

常见的搜索引擎爬虫(插件已经大部分识别）