你是否遇到过这样的情况:服务器带宽莫名跑满,页面加载速度越来越慢,后台统计显示大量不明IP访问,但真实用户却没增加几个?这很可能是你的网站正在被恶意爬虫疯狂“吸血”。
去年,客户的一个博客站点就遭遇过这种情况——单日流量飙升到 50 GB,服务器费用翻倍,最后发现 80% 的请求都来自几个陌生的爬虫程序。直到使用了一份优化后的 robots.txt 文件,一周内垃圾流量直接下降 76%,服务器负载恢复正常。
今天,我就把这份能精准拦截垃圾爬虫的实战指南分享出来,包含详细的规则解析、10 大恶意爬虫黑名单以及 step-by-step 的配置教程。
无论你是个人站长还是企业运维,这篇文章都能帮你省下大量服务器成本,让网站速度提升一个档次。
在讲具体规则之前,我们先搞清楚一个问题:robots.txt 到底是什么?
简单来说,robots.txt 是网站根目录下的一个纯文本文件,它就像给搜索引擎和爬虫程序的“交通指挥灯”,告诉它们哪些页面可以访问,哪些需要绕行。没有这个文件,爬虫就会像脱缰的野马,可能爬取你不想公开的内容(比如后台管理页面),或者因为频繁访问导致服务器瘫痪。
根据腾讯云云鼎实验室 2024 年的报告,恶意爬虫已占据全球网站流量的 35%,其中北京、天津、河北三地的恶意爬虫源 IP 占比高达 59.11%。这些爬虫主要带来以下风险:
服务器资源耗尽:某电商网站曾因 SemrushBot 高频爬取,导致服务器 CPU 占用率从 20% 飙升至 90%,正常用户无法访问,直接损失超 10 万元订单。
带宽成本剧增:我的博客在未拦截爬虫前,每月带宽费用要 800 多元,优化后降到 200 元以内,一年省下 7000 多块。
隐私信息泄露:ZoominfoBot 等商业爬虫会抓取企业联系方式、邮箱等信息,可能导致垃圾邮件和诈骗电话泛滥。
不是所有爬虫都是“坏东西”。像百度的 Baiduspider、谷歌的 Googlebot 这类搜索引擎爬虫,能帮助你的网站被更多用户发现,应该允许访问。但以下 10 种爬虫,如非必要建议屏蔽:
User-agent | 所属公司/项目 | 主要危害 |
AhrefsBot | Ahrefs | 日均爬取超 10 万次,占用大量资源 |
MJ12bot | Majestic-12 | 高频请求导致服务器负载过高 |
DotBot | 爬取频率无限制,影响正常访问 | |
SemrushBot | Semrush | 商业数据抓取,带宽消耗大 |
ZoominfoBot | ZoomInfo | 抓取企业隐私信息,引发骚扰 |
BLEXBot | Content ad | 窃取内容生成广告,侵犯版权 |
aiHitBot | aiHit | 企业数据采集,可能导致信息泄露 |
Mail.RU_Bot | 俄罗斯搜索引擎,国内用户极少 | |
XoviBot | Xovi | SEO 竞争分析工具,非必要爬取 |
MauiBot | Unknown | 疑似恶意爬虫,行为模式异常 |
robots.txt 的语法其实很简单,主要由两种指令组成:
User-agent: 指定要控制的爬虫名称,* 代表所有爬虫。
Disallow: 指定禁止爬取的路径,/ 代表网站根目录。
例如,要禁止 AhrefsBot 访问整个网站,规则就是:
User-agent: AhrefsBot
Disallow: /
如果只想禁止它爬取 /admin/ 目录,则写成:
User-agent: AhrefsBot
Disallow: /admin/
以下是我整理的通用版 robots.txt 文件,包含上述 10 大垃圾爬虫的拦截规则,同时允许主流搜索引擎正常抓取:
复制
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: XoviBot
Disallow: /
User-agent: MauiBot
Disallow: /User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /admin/
Disallow: /login/
Disallow: /register/
Disallow: /*?replytocom=*
Disallow: /?s=* # 禁止搜索结果页爬取User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /admin/
Disallow: /login/
Disallow: /register/
Disallow: /*?replytocom=*
Disallow: /?s=* # 禁止搜索结果页爬取
Sitemap: https://youdomain.com/sitemap.xml以上规则适用于大部分网站,但不同类型的站点还有特殊需求:
WordPress 网站
WordPress 用户需要特别注意保护 /wp-admin/ 和 /wp-content/plugins/ 目录,这些地方通常包含敏感信息。可以在规则中添加:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /*wp-*.php
Disallow: /*?attachment_id=*电商网站
电商网站要防止价格数据被竞争对手爬取,建议禁止爬虫访问产品筛选和排序页面:
User-agent: *
Disallow: /product/*?sort=*
Disallow: /product/*?filter=*
Disallow: /checkout/
Disallow: /cart/企业官网
企业官网重点保护联系表单和员工信息页:
User-agent: *
Disallow: /contact/
Disallow: /staff/
Disallow: /privacy-policy/创建文件:用记事本或 VS Code 新建一个文本文件,粘贴上面的规则,保存为 robots.txt(注意文件名大小写,Linux 服务器区分大小写)。
上传到根目录:通过 FTP 工具(如 FileZilla)或服务器面板(如 cPanel),将文件上传到网站根目录(通常是 public_html 或 www 文件夹)。
验证是否生效:在浏览器中访问 https://你的域名.com/robots.txt,如果能看到文件内容,说明部署成功。
为了确保规则正确,建议用以下工具测试:
Google Search Console:进入“robots.txt 测试工具”,输入网址即可检查语法错误。
百度搜索资源平台:通过“robots 工具”验证文件是否被正确识别。
Sitebulb:本地 SEO 工具,可模拟爬虫行为,测试哪些页面会被拦截。
Q:修改 robots.txt 后多久生效? A:大部分爬虫会在 24-48 小时内重新抓取 robots.txt,建议耐心等待 2-3 天再查看效果。
Q:误拦截了搜索引擎怎么办? A:如果发现百度或谷歌收录下降,检查是否错误添加了 Disallow: / 给 User-agent: *。正确做法是单独指定要拦截的爬虫,而不是一刀切。
Q:没有 robots.txt 会怎样? A:爬虫会默认爬取所有可访问页面,可能导致隐私泄露或服务器负载过高。建议所有网站都部署 robots.txt。
配置好 robots.txt 不是一劳永逸的,你需要定期监控爬虫访问情况,及时发现新的恶意爬虫。
通过服务器日志或 Google Analytics 可以查看爬虫活动:
服务器日志:Apache 日志通常位于 /var/log/apache2/access.log,Nginx 日志在 /var/log/nginx/access.log。搜索 User-agent 字段即可看到爬虫名称。
Google Analytics:在“受众 > 技术 > 浏览器 & OS”中,筛选包含“bot”或“spider”的关键词,查看垃圾流量占比。
专用工具:推荐使用 Cloudflare、Sucuri 等安全服务,它们能自动识别并拦截恶意爬虫,还提供详细的流量分析报告。
恶意爬虫层出不穷,建议每季度检查一次新出现的爬虫。以下是 2024 年新增的几种恶意爬虫,记得加入你的拦截列表:
OmgiliBot:频繁爬取论坛内容,可能导致数据库压力过大。
Sogou web spider:搜狗爬虫,国内用户较少但爬取频率高。
Exabot:法国搜索引擎爬虫,非必要可拦截。
回顾从被垃圾爬虫折磨得焦头烂额,到用一份小小的 robots.txt 文件解决问题的经历,这个过程说明真正的“细节决定成败”。客户优化后,不仅服务器费用降了 75%,网站加载速度从 3.2 秒提升到 1.8 秒,连 Google 的 Core Web Vitals 得分都从“需要改进”变成了“良好”。
记住,robots.txt 不是可有可无的文件,它是网站安全的第一道防线。
最后,附上本文提到的所有资源链接:
腾讯云云鼎实验室恶意爬虫报告:http://m.toutiao.com/group/6580259578942849549/
Google Search Console robots 测试工具:https://search.google.com/search-console/robots-txt
百度搜索资源平台:https://ziyuan.baidu.com/robots/
专注于数据分析和AI营销策略研究,拥有多年数字营销经验,曾为多家企业提供AI优化解决方案。

扫码关注获取更多资讯