你是否遇到过这样的情况：服务器带宽莫名跑满，页面加载速度越来越慢，后台统计显示大量不明IP访问，但真实用户却没增加几个？这很可能是你的网站正在被恶意爬虫疯狂“吸血”。

去年，客户的一个博客站点就遭遇过这种情况——单日流量飙升到 50 GB，服务器费用翻倍，最后发现 80% 的请求都来自几个陌生的爬虫程序。直到使用了一份优化后的 robots.txt 文件，一周内垃圾流量直接下降 76%，服务器负载恢复正常。

今天，我就把这份能精准拦截垃圾爬虫的实战指南分享出来，包含详细的规则解析、10 大恶意爬虫黑名单以及 step-by-step 的配置教程。

无论你是个人站长还是企业运维，这篇文章都能帮你省下大量服务器成本，让网站速度提升一个档次。

为什么你的网站需要robots.txt？

在讲具体规则之前，我们先搞清楚一个问题：robots.txt 到底是什么？

简单来说，robots.txt 是网站根目录下的一个纯文本文件，它就像给搜索引擎和爬虫程序的“交通指挥灯”，告诉它们哪些页面可以访问，哪些需要绕行。没有这个文件，爬虫就会像脱缰的野马，可能爬取你不想公开的内容（比如后台管理页面），或者因为频繁访问导致服务器瘫痪。

垃圾爬虫的三大危害

根据腾讯云云鼎实验室 2024 年的报告，恶意爬虫已占据全球网站流量的 35%，其中北京、天津、河北三地的恶意爬虫源 IP 占比高达 59.11%。这些爬虫主要带来以下风险：

服务器资源耗尽：某电商网站曾因 SemrushBot 高频爬取，导致服务器 CPU 占用率从 20% 飙升至 90%，正常用户无法访问，直接损失超 10 万元订单。
带宽成本剧增：我的博客在未拦截爬虫前，每月带宽费用要 800 多元，优化后降到 200 元以内，一年省下 7000 多块。
隐私信息泄露：ZoominfoBot 等商业爬虫会抓取企业联系方式、邮箱等信息，可能导致垃圾邮件和诈骗电话泛滥。

哪些爬虫需要拦截？

不是所有爬虫都是“坏东西”。像百度的 Baiduspider、谷歌的 Googlebot 这类搜索引擎爬虫，能帮助你的网站被更多用户发现，应该允许访问。但以下 10 种爬虫，如非必要建议屏蔽：

User-agent	所属公司/项目	主要危害
AhrefsBot	Ahrefs	日均爬取超 10 万次，占用大量资源
MJ12bot	Majestic-12	高频请求导致服务器负载过高
DotBot	DotNetDotCom.org	爬取频率无限制，影响正常访问
SemrushBot	Semrush	商业数据抓取，带宽消耗大
ZoominfoBot	ZoomInfo	抓取企业隐私信息，引发骚扰
BLEXBot	Content ad	窃取内容生成广告，侵犯版权
aiHitBot	aiHit	企业数据采集，可能导致信息泄露
Mail.RU_Bot	Mail.RU	俄罗斯搜索引擎，国内用户极少
XoviBot	Xovi	SEO 竞争分析工具，非必要爬取
MauiBot	Unknown	疑似恶意爬虫，行为模式异常

手把手配置robots.txt：

基础规则：3分钟看懂语法

robots.txt 的语法其实很简单，主要由两种指令组成：

User-agent: 指定要控制的爬虫名称，* 代表所有爬虫。
Disallow: 指定禁止爬取的路径，/ 代表网站根目录。

例如，要禁止 AhrefsBot 访问整个网站，规则就是：

User-agent: AhrefsBot

Disallow: /

如果只想禁止它爬取 /admin/ 目录，则写成：

User-agent: AhrefsBot

Disallow: /admin/

完整版防爬虫规则（直接复制使用）

以下是我整理的通用版 robots.txt 文件，包含上述 10 大垃圾爬虫的拦截规则，同时允许主流搜索引擎正常抓取：

复制

允许搜索引擎爬虫

User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /

拦截垃圾爬虫

User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: XoviBot
Disallow: /
User-agent: MauiBot
Disallow: /

禁止所有爬虫访问后台和隐私页面

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /admin/
Disallow: /login/
Disallow: /register/
Disallow: /*?replytocom=*
Disallow: /?s=*  # 禁止搜索结果页爬取

网站地图（可选，有助于搜索引擎抓取）Sitemap: https://你的域名.com/sitemap.xml

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /admin/
Disallow: /login/
Disallow: /register/
Disallow: /*?replytocom=*
Disallow: /?s=*  # 禁止搜索结果页爬取

Sitemap: https://youdomain.com/sitemap.xml

进阶技巧：针对不同网站类型的优化

以上规则适用于大部分网站，但不同类型的站点还有特殊需求：

WordPress 网站

WordPress 用户需要特别注意保护 /wp-admin/ 和 /wp-content/plugins/ 目录，这些地方通常包含敏感信息。可以在规则中添加：

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /*wp-*.php
Disallow: /*?attachment_id=*

电商网站

电商网站要防止价格数据被竞争对手爬取，建议禁止爬虫访问产品筛选和排序页面：

User-agent: *
Disallow: /product/*?sort=*
Disallow: /product/*?filter=*
Disallow: /checkout/
Disallow: /cart/

企业官网

企业官网重点保护联系表单和员工信息页：

User-agent: *
Disallow: /contact/
Disallow: /staff/
Disallow: /privacy-policy/

如何部署和测试robots.txt？

部署步骤：3步搞定

创建文件：用记事本或 VS Code 新建一个文本文件，粘贴上面的规则，保存为 robots.txt（注意文件名大小写，Linux 服务器区分大小写）。
上传到根目录：通过 FTP 工具（如 FileZilla）或服务器面板（如 cPanel），将文件上传到网站根目录（通常是 public_html 或 www 文件夹）。
验证是否生效：在浏览器中访问 https://你的域名.com/robots.txt，如果能看到文件内容，说明部署成功。

测试工具推荐

为了确保规则正确，建议用以下工具测试：

Google Search Console：进入“robots.txt 测试工具”，输入网址即可检查语法错误。
百度搜索资源平台：通过“robots 工具”验证文件是否被正确识别。
Sitebulb：本地 SEO 工具，可模拟爬虫行为，测试哪些页面会被拦截。

常见问题解答

Q：修改 robots.txt 后多久生效？ A：大部分爬虫会在 24-48 小时内重新抓取 robots.txt，建议耐心等待 2-3 天再查看效果。

Q：误拦截了搜索引擎怎么办？ A：如果发现百度或谷歌收录下降，检查是否错误添加了 Disallow: / 给 User-agent: *。正确做法是单独指定要拦截的爬虫，而不是一刀切。

Q：没有 robots.txt 会怎样？ A：爬虫会默认爬取所有可访问页面，可能导致隐私泄露或服务器负载过高。建议所有网站都部署 robots.txt。

监控与持续优化

配置好 robots.txt 不是一劳永逸的，你需要定期监控爬虫访问情况，及时发现新的恶意爬虫。

如何查看爬虫访问日志？

通过服务器日志或 Google Analytics 可以查看爬虫活动：

服务器日志：Apache 日志通常位于 /var/log/apache2/access.log，Nginx 日志在 /var/log/nginx/access.log。搜索 User-agent 字段即可看到爬虫名称。
Google Analytics：在“受众 > 技术 > 浏览器 & OS”中，筛选包含“bot”或“spider”的关键词，查看垃圾流量占比。
专用工具：推荐使用 Cloudflare、Sucuri 等安全服务，它们能自动识别并拦截恶意爬虫，还提供详细的流量分析报告。

定期更新爬虫黑名单

恶意爬虫层出不穷，建议每季度检查一次新出现的爬虫。以下是 2024 年新增的几种恶意爬虫，记得加入你的拦截列表：

OmgiliBot：频繁爬取论坛内容，可能导致数据库压力过大。
Sogou web spider：搜狗爬虫，国内用户较少但爬取频率高。
Exabot：法国搜索引擎爬虫，非必要可拦截。

总结：一份robots.txt带来的连锁反应

回顾从被垃圾爬虫折磨得焦头烂额，到用一份小小的 robots.txt 文件解决问题的经历，这个过程说明真正的“细节决定成败”。客户优化后，不仅服务器费用降了 75%，网站加载速度从 3.2 秒提升到 1.8 秒，连 Google 的 Core Web Vitals 得分都从“需要改进”变成了“良好”。

记住，robots.txt 不是可有可无的文件，它是网站安全的第一道防线。

最后，附上本文提到的所有资源链接：

腾讯云云鼎实验室恶意爬虫报告：http://m.toutiao.com/group/6580259578942849549/
Google Search Console robots 测试工具：https://search.google.com/search-console/robots-txt
百度搜索资源平台：https://ziyuan.baidu.com/robots/

用robots.txt拦截99%垃圾爬虫的实战指南