术语 · 术语

Robots.txt

Robots.txt 是用于给爬虫提供网站路径访问规则的文本文件。

更新 2026年6月3日审阅 2026年6月3日 zh-cn

Robots.txt 通常位于 /robots.txt，告诉合规爬虫哪些路径可以或不可以请求。它是爬取控制，不是索引控制，也不是安全边界。

为什么重要

过宽的 robots 规则可能阻止重要页面被抓取，从而削弱 SEO 和 AI 搜索来源可用性。合理规则则能减少无价值路径被爬取。

Robots.txt 控制爬取；meta robots 和 noindex 控制页面级索引和展示，而且必须在爬虫能读取页面后才生效。

User-agent: *
Disallow: /raw/
Disallow: /admin/
Allow: /

Sitemap: https://www.example.com/sitemap.xml

团队上线站点、调整 staging、迁移路径或诊断爬取下降时检查 robots.txt。

Robots.txt 不是删除搜索结果的可靠方法，也不是保护私密内容的方法。

从这个定义进入相邻概念、主题分组和下一步阅读路径。