术语 · 术语

Robots.txt

Robots.txt 是用于给爬虫提供网站路径访问规则的文本文件。

更新 2026年6月3日 审阅 2026年6月3日 zh-cn

Robots.txt 通常位于 /robots.txt,告诉合规爬虫哪些路径可以或不可以请求。它是爬取控制,不是索引控制,也不是安全边界。

为什么重要

过宽的 robots 规则可能阻止重要页面被抓取,从而削弱 SEO 和 AI 搜索来源可用性。合理规则则能减少无价值路径被爬取。

和相邻概念的区别

Robots.txt 控制爬取;meta robots 和 noindex 控制页面级索引和展示,而且必须在爬虫能读取页面后才生效。

示例

User-agent: *
Disallow: /raw/
Disallow: /admin/
Allow: /

Sitemap: https://www.example.com/sitemap.xml

团队如何使用

团队上线站点、调整 staging、迁移路径或诊断爬取下降时检查 robots.txt。

常见误解

Robots.txt 不是删除搜索结果的可靠方法,也不是保护私密内容的方法。

继续阅读

从这个定义进入相邻概念、主题分组和下一步阅读路径。