术语 · 术语

可爬取性

可抓取性是搜索爬虫发现、请求并访问某个页面或文件的基础技术能力。

更新 2026年6月3日审阅 2026年6月3日 zh-cn

可爬取性是搜索可见度的技术入口。页面内容再好，如果爬虫找不到、不能请求、被 robots 规则挡住，或拿不到有用响应，就很难进入后续搜索流程。

为什么重要

SEO、GEO 和 AI 答案可见度都依赖可访问来源。不能被爬取的页面，很难成为搜索结果、支持链接或 AI 答案引用来源。

Crawling 是实际抓取行为；crawlability 是能否被抓取的条件；indexing 是抓取后是否被存储和组织。

GET /glossary/robots-txt/
Status: 200
Canonical route: /glossary/robots-txt/
Robots access: allowed

团队发布新页面、改 robots.txt、迁移 URL 或发现页面未被索引时，会检查内部链接、状态码、canonical、robots 规则和渲染内容。

公开 URL 不等于可爬取。爬虫还需要发现路径、访问权限和可处理的内容。

从这个定义进入相邻概念、主题分组和下一步阅读路径。