术语 · 术语
可爬取性
可抓取性是搜索爬虫发现、请求并访问某个页面或文件的基础技术能力。
可爬取性是搜索可见度的技术入口。页面内容再好,如果爬虫找不到、不能请求、被 robots 规则挡住,或拿不到有用响应,就很难进入后续搜索流程。
为什么重要
SEO、GEO 和 AI 答案可见度都依赖可访问来源。不能被爬取的页面,很难成为搜索结果、支持链接或 AI 答案引用来源。
和相邻概念的区别
Crawling 是实际抓取行为;crawlability 是能否被抓取的条件;indexing 是抓取后是否被存储和组织。
示例
GET /glossary/robots-txt/
Status: 200
Canonical route: /glossary/robots-txt/
Robots access: allowed
团队如何使用
团队发布新页面、改 robots.txt、迁移 URL 或发现页面未被索引时,会检查内部链接、状态码、canonical、robots 规则和渲染内容。
常见误解
公开 URL 不等于可爬取。爬虫还需要发现路径、访问权限和可处理的内容。
继续阅读
从这个定义进入相邻概念、主题分组和下一步阅读路径。