Glosario · Glosario

Robots.txt

Robots.txt es un archivo del sitio que comunica reglas de acceso de crawler para partes de una web.

Actualizado 3 jun 2026 Revisado 3 jun 2026 es

Robots.txt vive normalmente en la raíz del dominio y permite indicar qué rutas no deberían rastrear crawlers compatibles. Es una señal de acceso, no una herramienta de privacidad.

Por qué importa

Evita que crawlers gasten recursos en áreas poco útiles y protege rutas que no aportan a búsqueda, como filtros infinitos o resultados internos.

Diferencia con conceptos cercanos

Robots.txt no elimina una URL del índice si ya fue descubierta por otros medios. Para excluir de resultados se usa noindex, siempre que el crawler pueda ver la directiva.

Ejemplo

Bloquear un área de pruebas o una ruta de parámetros puede reducir ruido de rastreo.

User-agent: *
Disallow: /internal-search/
Allow: /

Cómo lo usan los equipos

Los equipos revisan robots.txt antes de publicar nuevas secciones, migrar URLs o diagnosticar páginas que no se rastrean.

Malentendido común

No es una barrera de seguridad. Cualquier persona puede leer el archivo y crawlers no cooperativos pueden ignorarlo.

Leer despues

Usa estas rutas para pasar de la definicion a conceptos cercanos, grupos tematicos y guias.