Glossaire · Glossaire

Robots.txt

Robots.txt est un fichier du site qui communique des règles d'accès aux crawlers pour certaines parties d'un site.

Mis à jour 3 juin 2026 Relu 3 juin 2026 fr

Robots.txt se trouve généralement à la racine du domaine et indique quelles routes les crawlers compatibles ne devraient pas explorer. C’est un signal d’accès, pas un outil de confidentialité.

Pourquoi c’est important

Il évite que les crawlers dépensent des ressources dans des zones peu utiles et protège l’exploration contre les filtres infinis ou recherches internes.

Différence avec les notions proches

Robots.txt ne retire pas une URL de l’index si elle a été découverte autrement. Pour exclure des résultats, on utilise noindex, à condition que le crawler voie la directive.

Exemple

Bloquer une zone de test ou une route de paramètres peut réduire le bruit d’exploration.

User-agent: *
Disallow: /internal-search/
Allow: /

Comment les équipes l’utilisent

Les équipes relisent robots.txt avant de publier de nouvelles sections, migrer des URLs ou diagnostiquer une page non explorée.

Malentendu fréquent

Ce n’est pas une barrière de sécurité. Tout le monde peut lire le fichier et les crawlers non coopératifs peuvent l’ignorer.

Lire ensuite

Utilisez ces parcours pour passer de la definition aux notions proches, groupes thematiques et guides.