Glossaire · Glossaire
Robots.txt
Robots.txt est un fichier du site qui communique des règles d'accès aux crawlers pour certaines parties d'un site.
Robots.txt se trouve généralement à la racine du domaine et indique quelles routes les crawlers compatibles ne devraient pas explorer. C’est un signal d’accès, pas un outil de confidentialité.
Pourquoi c’est important
Il évite que les crawlers dépensent des ressources dans des zones peu utiles et protège l’exploration contre les filtres infinis ou recherches internes.
Différence avec les notions proches
Robots.txt ne retire pas une URL de l’index si elle a été découverte autrement. Pour exclure des résultats, on utilise noindex, à condition que le crawler voie la directive.
Exemple
Bloquer une zone de test ou une route de paramètres peut réduire le bruit d’exploration.
User-agent: *
Disallow: /internal-search/
Allow: /
Comment les équipes l’utilisent
Les équipes relisent robots.txt avant de publier de nouvelles sections, migrer des URLs ou diagnostiquer une page non explorée.
Malentendu fréquent
Ce n’est pas une barrière de sécurité. Tout le monde peut lire le fichier et les crawlers non coopératifs peuvent l’ignorer.
Lire ensuite
Utilisez ces parcours pour passer de la definition aux notions proches, groupes thematiques et guides.