Passer au contenu principal

Générateur robots.txt

Générez votre fichier robots.txt en ligne — constructeur visuel, modèles WordPress/e-commerce/SaaS, validation, téléchargement

Paramètres globaux
Aperçu robots.txt LIVE

          

robots.txt : guide complet pour le SEO

Le fichier robots.txt est un fichier texte placé à la racine de votre site qui indique aux robots d'indexation (Googlebot, Bingbot, etc.) quelles pages ils sont autorisés ou non à explorer. Bien configuré, il améliore l'efficacité de votre budget de crawl et protège vos pages privées des moteurs de recherche.

⚠️ robots.txt ≠ protection de données ! Le fichier robots.txt est une convention, pas une mesure de sécurité. Les robots malveillants ignorent ces directives. Pour protéger des données sensibles, utilisez une authentification ou des règles serveur.

Directives essentielles

DirectiveRôleExemple
User-agent Définit le robot ciblé. * = tous User-agent: Googlebot
Disallow Interdit l'accès à un chemin Disallow: /admin/
Allow Autorise explicitement un chemin (prioritaire sur Disallow) Allow: /admin/logo.png
Sitemap Déclare l'URL du sitemap XML Sitemap: https://exemple.com/sitemap.xml
Crawl-delay Délai en secondes entre deux requêtes Crawl-delay: 10
Host URL canonique du site (Yandex) Host: exemple.com

Robots les plus courants

Googlebot
Google — principal
Googlebot-Image
Google Images
Bingbot
Microsoft Bing
GPTBot
ChatGPT / OpenAI
anthropic-ai
Claude / Anthropic
facebookexternalhit
Meta / Facebook

Bonnes pratiques robots.txt

  • Toujours déclarer votre Sitemap: dans le robots.txt pour faciliter la découverte par Google.
  • Utilisez des barres obliques finales sur les répertoires : Disallow: /admin/ plutôt que /admin.
  • Un Disallow: vide signifie "tout autoriser". Un Disallow: / signifie "tout bloquer".
  • Bloquez les pages générées par paramètres de session (?session=) pour économiser le budget de crawl.
  • Vérifiez votre robots.txt avec Google Search Console → Exploration → Testeur robots.txt.

Questions fréquentes

Le fichier robots.txt doit être placé exactement à la racine de votre domaine : https://votresite.com/robots.txt. Il ne peut pas être dans un sous-répertoire. G... Le fichier robots.txt doit être placé exactement à la racine de votre domaine : https://votresite.com/robots.txt. Il ne peut pas être dans un sous-répertoire. Google vérifie ce chemin précis lors de chaque crawl.

Disallow empêche le robot d'explorer la page, mais Google peut quand même l'indexer s'il la trouve via un lien. La balise meta noindex indique à Google de ne pa... Disallow empêche le robot d'explorer la page, mais Google peut quand même l'indexer s'il la trouve via un lien. La balise meta noindex indique à Google de ne pas l'indexer, mais Google doit pouvoir explorer la page pour la lire. Pour désindexer complètement, utilisez les deux.

Pour bloquer les robots qui collectent des données pour l'entraînement d'IA, ajoutez des blocs spécifiques : User-agent: GPTBot / Disallow: / pour ChatGPT, et U... Pour bloquer les robots qui collectent des données pour l'entraînement d'IA, ajoutez des blocs spécifiques : User-agent: GPTBot / Disallow: / pour ChatGPT, et User-agent: anthropic-ai / Disallow: / pour Claude. D'autres robots comme CCBot (Common Crawl) alimentent également des modèles d'IA.

Pour tous les robots respectueux des standards (Googlebot, Bingbot…), oui. Mais les robots malveillants, scrapers et certains outils ignorent délibérément le ro... Pour tous les robots respectueux des standards (Googlebot, Bingbot…), oui. Mais les robots malveillants, scrapers et certains outils ignorent délibérément le robots.txt. Ce fichier n'est en aucun cas une mesure de sécurité — c'est une convention que les bons robots choisissent de respecter.

Mettez à jour votre robots.txt à chaque fois que votre structure de site change : ajout d'une section privée, migration, nouvelle technologie. Pensez aussi à vé... Mettez à jour votre robots.txt à chaque fois que votre structure de site change : ajout d'une section privée, migration, nouvelle technologie. Pensez aussi à vérifier régulièrement qu'aucune page importante n'est accidentellement bloquée via Google Search Console → Exploration → Testeur robots.txt.
Publicité
Lien copié !