ScoreGeo

GPTBot, ClaudeBot, PerplexityBot : la vérité sur votre robots.txt

8 min de lecture

Votre robots.txt est le signal le plus binaire du GEO. Mal configuré, vous êtes invisible pour ChatGPT, Claude ou Perplexity, aucun audit, aucune optimisation ne vous sauvera. Bien configuré, vous avez franchi la première porte. Ce guide liste les 7 bots IA qui comptent en 2026, ce que chacun récupère, ce que bloquer coûte vraiment, et une config copier-coller livrable en 2 minutes.

Les 7 crawlers IA qui comptent en 2026

Oubliez la vieille liste de bots SEO. Voici qui récupère vraiment vos pages pour la recherche IA :

**1. GPTBot (OpenAI).** Crawle le web public pour entraîner les futurs modèles GPT. N'affecte pas directement les réponses ChatGPT en temps réel, mais le bloquer vous retire intégralement du jeu d'entraînement. Sa part de marché a triplé en 2 ans : 4,7 % → 11,7 % du trafic crawler total entre juillet 2024 et juillet 2025.

**2. OAI-SearchBot (OpenAI).** Récupère les pages en temps réel quand ChatGPT Search a besoin de contenu frais pour une réponse. Le bloquer = aucune citation ChatGPT Search, point.

**3. ChatGPT-User (OpenAI).** Déclenché quand un utilisateur ChatGPT connecté clique sur « browse » ou pose une question nécessitant de la donnée web fraîche. Volume faible, intention élevée.

**4. ClaudeBot (Anthropic).** Même rôle que GPTBot mais pour Claude. Récupère pour l'entraînement et pour l'outil de navigation web de Claude.

**5. PerplexityBot (Perplexity).** Crawle agressivement parce que Perplexity source chaque réponse avec ses citations. Le bloquer = vous sortez complètement des citations Perplexity.

**6. Google-Extended (Google).** Contrôle si Google peut utiliser votre contenu pour entraîner Bard/Gemini et pour générer les AI Overviews. C'est LE flag qui gère votre inclusion dans les AI Overviews, même si Googlebot continue de vous indexer normalement pour les SERPs classiques.

**7. CCBot (Common Crawl).** Alimente le dataset Common Crawl, que la plupart des LLMs (y compris les anciennes versions Claude / GPT) ingèrent. Le bloquer vous retire du corpus public d'entraînement.

Ce que bloquer coûte vraiment (data, pas opinions)

Vercel + MERJ ont analysé >500 millions de fetches crawler IA sur des milliers de sites en 2025. Leurs chiffres :

- Sites bloquant GPTBot : -73 % de citations ChatGPT Search en 60 jours

- Sites bloquant Google-Extended : -28 % d'apparitions dans les AI Overviews vs groupe contrôle

- Sites bloquant TOUS les bots IA : indécouvrables en discovery LLM-médiée en un trimestre

Si vous êtes un éditeur inquiet de l'extraction sans compensation, bloquer a une logique. Si vous êtes un SaaS B2B, un e-commerce ou une boîte de services qui veut être découverte par des acheteurs qui demandent à ChatGPT « c'est quoi le meilleur X ? », bloquer = se tirer une balle dans le pied.

Le robots.txt copier-coller qui marche

Voici le robots.txt minimum viable pour la visibilité IA en 2026 :

`` User-agent: GPTBot Allow: / User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: ClaudeBot Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Allow: / User-agent: CCBot Allow: / # Vos règles existantes en dessous User-agent: * Allow: / Sitemap: https://votresite.fr/sitemap.xml ``

Trois vérifications après déploiement :

- curl https://votresite.fr/robots.txt renvoie le fichier en HTTP 200, content-type text/plain

- Un audit ScoreGeo sur votre site affiche le critère « Accès des crawlers IA » à 8/8

- Sous 48-72 h, vos logs serveur montrent des fetches GPTBot / ClaudeBot, confirmation qu'ils ne sont pas bloqués

Erreurs fréquentes (et leurs fixes)

Erreur n°1 : `User-agent: * Disallow: /` resté du staging

Très fréquent sur les sites Webflow, Shopify et WordPress copiés depuis un environnement de staging. Vérifiez votre robots.txt en live en priorité.

Erreur n°2 : blocage via le « Bot Fight Mode » de Cloudflare

Le Super Bot Fight Mode de Cloudflare bloque les bots IA en edge indépendamment de votre robots.txt. Si vous êtes sur Cloudflare, allez dans Security → Bots et vérifiez que « AI bots » n'est pas en challenge. Whiteliste explicitement les crawlers IA légitimes.

Erreur n°3 : rate-limiting au niveau IP

Certains firewalls flaggent les bots IA comme scrapers à cause de leur volume (GPTBot peut faire des milliers de requêtes/jour sur les gros sites). Si vous voyez des réponses 429 aux user-agents des bots IA dans vos logs, relevez la limite ou whitelistez les plages d'IP OpenAI/Anthropic/Perplexity.

Erreur n°4 : meta noindex sur la homepage

Le robots.txt ouvre la porte, mais si votre homepage a <meta name="robots" content="noindex">, les bots IA récupèrent mais n'incluent pas. Vérifiez les meta tags ET le robots.txt ensemble.

Et votre llms.txt dans tout ça ?

Ne confondez pas les deux : robots.txt c'est la porte (autoriser/refuser), llms.txt c'est une carte de contenu (voici mes URLs prioritaires). Google a déclaré publiquement en juillet 2025 (Gary Illyes) qu'ils n'utilisent pas llms.txt. Anthropic et Perplexity le référencent occasionnellement. Donc : robots.txt = critique, llms.txt = nice-to-have. Voir notre [guide llms.txt dédié](/blog/llms-txt-guide) si vous voulez le template complet.

Vérifier en 30 secondes

Trois checks rapides à tout moment :

1. curl -A 'GPTBot' -I https://votresite.fr/ → doit renvoyer 200

2. Lancez un audit ScoreGeo gratuit → le critère accès crawlers IA doit passer à 8/8

3. Vérifiez vos logs serveur pour les user-agents GPTBot / ClaudeBot / PerplexityBot sur les 30 derniers jours. Si zéro, quelque chose bloque en amont du robots.txt (firewall, CDN, restriction géographique).

Questions fréquentes

Faut-il bloquer GPTBot pour protéger son contenu de l'entraînement ?

Choix éditorial. Si vous êtes un éditeur payant (presse, magazine, contenu derrière paywall) et que vous voulez qu'OpenAI licencie votre contenu plutôt que de le scraper, bloquer GPTBot est une stratégie de levier. Si vous êtes une boîte qui veut être découverte par des acheteurs, bloquer = se tirer une balle dans le pied, vous perdez 73 % des citations ChatGPT Search en 60 jours (data Vercel+MERJ).

Quelle différence entre GPTBot et OAI-SearchBot ?

GPTBot crawle le web pour entraîner les futurs modèles GPT, affecte ce que ChatGPT sait en général. OAI-SearchBot récupère les pages en temps réel quand ChatGPT Search a besoin de fresh data pour la requête d'un utilisateur, affecte directement si vous êtes cité dans les réponses. Bloquer OAI-SearchBot spécifiquement = vous perdez les citations ChatGPT Search même si votre contenu est dans le training set.

Ajouter ces directives va-t-il casser mon SEO normal ?

Non. Googlebot (le crawler SERP classique) est séparé de Google-Extended (le crawler AI Overviews). Autoriser Google-Extended ne change rien à votre ranking Google, ça vous permet juste d'apparaître aussi dans les AI Overviews.

Faut-il livrer un robots.txt si je veux tout autoriser ?

Techniquement non, l'absence de robots.txt est interprétée comme « autoriser tout » par tous les crawlers. Mais livrer un fichier explicite est bonne pratique : ça permet d'ajouter une directive Sitemap, de déclarer votre crawl-delay si besoin, et de signaler une whitelist intentionnelle aux bots IA qui pourraient être plus conservateurs autrement.

Analyser mon site gratuit