Le GEO attire beaucoup de promesses creuses. Notre parti pris : chaque critère noté est rattaché à une preuve, avec son niveau de confiance. Et nous publions aussi ce que nous refusons de noter, parce que les preuves ne le justifient pas.
Les crawlers IA (GPTBot, ClaudeBot, PerplexityBot, CCBot) récupèrent le HTML brut mais N'EXÉCUTENT PAS le JavaScript. Une page rendue côté client leur apparaît vide : contenu, balises et schema invisibles. C'est la première cause d'invisibilité GEO.
Source : Vercel + Merj, « The Rise of the AI Crawler » (2024)OAI-SearchBot (ChatGPT Search), PerplexityBot, ClaudeBot et Applebot-Extended sont les robots qui SURFACENT les sources dans les réponses. Les bloquer dans robots.txt vous exclut directement de ces réponses.
Source : Docs OpenAI / Perplexity / AnthropicGPTBot et Google-Extended servent à l'ENTRAÎNEMENT, pas à la citation. Les bloquer est un choix légitime de protection de contenu et ne retire PAS le site des réponses : bloquer GPTBot ≠ sortir de ChatGPT Search ; bloquer Google-Extended ≠ sortir des AI Overviews (officiel Google).
Source : Google Search Central, Google-ExtendedConvention proposée en 2024, mais AUCUN crawler IA majeur ne la lit aujourd'hui. Google l'a confirmé ; les audits de logs (Semrush, Longato) montrent zéro visite. À ajouter éventuellement par anticipation, mais ce n'est pas un levier de citation actuel, on ne le compte pas dans le score.
Source : John Mueller (Google) + audits de logs Semrush/Longato (2025)Les moteurs récupèrent au niveau du passage. Donner la réponse en première phrase d'une section (avant les détails) la rend directement extractible et citable.
Source : Architecture RAG + Google Passage RankingUn passage qui ouvre sur « cela », « comme vu plus haut » perd son sens hors contexte. Or les LLM extraient des chunks isolés : chaque section doit se comprendre seule.
Source : Architecture RAG (retrieval par chunk)Les requêtes IA sont des questions. Un titre « Comment… ? / Qu'est-ce que… ? » suivi d'une réponse directe correspond exactement à ce qu'un LLM cherche à extraire pour répondre.
Source : Architecture RAG + retrieval par passageLes listes (à puces, numérotées) découpent l'information en éléments courts et autonomes, faciles à extraire et à reformuler par un LLM.
Source : Bonnes pratiques RAG / extractionLes tableaux comparatifs présentent des données structurées qu'un LLM peut reprendre directement. Pertinent surtout pour le contenu éditorial (comparatifs, specs), pas pour une page de listing.
Source : Bonnes pratiques contenu GEOUne hiérarchie de titres propre, sans saut de niveau, aide le moteur à comprendre la structure du document et à délimiter les passages cités.
Source : Sémantique HTML / accessibilitéUn sommaire avec ancres aide les moteurs à cartographier les sections d'un article long et à pointer vers le passage exact. Pertinent pour les articles, pas les pages courtes.
Source : Bonnes pratiques contenu long-formPlacer le contenu dans <main>/<article> (plutôt qu'une « div-soup ») améliore mesurablement ce que les pipelines de retrieval conservent : ils gardent article/main et jettent nav/sidebar/footer. Un fort ratio de texte dans la zone de contenu = meilleure extraction.
Source : HtmlRAG, Tan et al., WWW 2025Citer des sources d'autorité (liens vers institutions, études, presse) est le levier on-page le mieux prouvé pour être cité. Les LLM privilégient le contenu qui s'appuie sur des références vérifiables.
Source : Aggarwal et al., « GEO », KDD 2024Les chiffres précis et sourcés rendent le contenu factuel et facilement citable. Les moteurs génératifs reprennent volontiers les statistiques attribuées.
Source : Aggarwal et al., « GEO », KDD 2024Intégrer des citations attribuées (« Selon X, … », blockquote) augmente la citabilité : les LLM reprennent les affirmations rattachées à une source identifiée.
Source : Aggarwal et al., « GEO », KDD 2024Le contenu récent (dates de publication/mise à jour visibles) est davantage cité. Plusieurs études convergent ; les AI Overviews sont l'exception (biais de fraîcheur plus faible).
Source : Ahrefs (2025, ~17M citations)Le schema clarifie l'ENTITÉ (qui vous êtes, type de page) et alimente le knowledge graph. En revanche, le meilleur test contrôlé ne montre PAS de hausse directe de citation IA grâce au schema : utile pour la désambiguïsation, à ne pas survendre comme levier de citation.
Source : Test schema Ahrefs (2026, 1 885 pages)Mentionner des entités identifiables (personnes, organisations, lieux, produits) aide le moteur à relier le contenu au bon sujet dans son graphe de connaissances.
Source : Knowledge graph / entity groundingLe champ `sameAs` du schema relie votre marque/auteur à ses fiches de référence (Wikipedia, Wikidata, profils officiels), ce qui aide le moteur à vous identifier sans ambiguïté. Bonus utile surtout pour les marques/auteurs établis.
Source : Schema.org sameAs / knowledge graphRépéter excessivement un mot-clé est le SEUL facteur dont une expérience contrôlée a prouvé qu'il DÉGRADE la visibilité dans les réponses IA. À éviter absolument.
Source : Aggarwal et al., « GEO », KDD 2024On détecte les tournures d'écriture IA reconnaissables. AUCUNE preuve qu'elles réduisent la citation par les moteurs : ce signal n'entre donc PAS dans le score GEO. On le garde car un contenu trop générique nuit à votre image de marque et à la confiance, mais ce n'est pas un levier de citabilité.
Source : Analyses GEO 2026 (mythe de la pénalité « contenu IA »)Le title et le H1 donnent au moteur le sujet de la page le plus vite possible : un signal direct pour qu'il comprenne de quoi vous parlez avant même de lire le corps. C'est aussi un pilier SEO, et le SEO nourrit les AI Overviews de Google.
Source : Google Search Central / corrélation ranking-AIOC'est le facteur le plus SEO de la liste : snippet et taux de clic dans Google. Les IA lisent le corps de la page, pas la meta description, donc son effet GEO direct est faible. Elle reste utile car un bon SEO alimente les AI Overviews.
Source : Google Search Central (rôle de la meta description)Prérequis direct de crawlabilité : un serveur trop lent fait abandonner le crawler IA, qui repart sans le contenu. Seul cet aspect « vitesse » compte pour le GEO. Les Core Web Vitals visuels (LCP/CLS) relèvent surtout du SEO.
Source : Comportement des crawlers IA (timeout)Ce qui décide quelles sources les IA citent se joue beaucoup hors-site : être MENTIONNÉ sur le web (presse, blogs, Reddit, YouTube) ET l'autorité du domaine (netlinking, backlinks de qualité, surtout brandés). Les mentions ressortent comme le signal le plus corrélé, mais l'autorité compte aussi : les deux agissent ensemble. C'est pourquoi l'on-page est nécessaire mais pas suffisant.
Source : Ahrefs (75 000 marques, 2025)Les AI Overviews de Google puisent dans l'index normal : bien classer (top 20) reste fortement corrélé à être cité dans l'AIO. ChatGPT, lui, est découplé du classement classique. Les moteurs divergent.
Source : seoClarity / BrightEdge (2025)L'audit on-page est nécessaire mais pas suffisant. Le facteur le plus corrélé à la citation reste les mentions de marque hors-site. Et les moteurs sont instables : une citation observée un jour peut disparaître le lendemain. Nous présentons des prérequis mesurables, pas une garantie de citation.