Méthodologie

Rien n'est inventé. Tout est sourcé.

Le GEO attire beaucoup de promesses creuses. Notre parti pris : chaque critère noté est rattaché à une preuve, avec son niveau de confiance. Et nous publions aussi ce que nous refusons de noter, parce que les preuves ne le justifient pas.

Étude contrôlée expérience contrôléeSource officielle source officielle d'un moteurCorrélation étude de corrélationInférence technique raisonnement technique

Crawlability

20 %

Rendu côté serveur (HTML lisible par les bots IA)

Source officielleBloquant : une SPA non rendue côté serveur est quasi absente des réponses IA.

Les crawlers IA (GPTBot, ClaudeBot, PerplexityBot, CCBot) récupèrent le HTML brut mais N'EXÉCUTENT PAS le JavaScript. Une page rendue côté client leur apparaît vide : contenu, balises et schema invisibles. C'est la première cause d'invisibilité GEO.

Source : Vercel + Merj, « The Rise of the AI Crawler » (2024)

Bots de citation autorisés (robots.txt)

Source officielleBloquant : page exclue des réponses du moteur concerné.

OAI-SearchBot (ChatGPT Search), PerplexityBot, ClaudeBot et Applebot-Extended sont les robots qui SURFACENT les sources dans les réponses. Les bloquer dans robots.txt vous exclut directement de ces réponses.

Source : Docs OpenAI / Perplexity / Anthropic

Bots d'entraînement (information, pas un problème)

Source officielle

GPTBot et Google-Extended servent à l'ENTRAÎNEMENT, pas à la citation. Les bloquer est un choix légitime de protection de contenu et ne retire PAS le site des réponses : bloquer GPTBot ≠ sortir de ChatGPT Search ; bloquer Google-Extended ≠ sortir des AI Overviews (officiel Google).

Source : Google Search Central, Google-Extended

llms.txt, optionnel, aucun effet prouvé

Source officielle

Convention proposée en 2024, mais AUCUN crawler IA majeur ne la lit aujourd'hui. Google l'a confirmé ; les audits de logs (Semrush, Longato) montrent zéro visite. À ajouter éventuellement par anticipation, mais ce n'est pas un levier de citation actuel, on ne le compte pas dans le score.

Source : John Mueller (Google) + audits de logs Semrush/Longato (2025)

Structure

25 %

Réponse directe (BLUF) sous les titres-questions

Inférence technique

Les moteurs récupèrent au niveau du passage. Donner la réponse en première phrase d'une section (avant les détails) la rend directement extractible et citable.

Source : Architecture RAG + Google Passage Ranking

Passages auto-suffisants

Inférence technique

Un passage qui ouvre sur « cela », « comme vu plus haut » perd son sens hors contexte. Or les LLM extraient des chunks isolés : chaque section doit se comprendre seule.

Source : Architecture RAG (retrieval par chunk)

Titres formulés en questions

Inférence technique

Les requêtes IA sont des questions. Un titre « Comment… ? / Qu'est-ce que… ? » suivi d'une réponse directe correspond exactement à ce qu'un LLM cherche à extraire pour répondre.

Source : Architecture RAG + retrieval par passage

Listes structurées

Inférence technique

Les listes (à puces, numérotées) découpent l'information en éléments courts et autonomes, faciles à extraire et à reformuler par un LLM.

Source : Bonnes pratiques RAG / extraction

Tableaux de données

Inférence technique

Les tableaux comparatifs présentent des données structurées qu'un LLM peut reprendre directement. Pertinent surtout pour le contenu éditorial (comparatifs, specs), pas pour une page de listing.

Source : Bonnes pratiques contenu GEO

Hiérarchie des titres (H1→H2→H3)

Inférence technique

Une hiérarchie de titres propre, sans saut de niveau, aide le moteur à comprendre la structure du document et à délimiter les passages cités.

Source : Sémantique HTML / accessibilité

Sommaire (table des matières)

Inférence technique

Un sommaire avec ancres aide les moteurs à cartographier les sections d'un article long et à pointer vers le passage exact. Pertinent pour les articles, pas les pages courtes.

Source : Bonnes pratiques contenu long-form

HTML5 sémantique (main / article)

Étude contrôléeLe HTML structuré bat le texte brut pour le RAG (étude HtmlRAG).

Placer le contenu dans <main>/<article> (plutôt qu'une « div-soup ») améliore mesurablement ce que les pipelines de retrieval conservent : ils gardent article/main et jettent nav/sidebar/footer. Un fort ratio de texte dans la zone de contenu = meilleure extraction.

Source : HtmlRAG, Tan et al., WWW 2025

Authority

25 %

Sources externes citées

Étude contrôléeJusqu'à +115 % de visibilité sur les pages peu classées.

Citer des sources d'autorité (liens vers institutions, études, presse) est le levier on-page le mieux prouvé pour être cité. Les LLM privilégient le contenu qui s'appuie sur des références vérifiables.

Source : Aggarwal et al., « GEO », KDD 2024

Données chiffrées et statistiques

Étude contrôlée+41 % de visibilité (étude contrôlée).

Les chiffres précis et sourcés rendent le contenu factuel et facilement citable. Les moteurs génératifs reprennent volontiers les statistiques attribuées.

Source : Aggarwal et al., « GEO », KDD 2024

Citations d'experts nommés

Étude contrôlée+28 % de visibilité (étude contrôlée).

Intégrer des citations attribuées (« Selon X, … », blockquote) augmente la citabilité : les LLM reprennent les affirmations rattachées à une source identifiée.

Source : Aggarwal et al., « GEO », KDD 2024

Fraîcheur du contenu

CorrélationContenu cité ~25 % plus frais que la moyenne organique.

Le contenu récent (dates de publication/mise à jour visibles) est davantage cité. Plusieurs études convergent ; les AI Overviews sont l'exception (biais de fraîcheur plus faible).

Source : Ahrefs (2025, ~17M citations)

Knowledge

15 %

Données structurées (schema.org / JSON-LD)

Étude contrôléeEffet ~nul sur la citation directe (mais utile pour l'entité).

Le schema clarifie l'ENTITÉ (qui vous êtes, type de page) et alimente le knowledge graph. En revanche, le meilleur test contrôlé ne montre PAS de hausse directe de citation IA grâce au schema : utile pour la désambiguïsation, à ne pas survendre comme levier de citation.

Source : Test schema Ahrefs (2026, 1 885 pages)

Entités nommées

Inférence technique

Mentionner des entités identifiables (personnes, organisations, lieux, produits) aide le moteur à relier le contenu au bon sujet dans son graphe de connaissances.

Source : Knowledge graph / entity grounding

Ancrage d'entité (sameAs)

Inférence technique

Le champ `sameAs` du schema relie votre marque/auteur à ses fiches de référence (Wikipedia, Wikidata, profils officiels), ce qui aide le moteur à vous identifier sans ambiguïté. Bonus utile surtout pour les marques/auteurs établis.

Source : Schema.org sameAs / knowledge graph

Quality

15 %

Sur-optimisation (keyword stuffing)

Étude contrôlée−10 % (pire que ne rien faire).

Répéter excessivement un mot-clé est le SEUL facteur dont une expérience contrôlée a prouvé qu'il DÉGRADE la visibilité dans les réponses IA. À éviter absolument.

Source : Aggarwal et al., « GEO », KDD 2024

Empreinte IA (signal de marque, hors score)

Inférence technique

On détecte les tournures d'écriture IA reconnaissables. AUCUNE preuve qu'elles réduisent la citation par les moteurs : ce signal n'entre donc PAS dans le score GEO. On le garde car un contenu trop générique nuit à votre image de marque et à la confiance, mais ce n'est pas un levier de citabilité.

Source : Analyses GEO 2026 (mythe de la pénalité « contenu IA »)

Fondations SEO (le socle)

Balise title + H1

Inférence technique

Le title et le H1 donnent au moteur le sujet de la page le plus vite possible : un signal direct pour qu'il comprenne de quoi vous parlez avant même de lire le corps. C'est aussi un pilier SEO, et le SEO nourrit les AI Overviews de Google.

Source : Google Search Central / corrélation ranking-AIO

Meta description

Inférence technique

C'est le facteur le plus SEO de la liste : snippet et taux de clic dans Google. Les IA lisent le corps de la page, pas la meta description, donc son effet GEO direct est faible. Elle reste utile car un bon SEO alimente les AI Overviews.

Source : Google Search Central (rôle de la meta description)

Temps de réponse serveur (TTFB)

Inférence technique

Prérequis direct de crawlabilité : un serveur trop lent fait abandonner le crawler IA, qui repart sans le contenu. Seul cet aspect « vitesse » compte pour le GEO. Les Core Web Vitals visuels (LCP/CLS) relèvent surtout du SEO.

Source : Comportement des crawlers IA (timeout)

Off-site (version complète)

Notoriété hors-site (mentions + autorité)

CorrélationMentions de marque : corrélation 0,664 (étude Ahrefs).

Ce qui décide quelles sources les IA citent se joue beaucoup hors-site : être MENTIONNÉ sur le web (presse, blogs, Reddit, YouTube) ET l'autorité du domaine (netlinking, backlinks de qualité, surtout brandés). Les mentions ressortent comme le signal le plus corrélé, mais l'autorité compte aussi : les deux agissent ensemble. C'est pourquoi l'on-page est nécessaire mais pas suffisant.

Source : Ahrefs (75 000 marques, 2025)

Classement Google classique (pour les AI Overviews)

Corrélation

Les AI Overviews de Google puisent dans l'index normal : bien classer (top 20) reste fortement corrélé à être cité dans l'AIO. ChatGPT, lui, est découplé du classement classique. Les moteurs divergent.

Source : seoClarity / BrightEdge (2025)

Ce que nous refusons de noter

Les mythes GEO

llms.txt comme levier : aucun crawler IA majeur ne le lit aujourd'hui (Google l'a confirmé ; audits de logs Semrush/Longato à zéro visite). On le détecte, on ne le score pas.
Bloquer GPTBot / Google-Extended = perte de citation : faux. Ce sont des bots d'entraînement. Bloquer GPTBot ne vous retire pas de ChatGPT Search ; bloquer Google-Extended ne vous retire pas des AI Overviews (officiel Google).
Le schema booste la citation : le meilleur test contrôlé (Ahrefs, 2026) montre un effet nul, voire négatif sur les AI Overviews. On garde le schema pour la clarté d'entité, à poids réduit.
Pénaliser le « contenu écrit par IA » : aucune preuve que les moteurs réduisent la citation d'un texte parce qu'il « sonne IA ». On l'affiche en info qualité de marque, hors score.

Honnêteté

L'audit on-page est nécessaire mais pas suffisant. Le facteur le plus corrélé à la citation reste les mentions de marque hors-site. Et les moteurs sont instables : une citation observée un jour peut disparaître le lendemain. Nous présentons des prérequis mesurables, pas une garantie de citation.