Méthodo12 juin 2026·9 min de lecture

Suivi de visibilité IA : les vraies limites des prompt trackers (et pourquoi on les assume)

Les sceptiques des prompt trackers soulèvent de vrais problèmes : non-déterminisme, API qui n'est pas ChatGPT.com, zero-click. On les prend au sérieux, et voici notre méthode.

Par Maxence Cailleau

L'accroche

Régulièrement, une charge revient contre les outils qui mesurent votre présence dans les réponses IA : ils seraient du vent. Souvent, la critique vient d'éditeurs d'analytics de trafic référent, qui ont intérêt à dévaloriser le suivi de prompts. Mais écarter l'argument pour cette seule raison serait paresseux. Parce que sur le fond, une partie de ces critiques est juste. Plutôt que de la balayer, je préfère la poser noir sur blanc, et expliquer comment nous la traitons. Un outil qui assume ses limites est plus fiable qu'un outil qui prétend ne pas en avoir.

En une phrase

Un prompt tracker ne mesure pas une vérité absolue : il échantillonne un système probabiliste pour en estimer une tendance. Bien utilisé, c'est un instrument de pilotage solide. Mal compris, c'est une source de fausses certitudes.

Les trois critiques légitimes (et elles le sont vraiment)

1. Les LLM sont non déterministes

Posez deux fois la même question à ChatGPT et vous obtiendrez deux réponses différentes. Parfois votre marque est citée, parfois non, sans que rien n'ait changé chez vous. C'est la critique la plus évidente : si une réponse isolée est aléatoire, à quoi bon la mesurer ?

La réponse tient en un mot : distribution. Une mesure unique ne vaut effectivement rien. Ce qui a du sens, c'est la fréquence d'apparition sur un grand nombre d'exécutions, et son évolution dans le temps. Si vous êtes cité 3 fois sur 10 cette semaine et 6 fois sur 10 le mois suivant, le signal est réel, même si chaque réponse prise séparément reste imprévisible. Le non-déterminisme n'invalide pas la mesure : il impose juste de mesurer en volume, pas à l'unité.

2. L'API n'est pas ChatGPT.com

C'est la critique la plus gênante, et la plus honnête. Beaucoup d'outils interrogent les modèles via leur API, parce que c'est stable et automatisable. Or l'API ne reproduit pas l'expérience d'un utilisateur sur l'interface web. Sur ChatGPT.com, il y a des instructions système propres au produit, une mémoire de l'utilisateur, du browsing en direct, et un routage qui peut envoyer votre question vers un modèle différent selon le contexte. L'API, elle, répond dans des conditions de laboratoire.

Conséquence : un outil qui ne teste que l'API mesure une approximation de ce que voient vos clients, pas leur réalité. Nous le disons clairement parce que c'est vrai. La parade consiste à rapprocher les conditions de test de l'usage réel autant que la plateforme le permet, et à ne jamais présenter une mesure API comme l'équivalent exact de l'interface grand public. Un chiffre honnête avec sa marge d'erreur vaut mieux qu'un chiffre faussement précis.

3. Le fan-out brouille la lecture

Les moteurs de recherche IA, comme le mode IA de Google, ne se contentent pas de traiter votre question telle quelle. Ils la décomposent en plusieurs sous-requêtes lancées en parallèle, puis assemblent la réponse. C'est le « query fan-out ». Un critique dira : si la machine reformule tout, suivre un prompt unique ne reflète rien.

Sauf que cet argument se retourne. Comprendre en quelles sous-questions votre sujet se décompose, c'est précisément une information de valeur. Cela montre sur quels angles vous devez exister pour remonter dans la réponse finale. Le fan-out ne rend pas le suivi inutile : il déplace le travail du prompt isolé vers la cartographie des intentions qui l'entourent.

Le vrai point aveugle : le trafic référent ne voit pas le zero-click

Vient ensuite l'argument massue des éditeurs d'analytics : « nous, on mesure le vrai trafic que l'IA vous envoie, pas des prompts en laboratoire ». L'analytics de trafic référent a une qualité indéniable : il compte des visites réelles, pas des estimations.

Mais il a une limite structurelle, et elle est énorme. Il ne mesure que ce qui produit un clic. Or le GEO est très largement un jeu zero-click. Quand ChatGPT recommande votre logiciel dans sa réponse sans que personne ne clique sur un lien, quand Perplexity résume votre positionnement et que l'utilisateur repart convaincu sans visiter votre site, il ne se passe rien dans votre analytics de trafic. La citation a pourtant bien eu lieu, et elle a fait son travail : façonner une perception, orienter une décision. La recherche sur le comportement de recherche, documentée de longue date par SparkToro, montre qu'une part majoritaire des requêtes se termine déjà sans clic. L'IA accentue le phénomène.

Autrement dit, l'analytics référent mesure très bien la fraction visible de l'iceberg, et reste structurellement aveugle au reste. Être cité, recommandé, résumé sans visite, c'est exactement ce qu'un prompt tracker peut observer et qu'un outil de trafic ne verra jamais. Les deux approches ne sont pas substituables. Elles sont complémentaires. Qui prétend le contraire vend une moitié de l'image en la faisant passer pour le tout.

Comment nous traitons ces limites chez Mamie GEO

Nous ne réglons pas la physique des LLM. Personne ne le peut. Ce que nous faisons, c'est construire la mesure autour de ces contraintes plutôt que de les cacher.

Concrètement : nous échantillonnons chaque prompt sur plusieurs exécutions pour estimer une fréquence de citation, pas un résultat ponctuel. Nous agrégeons ces fréquences dans le temps pour faire ressortir une tendance, qui est le seul signal réellement exploitable. Nous rapprochons autant que possible les conditions de test de l'usage francophone réel, parce qu'une mesure calibrée sur un marché anglophone ne dit rien de fiable sur ce que voit votre client français. Et nous présentons chaque chiffre pour ce qu'il est : une estimation avec une marge, pas un verdict.

C'est moins spectaculaire qu'un tableau de bord qui affiche un score à la décimale près. C'est surtout plus honnête, et donc plus utile pour décider. Pour le raisonnement de fond sur l'intérêt de mesurer avant d'optimiser, voir pourquoi tracker sa visibilité IA.

Ce que vous devez en retenir, côté décision

Si vous évaluez un outil de suivi de visibilité IA, posez-lui trois questions simples. Mesure-t-il sur plusieurs exécutions ou sur une réponse unique ? Est-il transparent sur la différence entre API et interface réelle ? Couvre-t-il les moteurs réellement utilisés par votre audience, Mistral compris si elle est française ? Un outil qui répond franchement à ces trois questions mérite votre confiance bien plus qu'un outil qui promet une précision parfaite.

Et ne tombez pas dans le piège du « il faut choisir entre prompt tracking et analytics référent ». Vous avez besoin des deux. Le premier voit la citation, le second voit le clic. Renoncer à l'un, c'est accepter un angle mort. Pour les fondamentaux, repartez de Qu'est-ce que le GEO ?.

FAQ

Les prompt trackers sont-ils fiables malgré le non-déterminisme des LLM ? Oui, à condition de mesurer en volume. Une réponse isolée d'un LLM est imprévisible et ne signifie rien. En revanche, la fréquence de citation calculée sur de nombreuses exécutions, suivie dans le temps, constitue un signal stable et exploitable. La fiabilité vient de l'échantillonnage et de l'agrégation, pas de la mesure unitaire.

Pourquoi dit-on que l'API ne reflète pas ChatGPT.com ? Parce que l'interface web ajoute des éléments que l'API ne reproduit pas : instructions système propres au produit, mémoire utilisateur, navigation web en direct et routage vers différents modèles selon le contexte. Une mesure faite via l'API est donc une approximation utile mais imparfaite de ce que voit réellement un utilisateur. Un bon outil le dit au lieu de le masquer.

L'analytics de trafic référent ne suffit-il pas ? Non. Le trafic référent ne compte que les visites avec clic. Or une grande partie du GEO est zero-click : votre marque peut être citée, recommandée ou résumée sans qu'aucune visite n'ait lieu. L'analytics référent est donc aveugle à une part majeure de votre visibilité IA. Il complète le prompt tracking, il ne le remplace pas.

Qu'est-ce que le query fan-out et pourquoi c'est important ? C'est la décomposition d'une question en plusieurs sous-requêtes lancées en parallèle par un moteur de recherche IA avant d'assembler sa réponse. Loin d'invalider le suivi, comprendre ce fan-out révèle sur quels angles et sous-sujets vous devez être présent pour apparaître dans la réponse finale.

Conclusion

Les sceptiques des prompt trackers ne se trompent pas sur les faits : le non-déterminisme, l'écart entre API et interface, le fan-out sont réels. Ils se trompent sur la conclusion. Ces limites n'annulent pas la mesure, elles définissent la bonne façon de mesurer : en volume, dans le temps, avec transparence, et sans opposer suivi de citation et trafic référent. Mon parti pris est simple. Je préfère un outil qui vous montre ses marges d'erreur à un outil qui vous vend une fausse précision.

La première étape, elle, ne demande aucune théorie : savoir qui vous cite déjà, et sur quels moteurs.

Tester gratuitement →

Sources principales

SparkToro, recherche sur les recherches « zero-click » : sparktoro.com
Search Engine Journal, How to Track AI Visibility & Prompts The Right Way : searchenginejournal.com
Conductor Academy, AI Prompt Tracking : conductor.com