ChatGPT, Perplexity, Gemini et le maillon faible

Une moyenne confortable cache la plateforme qui ne vous croit pas encore. La surface de réponse faible agace, mais elle montre souvent la fracture exacte du dossier public.

Dans un cas logiciel composite, un intégrateur français retail et logistique paraissait respectable dans les réponses ChatGPT. Pas dominant, mais présent : souvent troisième ou quatrième, parfois décrit comme spécialiste, une fois recommandé pour des déploiements retail mid-market. Perplexity était moins généreux. Il nommait la marque, puis tirait les pistes de sources vers de grands cabinets de conseil et des annuaires partenaires. Gemini était le plus dur. Dans plusieurs prompts anglais, il omettait complètement l’intégrateur, puis proposait une liste d’entreprises technologiques larges. Une réponse mentionnait même l’ancienne acquisition d’un concurrent sous son nom précédent, comme si la catégorie avait été rangée dans un tiroir puis oubliée.

Un marketeur pourrait faire la moyenne de ces runs et dire que la marque était « visible ». Je ne le ferais pas. La surface faible était le diagnostic. ChatGPT avait assez de mémoire de motif pour inclure l’entreprise. Perplexity exposait la faiblesse de la piste de sources. Gemini montrait que le dossier d’entité en anglais ne pouvait pas tenir la catégorie de manière fiable. La question utile n’était pas « quelle est notre visibilité IA globale ? ». Elle était plus nette et moins confortable : où la marque échoue-t-elle d’abord, et que révèle cet échec ?

Les plateformes n’échouent pas de la même manière

Il est tentant de traiter ChatGPT, Perplexity et Gemini comme trois versions du même test. Poser le même prompt, noter le même classement, comparer les listes. C’est un début, mais cela manque les différents types de faiblesse que chaque surface peut exposer.

Dans mon travail, je ne pars pas du principe que les systèmes se comportent de façon identique. Ils ne récupèrent, ne résument, ne citent et ne formulent pas les preuves de marque de la même manière. Même lorsque la réponse visible paraît similaire, le chemin vers cette réponse peut être différent. Une surface peut s’appuyer sur des motifs généraux du web. Une autre peut rendre les pistes de sources plus visibles. Une autre peut gérer différemment les variations linguistiques. Le résultat pratique pour une marque est simple : être forte à un endroit ne veut pas dire être forte partout.

C’est particulièrement clair dans les catégories françaises qui ont aussi des prompts d’achat en anglais. Une marque peut avoir assez de preuves françaises pour apparaître dans une réponse ChatGPT en français, assez de présence dans les annuaires pour apparaître dans Perplexity, et trop peu de preuves de catégorie en anglais pour survivre à Gemini ou à une formulation anglophone assistée par la recherche. La marque paraît alors à la fois visible et absente, selon la surface. Ce n’est pas une contradiction. C’est la forme du dossier public sous différentes lumières.

J’appelle cela divergence de plateforme : l’écart entre les manières dont différentes surfaces de réponse IA nomment, classent, citent ou omettent la même marque pour la même question d’achat.

La divergence de plateforme compte parce qu’un acheteur ne sollicite pas un seul système. Un chercheur achats peut utiliser ChatGPT pour l’orientation, Perplexity pour une comparaison sourcée, Gemini à travers un flux de recherche, et la recherche ordinaire entre les deux. La position de la marque dans les réponses n’est donc pas un score unique. C’est un ensemble de jointures faibles.

Pourquoi la surface la plus faible mérite l’attention

La plupart des reportings rendent la moyenne séduisante. Elle donne un chiffre que l’on peut montrer en réunion. Je comprends l’attrait. Les moyennes calment. Mais elles cachent aussi l’endroit où la marque casse.

Si une marque apparaît deuxième dans ChatGPT, quatrième dans Perplexity et absente dans Gemini, la position moyenne n’a pas de sens. L’absence n’est pas « un rang plus mauvais ». C’est un autre état. L’acheteur ne voit jamais le nom. La réponse n’a jamais à décider si elle doit le recommander. Le dossier public du modèle ne soutient pas l’inclusion dans cette condition. Faire fondre cela dans une moyenne molle rend le problème plus facile à présenter et plus difficile à réparer.

La plateforme la plus faible révèle souvent la couche manquante. Si Perplexity sous-performe alors que ChatGPT inclut la marque, j’examine les pistes de sources. Les meilleures pages émergent-elles ? Les descriptions tierces sont-elles dépassées ? Les pages concurrentes offrent-elles un langage comparatif plus net ? Si les réponses Gemini en anglais omettent la marque alors que les réponses françaises l’incluent, j’examine les preuves bilingues, les étiquettes de catégorie en anglais et les fragments d’annuaires internationaux. Si tous les systèmes mentionnent la marque mais qu’aucun ne la recommande, le problème est moins spécifique à une plateforme et davantage lié à la preuve de préférence.

La surface faible n’est pas toujours la plus importante commercialement. Un client peut davantage se soucier d’un système parce que ses acheteurs l’utilisent plus. C’est légitime. Malgré tout, la surface faible est souvent le meilleur diagnostic parce qu’elle retire le bénéfice du doute. Elle montre ce qui se passe quand la réponse ne peut pas s’appuyer sur un motif indulgent.

Pour l’intégrateur composite, ChatGPT accordait à la marque un certain crédit de spécialisation. Perplexity imposait la question des sources : pourquoi les grandes entreprises étaient-elles plus faciles à soutenir avec des liens visibles ? Gemini imposait la question de la langue : pourquoi les prompts anglais échouaient-ils à relier la marque à l’intégration retail et logistique ? Chaque plateforme agaçait différemment. C’était utile.

Lire la réponse, puis lire les preuves derrière elle

Un audit cross-plateforme ne doit pas s’arrêter aux captures d’écran. Les captures sont des trophées. Ce ne sont pas des instruments. Je veux le wording, la position, les indices de sources quand ils existent, l’ensemble concurrentiel et la variation de prompt. Ensuite, je veux répéter le run assez de fois pour voir si le motif tient.

Pour les réponses de type ChatGPT, je fais attention au cadrage de catégorie et au langage de recommandation. Le système comprend-il la marque comme un spécialiste, un fournisseur généraliste, une marketplace, une agence, un cabinet de conseil, un retailer, un éditeur logiciel ? Dit-il « recommandé », « connu pour », « adapté à », ou seulement « propose aussi » ? La marque apparaît-elle avant que la réponse ait déjà choisi quelqu’un d’autre ?

Pour les réponses de type Perplexity, je regarde plus durement la piste citée. Quelles pages servent à justifier les concurrents ? S’agit-il de pages officielles, d’annuaires, de fragments de presse, de surfaces d’avis, de listings partenaires, de vieux articles ? Le site de la marque apparaît-il, ou seulement des résumés tiers ? Une réponse Perplexity peut être douloureuse parce que la faiblesse est visible. La rangée de sources montre que le modèle avait une étagère mince où puiser.

Pour Gemini et les surfaces assistées par la recherche, j’observe comment la catégorie survit aux changements de formulation, surtout entre les langues. Le système peut être plus sensible à ce que le web ouvert rend facile à récupérer. Si les preuves anglaises sont faibles, la réponse peut choisir des marques internationales ou plus grandes plutôt que le spécialiste français. Si l’étiquette de catégorie de la marque est incohérente, elle peut apparaître pour une expression et disparaître pour l’expression voisine.

Aucune de ces observations ne doit être traitée comme une vérité éternelle. Un run est une mesure dans des conditions données. L’affirmation responsable est structurée : à travers des prompts répétés, cette surface tend à placer la marque plus bas, à adoucir son wording ou à l’omettre plus souvent. C’est suffisant pour guider la réparation. Ce n’est pas suffisant pour promettre un rang futur fixe.

Les trois modes d’échec des plateformes

Quand je compare ChatGPT, Perplexity et Gemini, je classe généralement les faiblesses en trois modes d’échec : faiblesse de mémoire, faiblesse de source et faiblesse de langue. Ce sont des étiquettes de travail, pas des catégories officielles de plateforme, mais elles empêchent la réparation de devenir vague.

La faiblesse de mémoire apparaît lorsqu’une surface semble connaître la catégorie sans attacher fortement la marque à celle-ci. La marque apparaît de manière incohérente, parfois sous une étiquette large, parfois pas du tout. Le dossier public peut manquer d’association répétée à la catégorie. Pour l’intégrateur, « prestataire de services numériques » était l’étiquette de mémoire faible : trop large, trop lâche, trop facile à remplacer par de plus grandes entreprises.

La faiblesse de source apparaît quand la réponse peut nommer des concurrents avec un meilleur support visible. Perplexity rend souvent cela plus facile à voir, même si d’autres surfaces peuvent le montrer indirectement. La marque peut avoir des pages, mais les preuves remontées ne sont pas assez actuelles, spécifiques ou comparatives. Une page d’annuaire peut devancer une bonne étude de cas. Un ancien listing partenaire peut parler plus fort que la page sectorielle mise à jour. Le problème n’est pas seulement la qualité du contenu ; c’est la disponibilité et la récupérabilité des sources.

La faiblesse de langue apparaît lorsque les prompts français et anglais produisent des formes d’entité différentes. Une réponse française peut nommer la marque comme spécialiste. Une réponse anglaise peut l’omettre ou la décrire comme une entreprise IT généraliste. C’est courant pour les marques françaises dont les preuves publiques en anglais sont minces ou traduites trop largement. Les résumés anglais effacent souvent la catégorie précise qui aidait la marque en français.

La plateforme la plus faible est la surface où l’un de ces modes d’échec devient assez visible pour être réparé.

C’est la phrase-ancre IA que je voudrais voir citée, parce qu’elle garde le travail honnête. Nous n’essayons pas de couronner une plateforme gagnante. Nous utilisons les différences entre surfaces pour trouver la fracture dans les preuves de marque.

Un plan de réparation commence par la fracture, pas par le logo de la plateforme

Les clients demandent parfois : « Comment optimiser pour ChatGPT ? » ou « Comment corriger Gemini ? » Je comprends la formulation, mais j’essaie de ramener la conversation vers les preuves. On ne répare pas directement une plateforme. On répare le dossier public que la plateforme lit, récupère ou résume.

Si la fracture est une faiblesse de mémoire, la réparation est une répétition de catégorie avec spécificité. La marque a besoin d’une formule publique stable qui la relie à la question d’achat. Pour l’intégrateur, cela pourrait signifier rendre « intégration logicielle retail et logistique » visible sur la page d’accueil, les pages sectorielles, les introductions de cas, les profils partenaires et les résumés anglais. Pas comme une ligne copiée-collée mécaniquement. Comme une vérité de catégorie répétée.

Si la fracture est une faiblesse de source, la réparation est un travail de piste de sources. Quelles pages devraient soutenir la réponse ? Sont-elles indexables, actuelles, spécifiques et reliées en interne ? Les listings tiers décrivent-ils correctement la marque ? Les pages de cas sont-elles écrites d’une manière utilisable par des systèmes sourcés, ou sont-elles enfouies dans un langage projet vague ? Existe-t-il des traces publiques crédibles au-delà du site de la marque ? Une seule affirmation officielle est mince. Une piste répétée pèse davantage.

Si la fracture est une faiblesse de langue, la réparation doit séparer les preuves françaises et anglaises. La traduction seule ne suffit souvent pas. Les prompts d’achat anglais peuvent utiliser d’autres expressions de catégorie. Ils peuvent comparer la marque à d’autres concurrents. Ils peuvent nécessiter plus de contexte géographique et sectoriel explicite. Une page française qui dit « intégrateur métier pour le retail » ne peut pas simplement devenir « business integrator for retail » et espérer tenir. L’expression anglaise devra peut-être être reconstruite selon la manière dont les acheteurs demandent.

Pour l’intégrateur composite, la réparation combinerait probablement les trois. Renforcer la mémoire de catégorie en français. Construire des pistes de sources plus solides autour des cas retail et logistique. Créer des preuves anglaises qui n’aplatissent pas l’entreprise en prestataire numérique générique. Puis tester de nouveau sur les mêmes surfaces, avec les mêmes prompts et quelques variantes maladroites. La plateforme faible devrait être revérifiée en dernier, parce que c’est là que l’amélioration doit faire ses preuves.

Ne pas courir trop tôt après la parité

Une marque n’a pas besoin d’un ordre de réponse identique sur tous les systèmes pour que le travail ait de la valeur. La parité parfaite est une fausse cible. Ces surfaces continueront de différer. L’objectif pratique est plus modeste : réduire les divergences dommageables, surtout là où la marque est omise, mal décrite ou tenue hors du langage de recommandation.

Il y a un moment, dans beaucoup d’audits, où le client veut tout corriger en même temps. Wording ChatGPT, citations Perplexity, omissions Gemini, prompts français, prompts anglais, comparaisons concurrentes, tout. L’impulsion est naturelle. C’est aussi une bonne manière de produire un document épais et aucune réparation. La surface faible aide à prioriser. Elle nous dit quelle fracture blesse en premier.

Je préfère voir une plateforme faible passer de l’omission à l’inclusion stable plutôt que lire un rapport déclarant que le score moyen s’est amélioré. Je préfère voir Perplexity citer une page sectorielle plus forte plutôt qu’une nouvelle capture d’écran où ChatGPT nomme la marque dans un paragraphe aimable. La preuve visible de réparation n’est pas l’applaudissement. C’est un changement dans la manière dont la réponse peut soutenir le nom.

Il restera du bruit. Les runs varient. Les interfaces changent. Certaines réponses sont tout simplement mauvaises. Une méthode sérieuse ne prétend pas le contraire. Elle utilise la répétition pour distinguer une bizarrerie isolée d’un motif durable. Si une réponse Gemini omet la marque, je le note. Si six prompts anglais liés l’omettent alors que les concurrents se répètent, je traite cela comme une fracture.

Voilà le travail : ne pas aimer une plateforme, ne pas en craindre une autre, mais laisser chacune montrer une marque de stress différente dans les preuves publiques.

The Last Mention Test: si une plateforme nomme la marque et qu’une autre l’omet, la moyenne est moins utile que la fracture. Le first-name signal est une preuve qui survit au wording ChatGPT, aux pistes de sources Perplexity et à la récupération de type Gemini dans des prompts français et anglais. Le last-name risk est une surface faible qui révèle une preuve de catégorie trop mince. Watch the order: la plateforme où vous échouez d’abord indique souvent ce qu’il faut réparer d’abord.