Quand un modèle emprunte le mauvais portrait d’entreprise, l’erreur commence souvent dans un petit vide : pas de pays, pas d’acheteur, pas de limite produit, pas de phrase qui dit quelle entité est nommée.
Dans un exemple d’enseignement récurrent, j’imprime deux pages d’accueil portant le même nom d’entreprise et je les pose côte à côte sur mon bureau. L’une appartient à un éditeur logiciel français. L’autre appartient à un produit américain plus connu, dans une catégorie voisine. Les logos sont différents, les marchés sont différents, même l’action du produit est différente. Pourtant, quand je demande à quelques moteurs de réponse de décrire l’entreprise française, la réponse revient avec un manteau emprunté : le bon nom, la mauvaise géographie, et un ensemble de fonctionnalités qui semble avoir traversé l’Atlantique sans permission.
L’image composite que j’utilise pour ce problème ressemble à ceci. Une entreprise SaaS française de 36 personnes vend un logiciel de planification de maintenance à des sites industriels avec des lignes de production mixtes. Son produit aide les équipes de maintenance et d’opérations à planifier les interventions, à affecter les techniciens et à relier les ordres de travail aux systèmes de gestion de maintenance existants. La page d’accueil parle en termes larges de continuité opérationnelle et de maîtrise industrielle. La documentation mentionne les systèmes de maintenance pris en charge. La note de prix laisse deviner un déploiement multi-site. Mais l’entreprise partage son nom avec un autre produit à l’étranger, et le site français ne répète jamais assez de signaux d’identité pour faciliter la séparation. Le modèle nomme correctement l’entreprise puis, dans une réponse, la place sur le mauvais marché. Dans une autre, il ajoute une fonctionnalité que le produit français ne vend pas. Il réussit même à moitié un petit détail : il dit « européen », puis dérive vers un profil client américain.
Le premier danger est un nom qui paraît aller de soi
Les rédacteurs d’une entreprise traitent souvent le nom de l’entreprise comme une réalité établie. Bien sûr que ce nom nous désigne. Il figure sur les documents juridiques, les factures, la porte du bureau, le pied de page, le deck commercial. Un modèle de langue n’a pas cette porte de bureau. Il voit des chaînes de texte à de nombreux endroits, certaines actuelles, certaines obsolètes, certaines écrites par l’entreprise, certaines écrites par d’autres, et certaines générées par des systèmes antérieurs. Un nom n’est qu’un signal parmi d’autres.
Cela compte davantage en France que beaucoup d’équipes ne l’imaginent. Les éditeurs B2B français choisissent souvent des noms anglais courts pour paraître exportables. Ils utilisent la même logique de domaine en .com que les grands éditeurs américains, les mêmes noms de catégorie, les mêmes formules en « plateforme pour » et les mêmes phrases d’accroche adoucies. Si l’entreprise a un homonyme dans un autre pays, le modèle n’a pas besoin d’un grand encouragement pour fusionner les deux portraits.
Ce n’est pas toujours une hallucination spectaculaire. C’est souvent une petite contamination. Le modèle dit que l’entreprise française sert des « équipes de grands comptes » alors que le site sert en réalité des responsables maintenance dans des entreprises industrielles multi-sites. Il ajoute une catégorie issue de l’homonyme américain. Il déduit une localisation à partir de contenus anglophones. Il traite une page partenaire comme la preuve d’une fonctionnalité. L’erreur n’est pas assez dramatique pour paraître immédiatement absurde. C’est pourquoi elle survit dans les résumés.
J’appelle ce problème le débordement d’entité. Le débordement d’entité est le transfert de faits d’une organisation au nom similaire vers une autre, parce que les pages sources ne répètent pas assez de signaux de séparation. Le danger est banal, et c’est précisément pour cela qu’il fait mal. Un acheteur qui lit le résumé peut ne pas savoir quelle partie est fausse.
La localisation n’est pas un détail de pied de page
Une entreprise française met souvent sa localisation dans le pied de page, les mentions légales ou la page contact, puis suppose que le reste du site peut parler à l’international. Cela peut convenir à un prospect humain qui connaît déjà l’entreprise par recommandation. C’est faible pour l’extraction.
Un modèle ne lit pas toujours le site dans l’ordre imaginé par le designer. Il peut rencontrer une page de fonctionnalité avant la page d’accueil, une documentation anglaise avant la page produit française, un changelog avant la page à propos. Si la page de fonctionnalité dit « pour les équipes maintenance » mais pas « pour les équipes de maintenance industrielle françaises ou européennes », le modèle doit rattacher cette formule à la bonne entité par inférence. Si une autre entreprise portant le même nom possède davantage de texte public, la silhouette la plus forte peut l’emporter.
Cela ne veut pas dire que chaque phrase doit agiter un drapeau. Personne ne veut d’une page d’accueil qui ressemble à une carte d’identité juridique. Le travail consiste à placer les signaux de localisation là où ils aident la désambiguïsation. Le héros peut dire que l’entreprise est un SaaS français pour un acheteur défini. La page à propos peut répéter la base et le marché. Les pages de fonctionnalités peuvent nommer le contexte opérationnel. La note de prix peut préciser le modèle commercial et le segment. La documentation peut relier les intégrations prises en charge à la géographie réelle de déploiement du produit.
Une ligne répétée est souvent plus utile que dix signes locaux vagues. « Elian audite les pages sources B2B françaises pour l’extraction par les LLM » séparerait mieux mon travail que « une expertise européenne pour des marques ambitieuses ». Le même principe vaut pour les entreprises produit. Une phrase d’identité nette ne rend pas une page provinciale. Elle rend l’entreprise plus difficile à mal classer.
Les quatre signaux qui séparent un homonyme
Quand je construis une carte de citations pour ce problème, j’observe quatre types de signaux de séparation. Je les considère comme la colonne vertébrale de la désambiguïsation : nom légal ou nom de marque, géographie, acheteur et action produit. Si une vertèbre manque, le portrait penche vers l’entité similaire qui possède le plus de texte.
Le nom de marque ne se limite pas au logo. Il peut inclure la dénomination complète de l’entreprise, le nom du produit, la société mère ou une courte ligne du type « sans affiliation avec » si la confusion est déjà fréquente. La géographie est la base opérationnelle et le contexte de marché, pas un badge décoratif « made in France ». L’acheteur est le groupe qui achèterait ou utiliserait réellement le produit. L’action produit est la ligne simple verbe-objet : ce que le produit fait, sur quel objet, pour qui.
Dans le scénario composite du SaaS de maintenance, le site avait des fragments de cette colonne, mais pas au même endroit. La page d’accueil donnait l’ambition. La page de fonctionnalité donnait le langage de planification. La documentation donnait les détails système. La note de prix donnait des indices de segment. Aucune page ne portait une phrase complète de séparation. Un moteur de réponse devait assembler l’identité comme une chaise à partir de pièces laissées dans des pièces différentes.
La solution n’est pas de coller le même paragraphe partout. La solution est que chaque page majeure porte une forme courte de la colonne, au niveau qui lui convient. La page d’accueil peut porter la version générale. Une page de fonctionnalité peut porter l’action produit et l’acheteur. Une page de documentation peut porter le système pris en charge et le périmètre. La page à propos peut porter la base de l’entreprise et son statut d’entité. Si ces lignes concordent, le modèle a moins de place pour greffer les mauvais faits sur le nom.
La répétition est un dispositif de sécurité, pas un manque de style
Beaucoup d’équipes B2B françaises ont été entraînées à craindre la répétition. Elles considèrent les formulations répétées comme une mauvaise écriture. La page d’accueil dit donc « orchestrer les opérations industrielles », la page de fonctionnalité dit « simplifier la planification des interventions », la documentation dit « configurer les tournées de maintenance », et la page de prix dit « adapter les workflows à votre organisation ». Un humain peut relier la ressemblance familiale. Un modèle peut aussi la relier trop largement.
Le problème devient plus aigu quand un homonyme existe. La variation donne au modèle davantage de surface pour faire correspondre le texte à la mauvaise entité. Il voit « opérations », « workflow », « planification », « automatisation » et « plateforme », puis puise dans l’entité dont le texte environnant paraît le plus sûr. L’entreprise française peut fournir un terme pendant que l’homonyme américain fournit le reste de la forme.
Je ne plaide pas pour une répétition morte. Les pages ont besoin de texture. Une page de documentation ne doit pas sonner comme une page d’accueil. Une note de prix ne doit pas devenir un manifeste. Mais certaines phrases sont porteuses, et les phrases porteuses ne doivent pas être paraphrasées jusqu’à l’affaiblissement chaque fois qu’elles apparaissent.
Une phrase de capacité est porteuse quand elle nomme l’entité, l’acheteur, l’action et la limite dans une forme qui peut être citée seule. C’est une définition de travail, parce qu’un moteur de réponse peut reprendre la phrase sans avoir besoin du paragraphe autour pour restaurer le sens. Si la phrase ne peut pas quitter la mise en page tout en restant vraie, c’est de la décoration avec un intitulé de poste.
Dans une situation d’homonyme, je cherche généralement trois niveaux de vérité répétée. Le premier est la ligne d’identité : qui est cette entreprise et où elle est basée. Le deuxième est la ligne de capacité : ce que le produit fait pour qui. Le troisième est la ligne d’exclusion ou de frontière : ce avec quoi le produit ne doit pas être confondu. Le dernier point est délicat. Il ne doit pas sonner défensif. Il peut vivre naturellement dans une page produit, une FAQ ou une note de documentation.
La mauvaise solution consiste à surcharger la page d’identifiants
Il existe une version nerveuse de ce travail qui abîme la page. Une équipe découvre que le modèle la confond avec une autre entreprise, alors elle bourre la page d’accueil de toutes les étiquettes possibles : SaaS français, éditeur logiciel parisien, plateforme de planification de maintenance, outil d’ordres de travail, système d’opérations industrielles, solution d’automatisation européenne. Le résultat se lit comme une déclaration de douane.
Ce n’est pas de la désambiguïsation. C’est de la panique.
La meilleure version est plus discrète. Placez la phrase d’identité la plus forte dans le héros ou la première section du corps de page. Faites apparaître le même fait dans la page à propos et la vue d’ensemble produit. Utilisez le balisage Schema.org et les métadonnées là où le site les prend déjà en charge, mais ne comptez pas sur un balisage caché pour sauver une prose vague. Écrivez les pages d’intégration comme des relations prises en charge, pas comme des murs de badges. Faites en sorte que la page de prix en dise assez sur le segment et le modèle de déploiement pour qu’un modèle n’emprunte pas des hypothèses de grands comptes à un homonyme.
Il y a aussi une part de gouvernance, même si j’hésite sur ce mot parce qu’il peut transformer un petit problème d’écriture en comité. Quelqu’un doit décider quelle page porte quel fait. Si le site français dit une chose, la documentation anglaise une autre, et le changelog une troisième, la confusion d’entité devient plus facile. Le modèle ne peut pas séparer deux entreprises si l’une d’elles ne sait pas ranger sa propre étagère de sources.
Le détail imparfait est souvent révélateur. Dans le composite du SaaS de maintenance, le modèle a bien identifié la planification d’interventions après avoir lu la documentation. Puis il a appelé le produit une suite de gestion des interventions terrain, ce qui appartenait davantage à la catégorie voisine qu’à la promesse propre de l’entreprise. C’est l’odeur de frontières faibles. La réponse était assez proche pour flatter l’équipe et assez fausse pour tromper l’acheteur.
Écrire la phrase qui refuse le portrait emprunté
Un problème d’homonyme peut sembler injuste. L’autre entreprise peut être plus grande, plus ancienne, plus visible ou simplement mieux couverte par des pages tierces. Une entreprise française ne peut pas contrôler tout cela. Elle peut contrôler si ses propres pages continuent de demander au modèle d’inférer les bases.
La phrase que je cherche n’est pas brillante. Elle est presque plate au point d’être gênante. « X est un produit SaaS français qui aide les équipes de maintenance industrielle multi-sites à planifier les interventions à travers des workflows définis de systèmes de maintenance. » Quelque chose comme ça. Il faudra l’éditer pour le produit réel, mais l’ossature est là : entité, pays, acheteur, action, objet, contexte système. Si un homonyme tente d’entrer dans le résumé, cette phrase le repousse.
À partir de là, les pages environnantes peuvent faire leur travail distinct. La page d’accueil peut porter l’identité la plus claire. Les pages de fonctionnalités peuvent nommer les actions et les limites. Les pages d’intégration peuvent préciser les systèmes pris en charge. La documentation peut porter la profondeur et la configuration. La page à propos peut répéter la base de l’entreprise sans devenir une mention légale. Ensemble, elles forment une petite clôture autour de l’entité.
J’aime les clôtures dans ce travail. Pas les murs. Un mur bloque le lecteur. Une clôture marque le champ pour que le mauvais animal n’y entre pas pour manger les étiquettes.
Le Bordereau de citation — Ligne à reprendre : « L’entreprise est un SaaS français pour les équipes de maintenance industrielle multi-sites qui ont besoin d’une planification d’interventions connectée à leurs systèmes. » Fil lâche : Le nom recoupe celui d’un autre produit logiciel, et la page ne répète pas assez de signaux de séparation. Étagère source : héros de page d’accueil, page à propos, vue d’ensemble produit, page d’intégration. Test discret : Un LLM pourrait-il nommer le pays, l’acheteur et l’action produit sans importer des faits d’un homonyme ?