Commençons par ce qu'un grand modèle de langage fait réellement, parce que tout découle de là. Un LLM ne consulte pas une base de faits. Il ne « sait » rien au sens où une encyclopédie sait. Il a appris, sur des milliers de milliards de mots, à prédire le mot suivant le plus plausible dans un contexte donné. C'est tout — et c'est immense : de cette seule mécanique émergent la synthèse, la traduction, le raisonnement apparent, le style. Les points forts sont réels et spectaculaires.
Mais la mécanique a un revers exact. Quand la réponse existe massivement dans les données d'entraînement, le mot le plus plausible est aussi le plus vrai. Quand elle n'y existe pas — donnée rare, récente, interne à votre organisation, ou simplement inexistante — le modèle ne s'arrête pas. Il continue de produire le mot le plus plausible. Il comble le vide avec de la vraisemblance. Un chiffre qui ressemble à un chiffre. Une référence qui ressemble à une référence. Une étude sectorielle qui ressemble à toutes les études sectorielles qu'il a lues.
L'hallucination n'est pas une panne de la machine. C'est la machine qui fonctionne exactement comme prévu, sur un terrain où le prévu ne suffit plus.
S'ajoute un facteur aggravant : le ton. Les modèles sont optimisés, après leur entraînement initial, pour produire des réponses que des humains jugent satisfaisantes — utiles, fluides, assurées. Résultat : l'invention sort avec le même aplomb que le fait établi. Aucune hésitation dans la voix, aucun signal de doute exploitable. Un humain qui ne sait pas bafouille ; un modèle qui ne sait pas affirme.
C'est pourquoi les remèdes de surface déçoivent. Brancher le modèle sur des documents (le fameux RAG) réduit l'invention mais ne l'élimine pas : le modèle peut mal lire, sur-extrapoler, mélanger deux sources. Lui demander de « vérifier ses réponses » revient à demander au suspect de mener l'enquête. Et les modèles s'améliorent réellement — les taux baissent version après version — mais un taux qui baisse n'est pas un taux nul, et dans un livrable de 400 affirmations, 2 % d'invention font huit énoncés faux, indétectables à l'œil, distribués au client avec votre signature.
La conclusion s'impose d'elle-même : si l'invention est structurelle, la protection doit être structurelle. On ne corrige pas une propriété — on la contient. Cela signifie une couche indépendante du modèle, qui reprend chaque affirmation produite, la confronte à des sources qualifiées, et rend un verdict qui n'a pas été rédigé par la même mécanique que le texte qu'il juge. En sécurité informatique, personne ne demande au code de s'auto-certifier : on audite. L'IA générative arrive exactement au même point de maturité.
Deux réponses à une même propriété : Evidence audite les livrables après coup, affirmation par affirmation ; et l'IA d'entreprise que nous construisons ne peut répondre que depuis un socle de sources vérifiées — elle cite d'où vient chaque réponse et dit « je ne sais pas » plutôt que broder. Voir les deux →