Dans le prolongement de la réflexion sur l'extraction cognitive se pose une question plus technique en apparence, décisive en réalité : celle du recours massif aux données synthétiques — générées par l'IA — pour entraîner l'IA elle-même. Les travaux de Shumailov et ses collègues (Oxford, Cambridge), publiés dans Nature en juillet 2024, ont donné un nom au phénomène qui en découle : le model collapse, la dégénérescence progressive des modèles entraînés de façon récursive sur des données qu'ils ont eux-mêmes générées. Leur conclusion : l'usage indiscriminé de contenu produit par les modèles provoque des défauts irréversibles, les extrémités de la distribution d'origine — les cas rares, la diversité — disparaissant en premier.
Le mécanisme se décompose en quatre dérives. La perte de diversité : si les données synthétiques dominent, les mêmes schémas se reproduisent à l'infini — le savoir s'homogénéise, et la créativité, qui vit de la variété des points de vue, s'appauvrit. La propagation des biais : loin d'être corrigés, les biais initiaux s'amplifient — la machine s'entraîne sur des erreurs qu'elle a elle-même produites. La dégénérescence proprement dite : à mesure que les générations successives s'entraînent sur les sorties des précédentes, le modèle converge vers une distribution appauvrie, de plus en plus éloignée du réel — c'est le résultat central de l'étude. L'érosion du lien avec le réel : une IA coupée des témoignages, des expérimentations, des interactions humaines perd son acuité d'interprétation du monde sensible.
L'IA peut bien s'auto-alimenter — sans garde-fous, elle se condamne à l'autarcie intellectuelle.
Pourquoi, alors, la poussée vers le tout-synthétique ? Parce que les incitations sont réelles : les données humaines coûtent cher à acquérir et à nettoyer, leur statut juridique se complique (RGPD, AI Act, droits d'auteur), et le synthétique offre des jeux de données massifs, calibrés, sans contentieux. Pour certaines applications — simulation industrielle, conduite autonome — c'est même la bonne réponse. Mais pour la création et la transmission du savoir, la richesse des données humaines demeure irremplaçable.
La réponse raisonnable n'est pas de bannir le synthétique, c'est de l'équilibrer. Des corpus hybrides, où le réel vérifié garde la majorité. Une curation qui apprend aux systèmes à reconnaître leurs propres productions pour ne pas les réingérer. Une traçabilité de la composition des jeux d'entraînement — savoir quand et dans quelle proportion l'artificiel a été injecté, et pouvoir l'auditer. Une exigence réglementaire de transparence sur cette composition, enfin, qui est à l'IA ce que l'étiquetage est à l'alimentaire.
Le résultat a nourri un débat vif — certains travaux ultérieurs le nuancent, montrant que des corpus hybrides bien construits évitent l'effondrement — mais sa direction fait consensus : une IA nourrie de sa propre production, sans apport humain frais, dégénère. J'écrivais ce texte début 2025. Peu après, la conclusion s'est renforcée d'elle-même : à mesure que le web se remplit de contenu généré, le savoir humain vérifié, contextualisé, attribué cesse d'être une matière première abondante pour devenir la ressource rare. Ceux qui la préservent détiennent l'antidote.
C'est l'un des fondements du paradigme Préservation vs Extraction : préserver le raisonnement humain à la source, vérifié et attribué, plutôt que laisser la boucle se refermer. Lire l'essai fondateur →