Jachère

Les hallucinations n'ont pas disparu : ce que révèle la prod

Les modèles 2026 sont meilleurs, et certains hallucinent plus. Pourquoi le problème reste structurel, et ce que ça change pour une PME en production.

Forêt de conifères noyée dans une brume épaisse, les arbres du fond presque effacés, comme une information qu'on croit voir sans la voir vraiment.
Photo : Fredrik Solli Wandem sur Unsplash

Le récit qu’on entend partout en 2026 est rassurant : les modèles sont devenus tellement bons que les hallucinations, ces réponses fausses énoncées avec aplomb, ne seraient plus qu’un résidu en voie de disparition. C’est faux. Pas faux au sens où rien n’a progressé, faux au sens où la réalité de production est plus retorse que la courbe de progrès qu’on nous montre. Et la nuance, ici, n’est pas académique. Elle décide si une PME met un assistant au contact de ses clients ou de ses contrats sans filet.

Disons-le simplement, parce que c’est mon métier de le regarder de près : sur les tâches faciles, les modèles hallucinent peu, et c’est vrai. Sur les tâches qui comptent vraiment en production, la connaissance factuelle, le raisonnement ouvert, le cas limite, ils hallucinent encore, parfois plus qu’avant. Le problème n’a pas été résolu. Il a été déplacé, contenu, mieux mesuré, mais pas supprimé. Voici ce que la production révèle, et ce qu’on en fait.

Le paradoxe des modèles qui raisonnent

L’intuition voudrait qu’un modèle plus puissant, plus « raisonneur », se trompe moins. La réalité observée en 2025 a pris tout le monde à contre-pied. Sur le propre benchmark factuel d’OpenAI, PersonQA, le modèle de raisonnement o3 a halluciné dans environ 33 % des cas, soit le double de son prédécesseur, et le modèle o4-mini a fait pire encore, autour de 48 %. Des modèles vendus comme plus intelligents, qui se trompent davantage sur des questions factuelles précises.

L’explication tient à la mécanique même du raisonnement étendu. Quand un modèle déroule une longue chaîne de pensée, il comble les trous de son raisonnement par des éléments plausibles. Plus il génère d’étapes intermédiaires, plus il a d’occasions d’introduire une affirmation inventée mais cohérente avec le fil. Le raisonnement, qui aide sur les problèmes logiques, devient une fabrique de confabulations sur les questions de fait pur. Ce n’est pas un bug d’une version, c’est une tension de conception.

La leçon pour qui déploie : « le dernier modèle est meilleur » ne signifie pas « le dernier modèle hallucine moins sur mon usage ». Il faut vérifier, sur sa tâche, pas se fier au nom.

Ce que les benchmarks disent, et ce qu’ils cachent

Les chiffres globaux d’hallucination sont devenus impressionnants, à condition de lire ce qu’ils mesurent. Sur les tâches de résumé ancré, où le modèle doit s’en tenir à un texte fourni, les meilleurs modèles sont passés sous les 1,5 %, parfois sous le pour cent, là où ils étaient à plusieurs pour cent un an plus tôt. C’est ce chiffre-là, autour de 1 %, qu’on agite pour dire que le problème est réglé.

Mais le même modèle qui obtient 0,7 % en résumé ancré peut dépasser 9 % sur des questions de connaissance générale, et franchir les 33 % sur du rappel factuel en domaine ouvert. Un benchmark mesure une situation précise. Résumer un document que je te donne, c’est facile et vérifiable. Répondre de mémoire à une question dont la réponse n’est nulle part sous les yeux, c’est exactement là où le modèle invente. Confondre les deux, c’est lire le score le plus flatteur et le coller sur l’usage le plus risqué.

C’est le piège de communication le plus courant en 2026. Un fournisseur cite un taux d’hallucination d’1 %. Vrai, sur sa tâche de mesure. Sans rapport avec votre cas si vous lui demandez de répondre librement à des clients sur des informations qui ne sont pas dans un document fourni. Le seul taux qui vous concerne est celui qu’on mesure sur vos données, dans votre usage. Tout le reste est du décor.

L’inévitabilité, prise au sérieux

Reste la question de fond : est-ce un défaut qu’on corrigera, ou une limite qu’on devra gérer indéfiniment ? Deux travaux convergents invitent à pencher vers la seconde réponse.

En 2024, des chercheurs ont avancé un argument formel : l’hallucination serait une limite innée des grands modèles de langage tels qu’on les construit, pas un accident qu’on élimine en ajoutant des données ou des paramètres. La démonstration est discutée, comme toute démonstration de ce type, mais elle pose une borne théorique sérieuse.

En 2025, OpenAI a apporté une explication plus terre à terre dans un texte intitulé Why Language Models Hallucinate : on entraîne et surtout on évalue les modèles d’une manière qui récompense le fait de deviner. Un modèle qui répond « je ne sais pas » est pénalisé par les benchmarks comme s’il s’était trompé, alors qu’un modèle qui tente une réponse au hasard a une chance de tomber juste et d’être récompensé. On a donc, sans le vouloir, sélectionné des modèles qui préfèrent l’assurance à l’honnêteté. L’hallucination n’est pas seulement un défaut technique, c’est aussi le produit d’un système d’évaluation qui valorise l’aplomb.

Tant qu’on note un modèle comme on note un candidat qui ne doit jamais laisser une question blanche, on obtient un modèle qui devine plutôt qu’il n’avoue son ignorance.

Que l’inévitabilité soit théorique ou simplement structurelle, la conséquence pratique est la même : on conçoit en supposant que l’hallucination reste, pas en attendant qu’elle parte.

Le RAG aide, le RAG ne guérit pas

La parade la plus efficace connue est le RAG, qui consiste à donner au modèle, au moment de répondre, les documents pertinents de votre propre base, pour qu’il s’appuie dessus plutôt que sur sa mémoire statistique. Bien fait, le RAG réduit fortement les inventions, jusqu’à 71 % selon certains agrégats. C’est la meilleure intervention à disposition d’une PME, et elle est accessible.

Mais elle ne ramène pas le taux à zéro, et elle déplace le problème plus qu’elle ne le supprime. Si la recherche documentaire ramène le mauvais passage, ou un passage périmé, le modèle produit une réponse fausse avec exactement le même aplomb qu’une réponse juste. Le RAG ne corrige pas une base de connaissances en désordre, il la propage. Une entreprise dont la documentation est contradictoire, datée ou mal rangée n’obtiendra pas un assistant fiable en branchant un RAG dessus : elle obtiendra un assistant qui cite avec assurance ses propres incohérences. C’est la même histoire que partout en IA, racontée ici sous un autre angle : la qualité de la sortie ne dépassera jamais la qualité de ce qu’on met en entrée.

Ce que ça impose en production pour une PME

Rien de tout cela n’est une raison de renoncer à l’IA. C’est une raison de l’architecturer correctement. Trois principes tiennent en production.

Le premier : réserver l’autonomie aux tâches à faible enjeu et vérifiables. Un assistant qui résume un document fourni, propose un brouillon, classe une demande, peut tourner avec une supervision légère. La nature de la tâche borne le coût d’une erreur.

Le deuxième : garder un humain dans la boucle partout où une erreur coûte cher. Réponse juridique, engagement contractuel, conseil financier, information médicale, tout ce qui sort de l’entreprise sous sa responsabilité passe par une relecture. L’étude de Stanford sur les usages juridiques l’a montré sans ménagement : même les outils spécialisés se trompent à des taux qui interdisent la confiance aveugle. Des professionnels ont déjà été sanctionnés pour avoir déposé des écritures citant des décisions de justice inventées par un modèle. Le coût d’une hallucination non rattrapée n’est pas théorique.

Le troisième : mesurer sur ses propres données. Le seul taux d’erreur qui compte est celui qu’on observe sur ses vrais cas, pas le score de benchmark du fournisseur. Et on raisonne en valeur absolue : 1 % d’erreurs sur dix mille réponses engageantes par mois, c’est cent erreurs à rattraper, pas un détail. La question n’est jamais « le taux est-il bas », c’est « combien d’erreurs, et qui les intercepte avant qu’elles ne sortent ».

C’est exactement la discipline que nous défendions en autopsiant les 80 % de projets IA morts en PME et en démontant le marketing du « ChatGPT pour PME » : la technologie n’est pas le problème, c’est l’absence de cadre autour d’elle. L’hallucination est le rappel le plus net que l’IA en production se conçoit avec ses défauts en tête, pas contre eux.

La forêt de la couverture de cet article est noyée dans la brume. On distingue les premiers arbres, on devine les suivants, et au fond on ne voit plus rien, sauf qu’on croit voir. C’est une bonne image d’un modèle de langage : net et fiable au premier plan, plausible et trompeur dès qu’on s’éloigne de ce qu’il sait vraiment. Le travail de l’ingénieur, et la prudence du dirigeant, consistent à savoir où s’arrête le premier plan.

Questions fréquentes

Les hallucinations vont-elles finir par disparaître avec de meilleurs modèles ?

Rien ne le garantit, et plusieurs travaux suggèrent le contraire. Une étude de 2024 argumente que l'hallucination est une limite structurelle des LLM actuels, pas un défaut transitoire. L'expérience de 2025 le confirme en pratique : des modèles plus récents et plus « raisonneurs » hallucinent parfois davantage sur la connaissance factuelle. Mieux vaut concevoir en supposant que le problème reste, pas en pariant sur sa disparition.

Le RAG ne règle-t-il pas le problème ?

Il le réduit fortement, il ne le supprime pas. En ancrant les réponses dans des documents que vous fournissez, le RAG diminue nettement les inventions, jusqu'à 71 % selon certains agrégats. Mais il reste sensible à la qualité de la base : si la recherche documentaire ramène le mauvais passage, le modèle produit une réponse fausse avec le même aplomb qu'une réponse juste. Le RAG déplace le problème vers la qualité de vos données, il ne l'efface pas.

Concrètement, qu'est-ce qu'une PME doit faire ?

Trois choses. Réserver l'autonomie de l'IA aux tâches à faible enjeu et vérifiables. Garder un humain dans la boucle partout où une erreur coûte cher (juridique, financier, médical, contractuel). Et mesurer le taux d'erreur sur ses propres cas réels, pas sur les scores de benchmark du fournisseur, qui ne disent presque rien de votre usage.

Un taux d'hallucination de 1 % n'est-il pas négligeable ?

Ça dépend entièrement du volume et de l'enjeu. 1 % sur un assistant qui résume des articles, c'est tolérable. 1 % sur 10 000 réponses contractuelles par mois, c'est 100 erreurs engageant l'entreprise. Le bon raisonnement n'est jamais « le taux est bas », c'est « combien d'erreurs en valeur absolue, et qui les rattrape avant qu'elles ne sortent ».

Sources

  1. Étude Why Language Models Hallucinate OpenAI · vérifié le 29 mai 2026
  2. Étude Hallucination is Inevitable: An Innate Limitation of Large Language Models Xu, Jain & Kankanhalli (arXiv) · vérifié le 29 mai 2026
  3. Presse OpenAI's new reasoning AI models hallucinate more TechCrunch · vérifié le 29 mai 2026
  4. Rapport Hallucination Leaderboard (taux d'hallucination en résumé ancré) Vectara · vérifié le 29 mai 2026
  5. Analyse Hallucinating Law: Legal Mistakes with Large Language Models are Pervasive Stanford HAI / RegLab · vérifié le 29 mai 2026

Romain Vialatte explique l'architecture IA et ce qui casse vraiment en production.

Désaccord, retour, erreur factuelle ? Droit de réponse garanti.