27 juin 2025 Nabil Bouamama

Diagnostic médical : 40 000 cas analysés pour comparer médecins et IA

Les erreurs de diagnostic concerneraient une consultation sur 10, selon un rapport de la Haute Autorité de Santé. Aux Etats-Unis, les chiffres sont plus précis : elles seraient à l’origine de 25 % des décès dus à des erreurs médicales. De l’ordre de 795 000 décès et handicaps permanents chaque année aux États-Unis.

Plusieurs leviers peuvent être activés pour réduire ce fardeau. L’un d’entre eux consiste à recourir à l’intelligence artificielle pour interpréter les dossiers médicaux, les tests et les images. Cependant, une méta-analyse récente a montré que les médecins surpassent souvent les LLMs, et que la performance de ces derniers varie fortement, y compris d’une spécialité médicale à l’autre. Les grands modèles de langage sont en effet à l’origine d’erreurs causées par exemple par des hallucinations ou des biais.

Une équipe de recherche internationale, dirigée par l’Institut Max Planck pour le développement humain (Allemagne) en collaboration avec le Human Diagnosis Project (San Francisco) et l’Institut des sciences et technologies cognitives du Conseil national de la recherche italien (CNR-ISTC Rome) a donc mené une étude visant à comparer la précision des diagnostics médicaux posés par :

  • Des humains seuls (médecins).
  • Des IA seules (modèles comme ChatGPT, Claude, etc.).
  • Des groupes hybrides humains–IA.

Pour tester l’efficacité des diagnostics médicaux, les chercheurs ont utilisé plus de 2 100 cas cliniques inspirés de situations réelles. À partir de ces scénarios, ils ont confronté les réponses de médecins, d’intelligences artificielles, et de collectifs mêlant les deux. Au total, plus de 40 000 diagnostics ont été passés au crible, permettant de comparer la précision de chaque approche dans des conditions identiques.

Les résultats de leurs travaux ont été publiés le 13 juin dans la revue PNAS.

Résultats : une précision diagnostique dopée par le duo médecin/IA

  • Les collectifs d’IA ont surpassé 85 % des humains.
  • Le taux d’erreur était réduit d’environ 20–25 %, soit une précision d’environ 75 à 80 % quand humain et IA travaillent ensemble.
  • Dans 34 à 54 % des, l’IA seule ne parvient pas à identifier le bon diagnostic tandis que l’humain seul pose un diagnostic erroné dans 40 à 50 % des situations.
  • Quand l’IA se trompe, l’humain établit le bon diagnostic dans 30 à 38 % des situations.
  • A l’inverse quand l’humain se trompe, l’IA donne le bon diagnostic dans 31 à 51 % des cas.

« Rattraper les erreurs »

Ces résultats se vérifient dans différentes spécialités médicales et avec des niveaux d’expérience variés. « Nos résultats montrent que la coopération entre humains et modèles d’IA a un grand potentiel pour améliorer la sécurité des patients », explique Nikolas Zöller, chercheur postdoctoral au Centre de rationalité adaptative de l’Institut Max Planck pour le développement humain. Cette plus grande fiabilité de diagnostic s’explique : « Lorsque les LLMs manquent le bon diagnostic, les médecins le trouvent souvent, ce qui permet au collectif hybride de « rattraper » l’erreur », expliquent les auteurs de l’étude. Cependant, il faut souligner que les résultats s’appuient uniquement sur des vignettes textuelles, et non sur des cas réels en situation.

Des forces complémentaires

Par ailleurs, cette bonne complémentarité humains-IA fait dire aux chercheurs qu’ « il est temps de lancer une seconde vague de recherche sur les LLMs (et sur l’IA en général), qui ne se contente plus de montrer ce qu’ils savent faire, mais de proposer des solutions techniques à leurs défauts, ou de spéculer sur la manière d’implémenter un contrôle humain. » « Il devient crucial d’étudier comment tirer parti des forces complémentaires de l’humain et de l’IA, en combinant l’expérience et le bon sens des experts avec la vaste capacité de traitement d’information des LLMs », concluent-ils.

*  Human–AI collectives most accurately diagnose clinical vignettes

Zöller, J. Berger, I. Lin, N. Fu, J. Komarneni, G. Barabucci, K. Laskowski, V. Shia, B. Harack, E.A. Chu, V. Trianni, R.H.J.M. Kurvers, & S.M. Herzog,

Proc. Natl. Acad. Sci. U.S.A. 122 (24)

https://www.pnas.org/doi/10.1073/pnas.2426153122