3 juillet 2025 Nabil Bouamama

IA médicale en Chine : un benchmark national dévoile des failles critiques

Une étude inédite menée en Chine met en lumière les vulnérabilités éthiques et sécuritaires des modèles linguistiques médicaux (LLM). Alors que leur déploiement clinique s’accélère, les mécanismes de contrôle et de régulation peinent à suivre.

LLM médicaux en Chine : entre essor technologique et usages cliniques intensifs

Portés par l’ambitieuse initiative gouvernementale Healthy China, les modèles linguistiques à grande échelle (LLM) sont désormais au cœur des services hospitaliers. En 2025, plus de 35 hôpitaux pilotes testent activement des LLM cliniques. Ces systèmes, capables d’assister les professionnels dans la rédaction de notes, le diagnostic ou encore l’éducation thérapeutique, s’intègrent dans les flux médicaux quotidiens. Par exemple, le modèle Qwen, déployé dans les services de médecine interne et d’oncologie, affiche après ajustement fin (fine-tuning) :

  • Une amélioration de 19 % des performances diagnostiques.
  • Une réduction de 30 % des recommandations à risque.

Une évaluation comparative pionnière et rigoureuse

Malgré l’adoption en 2024 de la Constitution de l’IA médicale en Chine, des zones grises persistent. L’équipe du Shanghai AI Laboratory, spécialisée en IA appliquée à la santé, a conçu un benchmark de référence reposant sur 12 000 scénarios cliniques réalistes, explorant 11 dimensions éthiques et 9 critères de sécurité. Le protocole méthodologique, rigoureux, s’appuie sur :

  • Une exécution en environnement sécurisé en mai 2025.
  • Une analyse croisée de l’exactitude, des hallucinations et du raisonnement éthique.
  • Des données validées par des cliniciens et éthiciens.

Des lacunes critiques révélées par 49 % d’erreurs en situation non anticipée Les résultats soulignent des fragilités structurelles préoccupantes :

  • Les modèles Qwen et DeepSeek produisent des réponses erronées dans 49 % des cas non anticipés par les données d’entraînement.
  • Le respect des principes de justice et d’équité plafonne à 60 %.
  • Des posologies pédiatriques inexactes persistent de manière préoccupante.

L’évaluation met également en évidence :

  • Une gestion lacunaire de la confidentialité des données et des consentements.
  • L’absence de protocoles d’audit éthique pré-déploiement.
  • Des comités d’éthique hospitaliers (IRB) insuffisamment formés à l’IA, souvent en retard dans leurs évaluations.

Encadrer l’IA médicale : une gouvernance systémique en urgence

Les auteurs de l’étude appellent à la mise en place d’une gouvernance robuste et multidisciplinaire pour encadrer les LLM en santé, avec plusieurs recommandations concrètes :

  • L’adoption de lignes directrices internes sur l’éthique algorithmique dans chaque structure.
  • La mise en œuvre de tests de simulation clinique avant tout déploiement.
  • La création de comités IA spécialisés intégrant cliniciens, informaticiens, éthiciens et juristes dans chaque hôpital.