Les chatbots d’IA moins performants que les moteurs de recherche pour les conseils médicaux

Les chatbots d’IA comme ChatGPT présentent un risque pour les personnes qui recherchent des conseils médicaux, en raison de leur tendance à fournir des informations inexactes et incohérentes. C’est ce qui ressort d’une étude menée par l’Oxford Internet Institute.

Bien que les large language models (LLM) qui sous-tendent des chatbots tels que ChatGPT, Claude ou Google Gemini réussissent des tests standardisés de connaissances médicales, ils constituent un risque réel pour les utilisateurs confrontés à de véritables problèmes de santé. Telle est la conclusion d’une recherche menée par l’Oxford Internet Institute et le Nuffield Department of Primary Care Health Sciences de l’Université d’Oxford.

Pas meilleurs que les méthodes traditionnelles

Dans cette étude, les chercheurs ont réalisé un essai randomisé auprès de près de 1.300 participants en ligne. Les participants ont utilisé des LLM pour identifier leurs problèmes de santé, les analyser et décider de la démarche appropriée, comme consulter un médecin généraliste ou se rendre à l’hôpital.

Pour ce faire, ils se sont appuyés sur une série de scénarios médicaux spécifiques élaborés par des médecins. Ces scénarios détaillés allaient, par exemple, d’un jeune homme souffrant de violents maux de tête après une soirée entre amis, à une jeune mère se sentant constamment essoufflée et épuisée.

Un groupe a utilisé un modèle de langage pour soutenir sa prise de décision, tandis qu’un groupe de contrôle a recouru à d’autres sources d’information traditionnelles (comme Google). Les chercheurs ont ensuite évalué la précision avec laquelle les participants identifiaient les problèmes médicaux probables et la démarche de suivi la plus appropriée, telle qu’une consultation chez le généraliste ou un passage aux urgences.

Ils ont également comparé ces résultats à ceux obtenus lors de tests standardisés des modèles de langage. Le contraste est frappant : des modèles performants lors des benchmark tests ont échoué lorsqu’ils ont été utilisés en interaction avec des personnes.

L’étude met en lumière une double défaillance de la communication. Les participants ne savaient souvent pas quelles informations fournir aux LLM pour obtenir un conseil précis. Les réponses reçues des chatbots combinaient fréquemment de bonnes et de mauvaises recommandations, rendant difficile l’identification de la meilleure conduite à tenir.

Dans le cas le plus extrême, deux utilisateurs décrivant des symptômes d’hémorragie sous-arachnoïdienne ont reçu des conseils contradictoires. L’un s’est vu recommander de s’allonger dans une pièce sombre, tandis que l’autre a reçu le conseil approprié de contacter immédiatement les services d’urgence.

« Dans la pratique clinique, les médecins mènent des entretiens avec les patients afin de recueillir les informations essentielles, car les patients ne savent pas toujours quels symptômes sont importants », écrivent les chercheurs. Les chatbots d’IA ne disposent pas de ces compétences diagnostiques.

« Malgré tout le battage médiatique, l’IA n’est tout simplement pas encore prête à assumer le rôle de médecin. »

Les tests actuels sont insuffisants

Ces conclusions contrastent fortement avec l’enthousiasme médiatique autour de « chatbots capables de réussir des examens de médecine ». Les méthodes actuelles d’évaluation des LLM ne reflètent pas la complexité des interactions avec de véritables utilisateurs humains, concluent les chercheurs. À l’instar des essais cliniques pour de nouveaux médicaments, les systèmes LLM devraient être testés en conditions réelles avant d’être déployés.

« Ces résultats soulignent la difficulté de concevoir des systèmes d’IA capables de soutenir réellement les personnes dans des domaines sensibles et à haut risque comme les soins de santé », explique la Dre Rebecca Payne, médecin généraliste, chercheuse principale de l’étude et maîtresse de conférences clinique à la Bangor University. « Malgré toute la hype, l’IA n’est tout simplement pas prête à remplacer un médecin. Les patients doivent être conscients qu’il peut être dangereux de soumettre des symptômes à un chatbot. Cela peut conduire à des diagnostics erronés et à ne pas reconnaître des situations nécessitant une aide urgente. »

« L’écart entre les scores obtenus dans les benchmarks et les performances en situation réelle devrait constituer un signal d’alarme pour les développeurs d’IA et les régulateurs », ajoute le Dr Adam Mahdi, auteur principal de l’étude et maître de conférences au Reasoning with Machines Lab de l’Oxford Internet Institute. « Nos recherches récentes sur la validité des constructions dans les benchmarks montrent que de nombreuses évaluations ne mesurent pas ce qu’elles prétendent mesurer, et cette étude illustre précisément pourquoi cela est crucial. »

« Nous ne pouvons pas nous contenter de tests de référence standardisés pour déterminer si ces systèmes sont sûrs pour un usage public. Tout comme nous exigeons des essais cliniques pour les nouveaux médicaments, les systèmes d’IA ont besoin de tests rigoureux impliquant des utilisateurs réels et diversifiés afin de comprendre leurs capacités réelles dans des environnements à haut risque comme les soins de santé. »

Andrew M. Bean et al, Reliability of LLMs as medical assistants for the general public : a randomised preregistered study. Nature Medicine (2026)

Les chatbots d’IA moins performants que les moteurs de recherche pour les conseils médicaux

Pas meilleurs que les méthodes traditionnelles

Les tests actuels sont insuffisants

Wat heb je nodig

Articles connexes

Le site de Jolimont (CHU Helora) désormais Trauma Center suprarégional niveau 1

À l'H.U.B., une consultation ambulatoire spécialisée pour la dépression résistante

Des membres du personnel d'un hôpital psychiatrique bruxellois agressé à l'arme blanche

L'Hôpital de la Citadelle obtient la certification « Top Employers 2025 »

Édition Récente
19 juin 2025

Les chatbots d’IA moins performants que les moteurs de recherche pour les conseils médicaux

Pas meilleurs que les méthodes traditionnelles

Les tests actuels sont insuffisants

Wat heb je nodig

Articles connexes

Le site de Jolimont (CHU Helora) désormais Trauma Center suprarégional niveau 1

À l'H.U.B., une consultation ambulatoire spécialisée pour la dépression résistante

Des membres du personnel d'un hôpital psychiatrique bruxellois agressé à l'arme blanche

L'Hôpital de la Citadelle obtient la certification « Top Employers 2025 »

Édition Récente19 juin 2025

Édition Récente
19 juin 2025