Ai in de geneeskunde

 AI-chatbots minder nuttig dan zoekmachines voor medisch advies

AI-chatbots zoals ChatGPT vormen een risico voor mensen die medisch advies zoeken, vanwege hun neiging om onnauwkeurige en inconsistente informatie te verstrekken. Dat blijkt uit een onderzoek van het Oxford Internet Institute.

Hoewel de large language models (LLM's) die ten grondslag liggen aan chatbots zoals ChatGPT, Claude en Google Gemini,  slagen in gestandaardiseerde tests over medische kennis, vormen ze een reëel risico voor echte gebruikers die hulp zoeken bij medische klachten. Dat is de conclusie van onderzoek van het Oxford Internet Institute en de Nuffield Department of Primary Care Health Sciences aan de Universiteit van Oxford.

Niet beter dan traditionele methoden

In het onderzoek voerden onderzoekers een gerandomiseerd onderzoek uit met bijna 1300 online deelnemers. De deelnemers gebruikten LLM's om hun gezondheidsproblemen te identificeren, te onderzoeken en te beslissen over een passende aanpak, zoals een bezoek aan de huisarts of een ziekenhuisbezoek.

Ze gebruikten daarvoor een reeks specifieke medische scenario's die door artsen waren ontwikkeld. De gedetailleerde scenario's varieerden van een jonge man die bijvoorbeeld na een avondje uit met vrienden ernstige hoofdpijn kreeg, tot een jonge moeder die zich constant kortademig en uitgeput voelde.

Een groep gebruikte een taalmodel om hun besluitvorming te ondersteunen, terwijl een controlegroep andere traditionele informatiebronnen (zoals Google) gebruikte. De onderzoekers evalueerden vervolgens hoe nauwkeurig de deelnemers de waarschijnlijke medische problemen en de meest geschikte vervolgstap, zoals een bezoek aan de huisarts of de spoedeisende hulp, identificeerden.

Ze vergeleken deze resultaten ook met de resultaten van standaard teststrategieën voor taalmodellen. Het contrast was opvallend; Modellen die goed presteerden in benchmarktests, faalden bij interactie met mensen.

De studie bracht een dubbele communicatiestoring aan het licht. Deelnemers wisten vaak niet welke informatie de LLM's nodig hadden om nauwkeurig advies te geven. De reacties die ze van de chatbots ontvingen, combineerden vaak goede en slechte aanbevelingen, waardoor het moeilijk was om de beste handelwijze te bepalen.

In het meest extreme geval kregen twee gebruikers die symptomen van een subarachnoïdale bloeding beschreven tegenstrijdig advies. De ene gebruiker kreeg te horen dat hij in een donkere kamer moest gaan liggen, terwijl de andere gebruiker het juiste advies kreeg om onmiddellijk spoedeisende hulp in te schakelen.

"In de klinische praktijk voeren artsen gesprekken met patiënten om de belangrijkste informatie te verzamelen, omdat patiënten mogelijk niet weten welke symptomen belangrijk zijn", schrijven de onderzoekers. AI-chatbots missen deze diagnostische competenties.

“Ondanks alle hype is AI er gewoon nog niet klaar voor om de rol van arts over te nemen."

Bestaande tests schieten tekort

De bevindingen staan in schril contrast tot de mediahype rond "chatbots die slagen voor geneeskunde-examens." De huidige evaluatiemethoden voor LLM's weerspiegelen niet de complexiteit van de interactie met menselijke gebruikers, besluiten de onderzoekers. Net als klinische onderzoeken naar nieuwe medicijnen, zouden LLM-systemen in de praktijk getest moeten worden voordat ze worden ingezet.

"Deze bevindingen benadrukken de moeilijkheid om AI-systemen te bouwen die mensen daadwerkelijk kunnen ondersteunen in gevoelige, risicovolle gebieden zoals de gezondheidszorg", zegt Dr. Rebecca Payne, huisarts, hoofdonderzoeker van de studie en klinisch hoofddocent aan de Bangor University. “Ondanks alle hype is AI er gewoon nog niet klaar voor om de rol van arts over te nemen. Patiënten moeten zich ervan bewust zijn dat het gevaarlijk kan zijn om symptomen voor te leggen aan een chatbot. Dit kan leiden tot verkeerde diagnoses en het niet herkennen wanneer er dringend hulp nodig is.”

"De discrepantie tussen benchmarkscores en prestaties in de praktijk zou een waarschuwing moeten zijn voor AI-ontwikkelaars en regelgevers", zegt senior auteur Dr. Adam Mahdi, universitair hoofddocent bij het Reasoning with Machines Lab (OxRML) van het Oxford Internet Institute. "Ons recente onderzoek naar constructvaliditeit in benchmarks laat zien dat veel evaluaties niet meten wat ze beweren te meten, en deze studie laat precies zien waarom dat belangrijk is."

"We kunnen niet alleen op gestandaardiseerde benchmarktests vertrouwen om te bepalen of deze systemen veilig zijn voor gebruik door het publiek. Net zoals we klinische proeven vereisen voor nieuwe medicijnen, hebben AI-systemen rigoureuze tests nodig met diverse, echte gebruikers om hun werkelijke mogelijkheden te begrijpen in risicovolle omgevingen zoals de gezondheidszorg."

Andrew M. Bean e.a., Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026)

Wat heb je nodig

Krijg GRATIS toegang tot het artikel
of
Proef ons gratis!Word één maand gratis premium partner en ontdek alle unieke voordelen die wij u te bieden hebben.
  • checkwekelijkse newsletter met nieuws uit uw vakbranche
  • checkdigitale toegang tot 35 vakbladen en financiële sectoroverzichten
  • checkuw bedrijfsnieuws op een selectie van vakwebsites
  • checkmaximale zichtbaarheid voor uw bedrijf
Heeft u al een abonnement? 
Geschreven door Erik Derycke10 februari 2026
Print Magazine

Recente Editie
19 juni 2025

Nu lezen

Ontdek de nieuwste editie van ons magazine, boordevol inspirerende artikelen, diepgaande inzichten en prachtige visuals. Laat je meenemen op een reis door de meest actuele onderwerpen en verhalen die je niet wilt missen.

In dit magazine