Les assistants IA jugés souvent peu fiables comme source d'information
Les assistants IA comme ChatGPT, Copilot ou Gemini fournissent des réponses erronées ou trompeuses sur l'actualité dans près de la moitié des cas, révèle mercredi une étude européenne menée par l'Union Européenne de Radio-Télévision (UER) et la BBC, à laquelle la VRT et la RTBF ont également participé.
Au total, 22 radiodiffuseurs publics de 18 pays ont pris part à cette étude. Pas moins de 45% des réponses testées contenaient des erreurs, allant de sources incorrectes à des inexactitudes factuelles. Les références aux sources constituaient le principal point faible : dans 31% des cas, les renvois étaient absents ou incorrects. En outre, 20% des réponses comportaient des erreurs factuelles claires, telles que des informations obsolètes ou entièrement inventées.
L'assistant Gemini de Google a obtenu le plus mauvais score, avec des problèmes jugés importants relevés dans 76% de ses réponses.
Problèmes systématiques
L'étude s'appuie sur des recherches antérieures menées par la BBC et confirme que les problèmes sont systématiques. L'évaluation a porté sur plus de 3.000 réponses générées par l'IA, examinées par des journalistes professionnels des pays participants.
La VRT cite un exemple concret : lorsque les chercheurs ont demandé quelles étaient les dernières informations concernant la crise au sein de l'Open VLD, Gemini a fourni une réponse mentionnant Paul Van Tigchelt comme ministre de la Justice. "Alors qu'il n'occupe plus cette fonction depuis longtemps", explique Karel Degraeve, expert en innovation à VRT NWS. "Il était également question de l'impact sur la formation du gouvernement après les élections, alors que celles-ci étaient déjà terminées".
"Une relecture et une validation humaine restent absolument indispensables."
"Les constats varient d'un média à l'autre. Dans l'échantillon RTBF, nous avons trouvé 8% de réponses qui contiennent une inexactitude significative. C'est nettement moins que la moyenne de l'étude - 20% - mais c'est déjà beaucoup trop", alerte Yves Thiran, coordinateur du projet à la RTBF.
De telles erreurs démontrent, selon les chercheurs, que les chatbots IA peinent à ordonner correctement les faits d'actualité et à distinguer les informations anciennes des nouvelles. "Cette étude confirme qu'on ne peut pas faire confiance, aujourd'hui, aux modèles de langage pour fournir une information fiable : une relecture et une validation humaine restent absolument indispensables chaque fois qu'on confie à l'IA générative une tâche dans l'univers de l'info", conclut M. Thiran.