Lucie a été désactivée 3 jours après sa publication sur Internet.
©cottonbro studio/Pexels
Société

Que s’est-il passé avec Lucie, l’IA générative du CNRS, suspendue 3 jours après son lancement ?

Désactivée 3 jours seulement après avoir été rendue publique, l’IA générative Lucie a été longuement moquée sur Internet. Mais ses erreurs absurdes signifient-elles vraiment un dysfonctionnement ? 

"Œufs de vache", faute de mathématiques basiques... Les erreurs aberrantes de l’IA générative Lucie, soutenue par le CNRS, ont marqué les internautes. Rendue accessible au grand public le 23 janvier, elle a été désactivée seulement 3 jours plus tard. 

Le projet était pourtant particulièrement prometteur. Il est développé par Linagora, un éditeur français de logiciels en open source, c’est-à-dire que le code de ces logiciels est en accès libre, les rendant gratuits ou peu chers, en partenariat avec OpenLLM France, un consortium d’acteurs privés et publics de la recherche sur l'intelligence artificielle générative, dont fait partie le CNRS. 

Financée par le Secrétariat général pour l’investissement dans le cadre du plan d’investissement France 2030, Lucie a été créée à destination de l’Éducation nationale. Elle doit permettre aux écoliers français d’être formés à l’IA générative, en utilisant des outils éthiques. 

Une IA transparente et éthique 

Les créateurs de Lucie l’ont voulue transparente et tournée vers l’Europe. Pour cela, ils l’ont entraîné avec des données multilingues, en insistant sur le français. Elle peut ainsi dévoiler tout son potentiel dans la langue de Molière, tandis que les IA américaines sont souvent bien plus efficaces en anglais car elles sont surtout entraînées sur des données anglophones. 

Mais son vrai tournant éthique se manifeste dans la publication de ses données d’entraînement, faisant de Lucie la première IA générative entièrement en open source. Le Chat, développé par la startup française Mistral AI, revendique aussi cette appellation, mais seule une partie des données est aujourd’hui publique. 

Un fiasco total ?

Si les promesses de Lucie sont alléchantes, force est de constater qu’elle ne fait pas le poids face à ChatGPT, le leader américain. Les remarques des internautes étaient acerbes à propos des réponses illogiques et absurdes de l’IA.

Mais est-ce vraiment le signe d’un échec ? Pas du tout. Si Lucie commet des erreurs, c’est parce qu’elle est encore en train d’apprendre. Alexandre Zapolsky, fondateur de Linagora, rappelle sur son compte X que Lucie est "un projet de recherche exploratoire académique".

Il faut avoir en tête que l’entraînement des IA génératives est un long processus. Le modèle doit d’abord apprendre les langues dans lesquelles il est attendu qu’il converse lors d’un processus très gourmand en énergie. Pour cela, l’IA va s’entraîner à faire des liens entre des "tokens". Un token représente une unité de donnée comprise par une IA. Il peut s’agit d’une partie de phrase, d’un mot ou d’une partie de mot. Guillaume Laforge, développeur chez Google, a créé un outil permettant de "visualiser" les tokens d’une phrase.

À lire aussi :  "L’écologie à la maison"

Le processus n’est toutefois pas terminé. L'IA est ensuite analysée par un humain, qui, à l’aide d’un jeu de questions-réponses, va corriger ses réponses. C’est l’étape du RHLF, ou Reinforcement Learning from Human Feedback. Elle va permettre à l’IA de faire des liens entre la question posée et les connaissances qu’elle possède dans le but d’y apporter une réponse juste. 

Si les réponses de Lucie ont frappé les internautes qui ont eu l’occasion de la tester, c’est parce qu’elle n’a pas encore subi cette dernière étape. Elle peut donc formuler des phrases qui ont a priori un sens en français, mais elle manque encore d’entraînement lorsqu’il s’agit de répondre à des questions précises. 

Aucune date n’a encore été communiquée à propos du retour de Lucie, mais le projet est loin d'être abandonné.