Antoine Bordes en est convaincu : l’intégrité des puissantes intelligences artificielles passe par une plus grande transparence. Et les structures pour que ces IA soient développées en toute sécurité existent. La solution pour contrer le développement anarchique et potentiellement dangereux de ces systèmes est, pour lui, de les mettre en open source (libre accès) afin que chacun puisse les analyser.
Cet ingénieur star de l’intelligence artificielle mondiale a récemment quitté Meta, dont il dirigeait le laboratoire d’IA aux côtés de Yann Le Cun. Il est aujourd’hui vice-président d’Helsing, la grande start-up européenne des technologies de défense. Au cours de ses huit années chez Meta, Bordes a mené la mise au point de Llama, un de ces grands modèles de langage comparables à GPT d’OpenAI ou à Bard de Google.
Sa dernière version (Llama 2) a été lancée le 19 juillet.Ces grands modèles de langage (large langage models ou LLM) fascinent autant qu’ils inquiètent. Ils ont démontré d’extraordinaires capacités de résolution de problèmes complexes ou d’apprentissage des langues.
On leur prête même des étincelles d’intelligence qui intéressent les sciences cognitives ou les neurosciences autant que l’informatique et les mathématiques. « Les capacités qui sont développées autour de GPT-4 sont incroyables, juge Antoine Bordes. Ces LLM apprennent très vite, ne nécessitent souvent que peu d’exemples ou d’instructions pour fonctionner.
Personne ne pensait qu’ils deviendraient aussi performants, surtout aussi rapidement. Ils constituent une grande avancée technologique ».Leurs développements s’effectuent actuellement dans un joyeux désordre, stimulé par une avalanche de capitaux sans précédent qui nourrissent une compétition sans merci.
Des entreprises comme OpenAI, les innombrables start-up qui ont suivi le mouvement, et évidemment les géants de la tech sont engagés dans une course ayant pour enjeu la suprématie dans les LLM, dont les applications semblent infinies. Dans un tel maelström, les précautions cèdent souvent le pas à la nécessité d’aller vite et de prendre de court la concurrence.
« J’ai du mal à répondre sur la question de la sécurité »
A la tête du laboratoire d’intelligence artificielle de Meta jusqu’en février 2023 et ancien du CNRS, Antoine Bordes fut aux premières loges de cette course à l’innovation.
Quand on lui demande s’il estime que les LLM sont produits dans des conditions satisfaisantes de sécurité, il ne cache pas ses doutes : « Il est difficile de répondre avec certitude. Je sais comment Llama a été conçu. Il a été mis en open source, et il a donné lieu à des articles scientifiques.
Comment se situe GPT-4 sur ce plan ? Je ne sais pas. Cela tient à la confiance qu’il faut avoir en Sam Altman [NDLR : le fondateur d’OpenAI]. La communauté dispose du papier écrit par son équipe et d’un rapport d’essai.
Normalement, dans l’ingénierie, on a des processus de contrôle et de certification. Ces modèles n’y sont pas soumis. A minima, on recourt à l’open sourcing [NDLR : qui consiste à mettre des éléments clefs à la disposition de la communauté scientifique], qui donne lieu à des publications d’articles, soumis à la vérification des pairs.
Là, on n’a aucun des deux, donc j’ai du mal à répondre sur la question de la sécurité. »La nécessité de transparence à laquelle fait référence Antoine Bordes est une composante essentielle de tout processus scientifique, quelle que soit la discipline. En science informatique, et face aux dangers des LLM, ce processus serait bien plus efficace que l’épais catalogue législatif de l’IA Act en cours de déploiement par la Commission et le Parlement européen.
Comprendre ces modèles opaques nécessite d’aller les explorer en profondeur pour analyser leur fonctionnement. Cette discipline est celle de l’explicabilité, avec sa variante qui est la traçabilité : savoir comment un modèle parvient à une conclusion, qu’il s’agisse de la réponse à une question, d’une recommandation ou de la génération d’un bloc de code informatique destiné à accomplir telle ou telle fonction.Les auteurs de ces IA invoquent le caractère impénétrable de ces modèles pour arguer de l’impossibilité de les analyser.
Ils font même le rapprochement avec le cerveau humain. A les entendre, même au moyen d’une IRM fonctionnelle – qui rend visibles les zones du cerveau qui s’activent lorsqu’une personne placée dans la machine effectue des tâches -, les résultats sont approximatifs. Quant à détecter avec précision quels sont les « nœuds d’activation » sollicités, c’est une tâche impossible… « Peut-être, mais il existe d’autres moyens, avance Antoine Bordes.
Les sciences cognitives offrent d’ailleurs un parallèle intéressant. Pour étudier le cerveau, on le soumet à une série de stimuli afin d’analyser les réactions. Comme pour l’IA, il s’agit d’objets complexes.
Mais tout ce qui est explicabilité reste très difficile. » Les scientifiques étudient de multiples pistes, par exemple des systèmes où des réseaux de neurones seraient analysés par d’autres réseaux. Mais avec une architecture aussi vaste, explique Bordes, on touche là à des limites fondamentales.
La progression de la complexité des grandes IA génératives ne semble pas vouloir marquer le pas, si l’on en juge par la profondeur de leur structure interne. A ce stade, une précision technique s’impose. La performance d’un modèle se mesure généralement au nombre de paramètres qu’il contient.
Schématiquement, le paramètre est une valeur, une variable apprise par le modèle à partir des données d’entraînement (des millions de documents), qui lui sert à faire des prédictions lorsqu’on lui présente une situation inédite. De façon très grossière, on peut comparer cela aux mailles d’un immense tamis, chacune d’entre elles ayant une taille variable qui aurait été déterminée lors de la phase d’entraînement où le modèle doit ingérer un déluge de données.
L’intelligence artificielle générale, le graal ultime
En 2016, un réseau de neurones doté de quelques dizaines de millions de paramètres était considéré comme puissant.
Depuis, la progression a été exponentielle : la première version de GPT, en 2018, avait 117 millions de paramètres ; un an plus tard, GPT-2 en comptait 1,5 milliard ; en 2020, GPT-3 en affichait 175 milliards. De sa version 4 OpenAI n’a pas révélé la structure, mais, selon Soumith Chintala, un chercheur de Meta, collègue d’Antoine Bordes, elle compterait 1 770 milliards de paramètres. Pour abstrait que soit ce chiffre, cette multiplication par un facteur de 15 000 en cinq ans traduit la progression fulgurante des IA.
Et il est vraisemblable que cette croissance se poursuive dans les années à venir. Un indice parmi d’autres : le 29 juin, Inflection AI, une start-up californienne, a annoncé une levée de fonds historique de 1,3 milliard de dollars dont l’essentiel sera consacré à l’entraînement de nouveaux modèles. C’est un élément important quand on sait que l’entraînement d’un GPT-4 aurait coûté une centaine de millions de dollars.
Ce chiffre correspond d’ailleurs au montant levé par la start-up française Mistral AI, menée par une équipe de premier plan issue de Meta et de DeepMind (Google), qui a annoncé le 13 juin un financement de 105 millions d’euros après seulement deux mois d’existence. Même si le différentiel de performance ne sera sans doute pas proportionnel, avec un rapport de 1 à 10 entre leurs financements respectifs, ces deux entreprises ne partent pas tout à fait avec les mêmes chances à leur naissance…Interrogé sur les capacités futures de ces grands modèles de langage, dont de nouvelles versions sortiront au cours de l’hiver prochain, Antoine Bordes donne sa définition du graal ultime en sciences informatiques, à savoir l’intelligence artificielle générale ou AGI : « Pour moi, l’AGI est une machine capable de résoudre des tâches extrêmement complexes avec peu de spécifications. On explique un petit peu [au modèle] ce qu’on attend de lui, on donne un ou deux exemples, ou alors on lui indique ce à quoi on souhaite aboutir.
Une AGI serait à mon sens capable d’accomplir la tâche d’une manière convenable, non de façon parfaite. Mais, surtout, elle le ferait extrêmement rapidement. Ensuite, elle serait en mesure d’apprendre pour parvenir à un résultat parfait.
Ma vision de l’AGI est celle d’une structure décentralisée, avec un ’contrôleur’ qui construirait le raisonnement, organiserait la hiérarchie des tâches, leur planification. Ensuite, d’autres modules feraient des analyses, des hypothèses, et généreraient non seulement du texte, mais aussi de l’image, du son, de la vidéo. Ces modules seraient en mesure de communiquer l’un avec l’autre.
On arriverait alors à un ensemble capable de développer une intelligence supérieure à base d’applications et de systèmes collaborant entre eux de façon décentralisée. On aurait aussi des machines capables d’utiliser des outils externes. » Bordes prend l’exemple du LLM qui sait d’ores et déjà utiliser une calculette plutôt que de gaspiller sa propre puissance de calcul pour résoudre une opération mathématique.
Cette inflation de puissance pose la question du contrôle en amont et de la surveillance de ces machines intelligentes. Pour Antoine Bordes, l’argument selon lequel seule une petite coterie d’ingénieurs du privé serait en mesure de gérer la complexité des modèles ne tient pas. Pour lui, il est parfaitement possible d’en vérifier l’intégrité et l’innocuité dans les structures universitaires et publiques existantes : « En premier lieu, le fait de mettre ces briques technologiques de base en open source est ce qu’il y a de plus sûr pour tout le monde.
Ensuite, la meilleure source d’inspiration est ce qui a été fait pour les standards du Web et d’Internet. » Il rappelle qu’à l’origine de nombreux groupes privés contestaient cette idée au nom de la concurrence. C’est le Centre européen de la recherche nucléaire à Genève (le Cern), où ont été développés les protocoles du Web en 1990, qui a poussé à leur ouverture. »
En tout cas, imposer la transparence reste la bonne façon de faire. Par la suite, on peut s’atteler à la régulation des usages. » Quant à l’idée que la compétition du secteur privé contredirait la notion d’open source, Bordes estime que de nombreux exemples démontrent le contraire.
Il cite le système Linux, qui fait fonctionner une grande partie des ordinateurs dans le monde, ou encore des innovations dans les outils logiciels comme PyTorch, créé par Meta, qui a été mis dans une fondation, ou évidemment le modèle Llama, qui a d’abord été confié à des universitaires et dont la version 2 est entièrement en libre accès. / © GETTY IMAGES / ISTOCKAntoine Bordes met aussi en garde contre les simplifications abusives sur la transformation de ces modèles en applications commerciales : « Imaginez que je vous donne un LLM ; vous avez l’accès à GPT-4 dans sa version open source. Je vous souhaite bonne chance pour faire tourner votre application sur une grande échelle permettant de servir un million, voire un milliard d’utilisateurs… D’une façon générale, il est compliqué d’être juge et partie, comme c’est le cas pour OpenAI.
En opposition à cela, on peut considérer deux façons de faire. Le premier est le principe de la recherche scientifique avec open sourcing, contributions scientifiques, donc évaluation par les pairs. C’est un système qui marche depuis longtemps.
Et lorsqu’il n’est pas possible de publier pour des questions de secret industriel, on fait autrement. Prenons un secteur comme la pharmacie, fermé et ultracompétitif. Il est soumis à des processus de certification très clairs par les agences sanitaires, qui vont exiger des tests avec toute la transparence nécessaire.
Par la suite, il y a un système de brevets qui va protéger l’entreprise. »Quid des ressources nécessaires en personnel et matériel pour mener ces certifications ? « Une agence de contrôle, qu’elle soit mondiale, nationale ou européenne, doit avant tout avoir le pouvoir d’agir. Il faut en tout cas qu’elle soit mondiale.
L’AIEA (l’Agence internationale de l’énergie atomique) en est un bon exemple. Ensuite, cette agence doit être en mesure d’imposer son tempo pour mener à bien ses vérifications. Si elle doit retarder de six mois la sortie d’un modèle, alors tant pis. »
Toute régulation suppose, pour un Etat ou une administration, d’avoir une ou plusieurs agences dotées de ressources techniques importantes. Or, les ingénieurs capables de comprendre ces modèles sont rares, donc très recherchés et onéreux. « Les compétences, elles existent évidemment aussi en dehors des entreprises.
Des universités, des centres de recherche disposent de nombreux chercheurs capables d’étudier ces modèles et de poser les bonnes questions. On pourrait créer un consortium avec des institutions en Europe et aux Etats-Unis. Il y aurait sans doute quelque chose d’intéressant à faire avec l’IA Act qui serait d’imposer l’accès des LLM à, par exemple, dix grandes universités.
C’est une idée qui aurait beaucoup de soutien dans la communauté des développeurs de LLM. » Puisse l’Union européenne entendre cette suggestion.