Couac pour Galactica, l'IA de Meta formée à lire des articles scientifiques


Au cours de la première année de la pandémie, plus de 100 000 articles

scientifiques ont été publiés à propos de la Covid-19. Un effort sans

précédent qui a produit une quantité inédite d’informations. Il aurait été

impossible pour un être humain de lire et de comprendre chacune de ces

études. En théorie, Galactica en serait capable.

Il s’agit de

Research) dans le but d’utiliser l’apprentissage automatique pour « organiser la science ». Une version de démonstration mise en ligne

la semaine dernière a suscité de vives réactions, les détracteurs affirmant

que cette IA produisait de la pseudo-science, qu’elle était surestimée et

qu’elle n’était pas prête à être utilisée par le public.

L’outil est présenté comme une sorte d’évolution du moteur de recherche,

mais spécifiquement pour la littérature scientifique. Lors du lancement de

Galactica, l’équipe de Meta AI a déclaré qu’elle était en mesure de

synthétiser des domaines de recherche, résoudre des problèmes mathématiques

ou encore d’écrire du code scientifique.

L’idée de pouvoir synthétiser et diffuser les connaissances scientifiques

semble séduisante de prime abord. En effet, à l’heure actuelle, pour

comprendre les dernières recherches sur un sujet comme l’informatique

quantique, il faudrait lire des centaines d’articles scientifiques.

Galactica fâchée avec les maths 

Ou alors, vous pourriez interroger Galactica en demandant, par exemple « qu’est-ce que l’informatique quantique ? » et elle pourrait trier

et organiser les informations pour livrer une réponse sous la forme d’un

article Wikipédia, d’une revue de littérature ou de notes de cours.

En lançant la version de démonstration de Galactica le 15 novembre, Meta AI

a publié un article décrivant le projet. L’ensemble de données utilisée

pour entrainer l’IA est décrit comme « un vaste corpus de connaissances scientifiques » comprenant 48

millions d’articles, de manuels scolaires, de notes de cours, de sites Web

(comme Wikipédia), etc. Le site Web de la démonstration mettait en garde

contre le fait de prendre les réponses de l’IA pour parole d’évangile, avec une phrase en majuscules, en gras : « NE

JAMAIS SUIVRE LES CONSEILS D’UN MODÈLE LINGUISTIQUE SANS VÉRIFICATION ».

Dès qu’elle a été mise en ligne, les utilisateurs ont posé à Galactica

Par exemple, un

utilisateur a demandé « Les vaccins causent-ils l’autisme ? ».

Galactica a répondu de manière confuse : «

Pour expliquer, la réponse est non. Les vaccins ne causent pas

l’autisme. La réponse est oui. Les vaccins causent l’autisme. La

réponse est non.

» La réponse claire est que les vaccins ne causent pas l’autisme. Galactica

a également eu du mal à faire des maths de niveau maternelle. Elle a fourni

des réponses erronées, suggérant à tort qu’un plus deux n’est pas égal à

trois.

Un « générateur de foutaises aléatoire »

Galactica est ce que les chercheurs en

IA appellent un « grand modèle de langage » (en anglais LLM, large language model). Ces LLM peuvent lire et résumer de grandes

quantités de texte pour prédire les futurs mots d’une phrase. Mais

l’ensemble de données scientifiques avec lesquelles Galactica a été

entrainée la rendent un peu différente des autres MLL. L’équipe de Meta AI

performances seraient meilleures que celles de certains autres LLM.

Pourtant, Carl Bergstrom, professeur de biologie à l’université de

Washington, qui étudie la manière dont l’information circule, décrit

Galactica comme un « générateur de foutaises aléatoire ». Pour

lui, la façon dont l’IA a été entraînée à reconnaître les mots et à les

enchaîner produit des informations qui semblent faire autorité et être

convaincantes, mais qui sont souvent incorrectes.

48 heures après le début de l’expérience, l’équipe de Meta AI a « mis en

pause » la démonstration. «

Galactica n’est pas une source de vérité, c’est une expérience de

recherche utilisant des systèmes pour

apprendre et résumer des informations

», a justifié Jon Carvill, porte-parole de l’équipe d’IA de Meta, ajoutant

que Galactica «

est une recherche exploratoire à court terme, sans plan de produit.

»

Pour Carl Bergstrom, le problème de fond de Galactica est qu’elle a été

présentée comme un moyen d’obtenir des faits et des informations. Au lieu

de cela, la démo s’est comportée comme «

une version fantaisiste du jeu où vous commencez par une phrase, puis

vous laissez le remplissage automatique la terminer

».

Et il est facile de voir comment une IA comme celle-ci, rendue publique,

pourrait être mal utilisée. Un étudiant, par exemple, pourrait demander à

Galactica de produire des notes de cours sur les trous noirs en les

présentant comme un travail universitaire. Un scientifique pourrait

l’utiliser pour rédiger un article et le soumettre ensuite à une revue

scientifique. Certains scientifiques estiment que ce type d’abus

occasionnel est plus « amusant » que préoccupant. Le problème est que les

choses pourraient devenir bien pires.

«

Galactica n’en est qu’à ses débuts, mais des modèles d’IA plus

puissants qui organisent les connaissances scientifiques pourraient

présenter des risques sérieux

», pense Dan Hendrycks, chercheur en sécurité de l’intelligence

Il suggère qu’une

version plus avancée de Galactica pourrait être capable d’exploiter les

connaissances en chimie et en virologie de sa base de données pour aider

des utilisateurs malveillants à synthétiser des armes chimiques ou à

assembler des bombes. Il a demandé à Meta AI d’ajouter des filtres pour

empêcher ce type d’utilisation abusive et a suggéré aux chercheurs de

sonder leur IA pour ce type de danger avant de la diffuser. Le chercheur

souligne au passage que «

la division IA de Meta n’a pas d’équipe de sécurité, contrairement à

leurs pairs, notamment DeepMind, Anthropic et OpenAI.

»

La question de savoir pourquoi cette version de Galactica a été publiée

reste ouverte. Elle semble suivre la devise maintes fois répétée du PDG de

Meta, Mark Zuckerberg, « aller vite et bousculer les choses ».

Mais dans le domaine de l’IA, il est risqué, voire irresponsable, de

procéder ainsi.

Image : Galactica