Quand des rats de bibliothèque réveillaient les réseaux de neurones

En 1983, à 23 ans, le Français Yann LeCun est encore étudiant à l’Ecole supérieure d’ingénieurs en électrotechnique et électronique (ESIEE), installée près de la gare Montparnasse à Paris. Ce féru d’informatique et de science passe ses mercredis après-midi libres à Rocquencourt (Yvelines), à la bibliothèque de l’Ins­titut national en robotique et informatique appliquée (Inria), dévorant la littérature scienti­fique de pointe.

          

Il parcourt aussi les rangées de la Fnac, et c’est là qu’il trouve une pile de comptes rendus d’un colloque prospectif tenu à ­Cerisy (Manche) en 1981 et au titre peu attirant : « L’auto-organisation, de la physique au politique ».

          

Les participants, de renom, Henri Atlan, Cornelius Castoriadis, Edgar Morin, René Girard, Isabelle Stengers, Francisco Varela, Jean-Pierre Dupuy… y parlent morphogenèse, automates cellulaires, émergence, système complexe, cybernétique… « Ces actes de Cerisy suggéraient que les participants ne connaissaient pas bien la littérature des années 1960 sur les réseaux de neurones. Mais ils parlaient de “réseaux d’automates”, ce qui se rapprochait des mêmes problématiques », témoigne Yann LeCun, rat de bibliothèque qui, malgré sa jeunesse, en connaissait plus que beaucoup sur le sujet.

          

« C’était la première fois que j’apprenais l’existence de travaux sur des machines capables d’apprendre. J’étais fasciné »
Yann LeCun, chercheur en IA

         

Au moment où il parcourt cette littérature, la notion d’intelligence artificielle (IA) n’est pas en très bonne forme. Les deux écoles qui se sont développées autour d’elle ont connu de sérieux coups d’arrêt. La première est celle des réseaux de neurones et n’a pas rempli les promesses annoncées par son précurseur, Frank Rosenblatt, en 1958 avec sa machine, le Perceptron. La seconde, dite symbolique, qui essaie de reproduire le raisonnement humain par l’enchaînement de règles et de logique, a eu plus de succès mais tout aussi éphémères.

          

« C’est en tombant sur un autre livre à la Fnac en 1980, Théories du langage, théories de l’apprentissage [Seuil, 1979], de Massimo Piattelli-Palmarini, que je m’étais branché sur le Perceptron et la littérature sur le sujet. C’était la première fois que j’apprenais l’existence de travaux sur des machines capables d’apprendre. J’étais fasciné », se souvient Yann LeCun. Il y découvre aussi une curiosité. Dans ce livre, Seymour Papert défend le Perceptron, alors que dix ans plus tôt il avait écrit avec Marvin Minsky un livre pointant les limites de cette machine… Le jeune ingénieur y voit l’espoir de dépasser ces limites.

          

Concept original et pionnier

          

En 1983, après avoir lu les actes du colloque de Cerisy, il pousse donc la porte du laboratoire de Françoise Soulié-Fogelman, une jeune normalienne formée aux maths dont la communication à Cerisy portait sur les réseaux d’automates. Elle convainc l’ingénieur de se lancer dans une thèse, alors qu’elle est en train de finir la sienne. Administrativement, elle ne peut donc l’encadrer, et c’est Maurice Milgram, mathématicien de Paris-VI et présent à Cerisy, qui devient le directeur de thèse de Yann LeCun à partir de 1984. Ce n’est que trois ans plus tard, à la fin de ce travail, que Maurice Milgram se mettra lui-même sur les réseaux de neurones…

          

Yann LeCun est donc assez autonome dans ses travaux, même si Françoise Soulié-Fogelman lui donne des coups de pouce décisifs. En 1984, il part avec elle – et grâce à elle – aux laboratoires Xerox, en Californie, berceau d’inventions célèbres comme les imprimantes laser, les interfaces graphiques commandées à la souris… Ils y mesureront le retard français en matière d’équipements informatiques.

          

En 1985, il fera son premier exposé en anglais lors d’une école d’été aux Houches (Haute-Savoie) consacrée aux systèmes désordonnés et à l’organisation en biologie. Le concept est original et pionnier. Il a été lancé en 1951 par Cécile DeWitt-Morette pour initier les nouvelles générations d’après-guerre à la physique moderne. Les cours se passent le matin et l’après-midi est libre avant que, le soir, reprennent les discussions.

          

Une équipe de rêve

          

L’initiative est déterminante pour notre histoire. Yann LeCun y croise la route de Larry Jackel et de John Denker, physiciens américains des célèbres laboratoires Bell, où furent inventés ou développés le transistor, le laser, la communication par fibre optique… Larry ­Jackel recrutera le jeune Français en 1988, un an après la fin de sa thèse, pour qu’il rejoigne ce qui deviendra une équipe de rêve des réseaux de neurones avec John Denker.

          

Un autre physicien est également présent aux Houches, et c’est d’ailleurs un peu à cause de lui qu’il y a une telle effervescence au­tour des réseaux de neurones. John Hopfield, de l’université Caltech et des laboratoires Bell, a en effet publié en 1982 un article ­faisant le pont entre des objets bien connus des physiciens, les verres de spin, et les ­réseaux de neurones.

          

« A l’époque, faire des avancées en physique nécessitait de grands instruments et de grandes équipes, comme dans les accélérateurs de particules ou les satellites très chers. Comprendre le cerveau m’apparaissait faisable dans de petits laboratoires »
Terry Sejnowski, physicien.

         

Les verres de spin sont des assemblées de petits aimants (soit la tête en « haut », soit la tête en « bas ») en interaction les uns avec les autres. Ces modèles décrivent notamment des matériaux magnétiques. Mais l’analogie inattendue entre ces aimants et les neurones réveille le domaine. « C’est Pierre-Gilles de Gennes [Prix Nobel de physique en 1991] qui un jour m’a apporté l’article de Hopfield », se souvient Gérard Dreyfus, professeur émérite à l’Ecole supérieure de physique et de chimie industrielles de la ville de Paris. Ce dernier, venu de l’électronique, était justement en train de s’orienter vers une autre voie, et cet article tombait à pic. Présent lui aussi aux Houches, il développera la seconde équipe française sur le sujet, concurrente de celle de Françoise Soulié-Fogelman, avec ses deux premiers étudiants, Léon Personnaz et Isabelle Guyon, équipe qui rejoindra aussi celle de Larry Jackel aux laboratoires Bell.

          

Terminons par un dernier physicien, Terry Sejnowski. Sa présence aux Houches est plus naturelle car il avait John Hopfield comme professeur à Princeton, avant le célèbre ­article de 1982. Il est l’un de ceux qui vont contribuer à faire le pont entre la France et les Etats-Unis. Au moment de cette école d’été, il est déjà défroqué, étant passé aux questions de neuroscience. « A l’époque, faire des avancées en physique nécessitait de grands instruments et de grandes équipes, comme dans les accélérateurs de particules ou les satellites très chers. Comprendre le cerveau m’apparaissait faisable dans de petits laboratoires », résume Terry Sejnowski.

          

Au Japon et en Suisse, on s’active aussi

          

Le hasard lui a fait rencontrer l’un des plus anciens acteurs du renouveau des réseaux de neurones artificiels, Geoffrey Hinton. Ce Britannique s’est mis en tête de comprendre le cerveau dans les années 1960, lorsqu’il était étudiant à Cambridge, puis lors de sa thèse en Ecosse en 1972. Soit une année avant la sortie du « rapport Lighthill », qui pointe les faibles avancées du domaine. Autant dire que le sujet n’est pas porteur en Europe, et Geoffrey Hinton s’envole donc pour l’université Stanford puis Carnegie Mellon (Pennsylvanie).

          

« Nous avons commencé à travailler ensemble avec Geoffrey en 1979, moi à Baltimore à l’université John Hopkins et lui à Carnegie Mellon, rappelle Terry Sejnowski. Nous faisions les allers-retours chaque semaine. Nous étions complémentaires, lui avec ses connaissances en psychologie, moi en physique et neuroscience. » Arrivé après les autres aux Houches, il a raté l’exposé de Yann LeCun. Mais celui-ci, qui lors de ses plongées en bibliothèque avait lu les travaux pionniers de son aîné sur une machine « apprenante », publiés un an avant les Houches, est allé lui parler afin d’échanger sur leurs progrès réciproques.

          

Ce même Terry, à son retour des Houches, prévient Geoffrey Hinton des progrès de ce jeune Français qui monte. Dès la fin de sa thèse, tout naturellement, LeCun fait son postdoc chez Geoffrey Hinton, parti pour ­Toronto, au Canada, pour des questions de désaccord avec la politique américaine reaganienne. Puis il s’envole quelques mois plus tard vers le New Jersey et les laboratoires Bell, à l’invitation insistante de Larry Jackel.

             

Résumons. En France, deux groupes ­concurrents émergent sur le thème des réseaux de neurones. L’un naît des envies d’un ingénieur, Yann LeCun, l’autre de l’ébullition suscitée par l’article d’un physicien. Ces pionniers croisent la route de deux futurs leaders nord-américains du domaine, Geoffrey ­Hinton, aux Etats-Unis puis au Canada, et Larry Jackel, aux laboratoires Bell. Une communauté se construit. Mais ils ne sont pas les seuls. Au Japon et en Suisse, on s’active aussi.

          

Au Japon, dans le groupe de recherche en vision et audition de l’opérateur audiovisuel public NHK, Kuhido Fukushima, 82 ans aujourd’hui, a développé, seul, pendant l’« hiver » de sa discipline, ses propres idées autour des réseaux de neurones. « Chaque mois, au début de la création du groupe en 1965, nous invitions un neurophysiologiste et échangions entre nous, mêlant les compétences d’ingénieurs, de psychologues ou de neuroscientifiques, se souvient le chercheur. J’étais fasciné par le mécanisme du traitement de l’information par le cerveau des mammifères. »

          

Nombreux pères méconnus

          

Dès 1979, il programme un réseau de neurones artificiels inspiré de la biologie et plus complexe que le Perceptron, doté de capacités d’apprentissage, qu’il baptise Neocognitron. Son article est publié d’abord en japonais puis, l’année suivante, en 1980, en anglais. Un article que peu de gens ont remarqué… sauf Yann LeCun, lors de ses pérégrinations du mercredi à la bibliothèque de l’Inria.

          

Jürgen Schmidhuber, un des derniers acteurs marquants de cette histoire, l’a remarqué lui aussi. Il est deux ans plus jeune que LeCun mais, dès l’adolescence, en Bavière, il « rêve de construire une machine intelligente apprenant toute seule et qui lui permettra alors de prendre [sa] retraite ». Dans un mémoire rédigé avant d’entamer une thèse à Munich, en 1987, il pose quelques principes sur la notion de méta-apprentissage. Après sa thèse, répondant à une annonce de ­l’Université de la Suisse italienne, à Lugano, il devient directeur de l’Institut Dalle Molle d’intelligence artificielle, rattaché à l’université, et construit un groupe qui se dis­tinguera quelques années plus tard par d’impressionnantes percées.

          

Jürgen Schmidhuber a aussi sorti de l’ombre un article de 1965 d’un mathématicien soviétique d’Ukraine, Alexeï Ivakhnenko, qu’il considère comme le père de ce qui sera baptisé l’« apprentissage profond »

         

Comme Yann LeCun, Jürgen Schmidhuber aime bien fouiller dans les bibliothèques universitaires, car « l’inventeur d’une importante méthode doit être justement crédité pour cela ». Le chercheur est donc aussi devenu célèbre pour ses interventions en conférence, lorsqu’il interrompt l’orateur pour lui dire qu’un autre, souvent lui d’ailleurs, a déjà trouvé ce qui était en train d’être exposé comme étant une première. La revue Bloomberg Businessweek, en mai, a même baptisé cette expérience « se faire schmidhubériser ».

          

En plus de Kuhido Fukushima, Jürgen Schmidhuber a aussi exhumé un colloque original qui s’est tenu à Paris en janvier 1951. Norbert Wiener, père de la cybernétique, y avait joué contre une machine de jeu d’échecs mise au point en 1914 par Leonardo Torres y Quevedo. Warren McCulloch, le physiologiste qui a lancé l’intérêt pour les neurones artificiels, y a présenté son travail. Cinq ans avant le séminaire de Dartmouth (1956), considéré comme l’acte de naissance de l’intelligence artificielle, les participants à ce colloque voulaient faire « de la place aux physiologistes et psychologues qu’intéressent les analogies possibles entre structures électroniques et structures nerveuses ».

          

Jürgen Schmidhuber a aussi sorti de l’ombre un article de 1965 d’un mathématicien soviétique d’Ukraine, Alexeï Ivakhnenko, qu’il considère comme le père de ce qui sera baptisé l’« apprentissage profond », la technique au centre de cette histoire. Ou encore le Finlandais Seppo Linnainmaa qui, en 1970, aurait inventé une méthode « redécouverte » dix ans plus tard par de futures vedettes du domaine. L’intelligence artificielle aurait donc de nombreux pères méconnus : personne avant Schmidhuber n’avait remarqué ces publications, pas même présentes dans l’une des bases de données de référence de la littérature scientifique, Scopus…

David Larousserie