Intelligence artificielle : du Perceptron au premier Macintosh, la préhistoire d’une révolution

Intelligence artificielle : du Perceptron au premier Macintosh, la préhistoire d’une révolution

Les cinq saisons de l’intelligence artificielle (1/5). Elle pulvérise l’homme au jeu de go ou prend le volant de sa voiture. Une histoire qui commence en 1958 par une machine capable de distinguer sa droite de sa gauche.

Un à zéro. Puis deux à zéro. Puis trois à zéro. En ce mois de mars 2016, à l’hôtel Four Seasons de Séoul (Corée du Sud), l’issue finale de ce match ne fait plus guère de doute. Le champion coréen de go, Lee Sedol, s’incline finalement 4 à 1 face à une machine pilotée par un programme informatique, AlphaGo, développé par une filiale de Google, Deepmind. Pour la première fois, ce qui est qualifié de machine learning – aussi appelé « apprentissage machine » ou « réseaux de neurones en intelligence artificielle » – écrase un cerveau humain dans ce jeu, réputé plus difficile à simuler que les échecs. Plusieurs spécialistes soulignent qu’ils s’attendaient à une telle possibilité, mais pas avant plusieurs années…

          

Pour le grand public, c’est la révélation de la puissance d’une nouvelle technologie, aussi appelée deep learning (« apprentissage profond ») qui alimente désormais les assistants vocaux, le cerveau des voitures autonomes, la reconnaissance des visages ou des objets, la traduction automatique, l’aide au diagnostic médical…

          

L’engouement pour ces techniques d’apprentissage automatique, porté par les grandes entreprises du numérique américaines ou chinoises (Google, Amazon, Facebook, ­Microsoft, Baidu, Tencent…), balaie la planète entière et passe très rapidement des pages scientifiques des grands journaux aux pages technologiques, économiques, opinion, voire société. Car ces avatars de l’intelligence artificielle ne promettent pas seulement de bouleverser la croissance économique. Il est très vite question de nouvelles armes destructrices, de surveillance généralisée des ­citoyens, de remplacement des employés par des robots, de dérapages éthiques…

                           

D’où vient cette révolution technologique qui a réveillé l’intelligence artificielle ? Son histoire est pleine de rebondissements. Elle s’est nourrie de l’apport des neurosciences et de l’informatique, ce qui a inspiré son nom. Mais aussi, plus surprenant, de physique. Elle a voyagé en France, aux Etats-Unis, en passant aussi par le Japon, la Suisse ou l’URSS. Plusieurs chapelles ­scientifiques s’y sont affrontées, gagnantes un jour, perdantes le lendemain. A tous il aura fallu patience, ténacité et prise de ­risque. Cette histoire tient en deux hivers et trois printemps.

          

« Une machine consciente d’elle-même »

          

Tout avait bien commencé. « L’armée américaine a révélé un embryon de ce qui pourrait être une machine qui marche, parle, voit, écrit, se reproduit et serait consciente d’elle-même », écrit le New York Times le 8 juillet… 1958. Cet article d’une colonne décrit le Perceptron, créé par le psychologue américain Frank ­Rosenblatt (1928-1971) dans les laboratoires aéronautiques de ­Cornell. Cette machine à 2 millions de ­dollars de l’époque est grosse comme deux ou trois frigos, dont jaillissent des écheveaux de fils électriques. Pour cette première ­démonstration devant la presse américaine, le Perceptron reconnaît si un carré dessiné sur une feuille est placé à gauche ou à droite. Pour 100 000 dollars de plus, le savant promettait que son Perceptron lirait et écrirait dans un an ; il faudra attendre plus de trente ans.

          

Mais ce qu’il faut retenir de cette tentative, c’est la source de son inspiration, qui irriguera jusqu’à AlphaGo et ses cousins. Frank Rosenblatt est un psychologue bercé depuis déjà plus d’une décennie par les concepts de cybernétique et d’intelligence artificielle. Il a d’ailleurs conçu son Perceptron grâce à des travaux de deux autres psychologues nord-américains, Warren McCulloch (1898-1969) et Donald Hebb (1904-1985). Le premier ­publie, avec le logicien Walter Pitts (1923-1969), en 1943, un article dans lequel il propose des neurones « artificiels » inspirés de leurs équivalents biologiques, en les ­dotant de propriétés mathématiques. Le ­second, en 1949, fournit les règles pour que ces neurones formels apprennent, comme le cerveau apprend par essais et erreurs.

          

Ce pont entre biologie et mathématique est audacieux. Une unité de calcul (un neurone) est active (prenant la valeur 1) ou inactive (prenant la valeur 0) selon les stimuli qu’elle ­reçoit des autres unités auxquelles elle est connectée, formant un réseau complexe et dynamique. Plus précisément, chacun de ces neurones effectue la somme pondérée de ces stimuli et la compare à un seuil. Si le seuil est dépassé, la valeur est à 1, sinon à 0. Les auteurs montrent qu’alors leur système connecté peut réaliser des opérations logiques, « et », « ou »… et ainsi effectuer n’importe quel calcul, en théorie.            

 

           

Cette manière novatrice de calculer ­déclenche l’une des premières querelles de chapelle de notre histoire. Deux conceptions s’affrontent dans une bataille qui se poursuit encore aujourd’hui. Il y a d’un côté les « connexionnistes » et leurs réseaux de neurones artificiels, et de l’autre les tenants des machines « classiques », nos PC actuels. Ces derniers reposent sur trois principes : les calculs y sont essentiellement séquentiels, la mémoire et le calcul sont gérés par des composants distincts, et n’importe quelle valeur intermédiaire vaut zéro ou un. Tout le contraire pour les connexionnistes : le ­réseau est à la fois mémoire et calcul, sans contrôle central, et les valeurs intermédiaires peuvent être continues.

                           

Un Perceptron est aussi une machine capable d’apprendre, notamment à reconnaître des motifs ou à classer des signaux. Un peu comme un tireur corrige son geste. Si le tir est trop à droite, on vise un peu plus à gauche. Ce qui se traduit au niveau des neurones artificiels par l’abaissement de l’importance des neurones « qui font tirer à droite », et l’augmentation de ceux « qui font tirer à gauche », afin de viser dans le mille. Reste à construire, ce qui n’est toujours pas le cas, cet écheveau de neurones et à trouver comment les connecter.

          

L’enthousiasme est d’ailleurs douché en 1969 avec la parution du livre Perceptrons, par Seymour Papert et Marvin Minsky (réédit., MIT Press, 2017, non traduit). Ces deux auteurs démontrent que la manière dont est construit le Perceptron ne peut résoudre que des problèmes « simples ». C’est le premier hiver de cette branche de l’intelligence artificielle, dont le premier printemps, il faut bien le reconnaître, n’avait pas été très fleuri. Ce coup de froid ne vient pas de n’importe qui. Marvin Minsky est à l’origine de l’expression même d’« intelligence artificielle », dès 1955.

          

Deux « IA » s’affrontent

          

Le 31 août de cette ­année, avec notamment son collègue John McCarthy, Minsky lance en effet une invitation à une dizaine de personnes à participer, l’été suivant, à deux mois de travaux autour du concept, pour la première fois utilisé, d’intelligence artificielle, au collège Dartmouth, dans le New Hampshire. Warren ­McCulloch sera présent, tout comme Claude Shannon, le père de la théorie de l’information, la base théorique de la télécommunication. C’est lui qui avait fait venir Minsky et McCarthy aux Bell Labs, les laboratoires de l’entreprise Bell d’où sortiront les transistors, les lasers… – et qui seront aussi l’un des berceaux de la renaissance des connexionnistes dans les années 1980.

          

Dans les années 1960, deux nouvelles « IA » s’affrontent. D’un côté, « IA » pour « intelligence artificielle », de l’autre, pour « intelligence augmentée »

         

En attendant, deux nouveaux courants vont naître et s’affronter sur un terrain de jeu qui sera le campus de l’université Stanford. Pendant les années 1960, à quelques encablures l’une de l’autre, deux nouvelles « IA » – selon la terminologie utilisée par le journaliste John Markoff dans son livre ­Machines of Loving Grace (Harper Collins Libri, 2015, non traduit) – s’affrontent. D’un côté le sigle « IA » pour « intelligence artificielle », dans une version différente de celle des réseaux de neurones et qui sera défendue par John McCarthy, qui quitte le Massachusetts Institute of Technology (MIT) pour créer à l’université de Stanford le laboratoire SAIL (Stanford Artificial Intelligence Lab). De l’autre « IA » pour « intelligence augmentée », nouvelle approche proposée par Douglas Engelbart. Lui est recruté en 1957 par le Stanford Research Institute (SRI), établissement indépendant de l’université créé en 1946 pour développer les collaborations avec le secteur privé.

          

Douglas Engelbart a déjà un parcours ­complexe. Il est électronicien sur les radars pendant la seconde guerre mondiale, avant de reprendre des études et de faire une thèse sur des états gazeux bistables. Il crée même une entreprise qui disparaît en deux ans, avant d’arriver au SRI. Là, il développe sa ­vision d’augmentation des capacités humaines : il dit « voir clairement que des collègues pourraient être assis dans d’autres salles avec des postes de travail similaires, liés au même complexe informatique, et pourraient partager, travailler et collaborer très étroitement », rapporte le sociologue Thierry Bardini, dans le livre Bootstrapping (Stanford University Press, 2000).

          

Cette vision se concrétisera en décembre 1968, dix ans après le Perceptron, lors d’une démonstration de son oNLine System (NLS) avec éditeur de texte à l’écran, liens hypertexte entre documents, inclusion de graphiques et de texte, et une souris. Visionnaire, mais un peu trop tôt sans doute pour s’imposer.

          

Janvier 1984, premier Macintosh

          

John McCarthy, dans le labo voisin au SAIL, n’apprécie pas, selon John Markoff, ce NLS jugé trop « dictatorial », car imposant de structurer de manière particulière les textes. Ce chercheur iconoclaste, financé comme ­Engelbart par l’armée américaine, développe sa propre conception de l’intelligence artificielle, dite symbolique. Pour cela il capitalise sur LISP, l’un des tout premiers langages de programmation, qu’il a inventé. Il s’agit d’imiter le raisonnement du cerveau en ­enchaînant les règles et les symboles avec ­logique, pour arriver à élaborer une pensée, ou tout au moins à réaliser des tâches cognitives. Rien à voir donc avec l’idée des réseaux de neurones formels assez autonomes, capables d’apprendre mais incapables d’expliciter leurs choix. Si l’on met de côté un bras robotique servant du punch qui fit rire tout le monde en faisant déborder les verres, selon John Markoff, cette nouvelle approche eut pas mal de succès sous la forme de ce qui s’est longtemps appelé « systèmes experts ». En finance, médecine, procédés industriels, traduction… des successions de règles permettent à des machines d’analyser des données.

                           

En 1970, un collègue de Minsky déclare même au magazine Life, « d’ici trois à huit ans, nous aurons une machine avec l’intelligence générale d’un humain moyen. Je veux dire, une machine qui sera capable de lire Shakespeare, de graisser une voiture, de ­raconter une blague, de se battre ».

          

Victoire de la vision symbolique

          

Mais l’intelligence artificielle n’aime pas les prophéties. En 1973 paraît en Angleterre un rapport, dit « Longhill », qui refroidit les ardeurs : « La plupart des travailleurs de la recherche sur l’intelligence artificielle et des domaines connexes confessent un sentiment prononcé de déception face à ce qui a été réalisé au cours des vingt-cinq dernières années. (…) Dans aucune partie du champ, les découvertes faites jusqu’à présent n’ont produit l’impact majeur qui était promis. »

          

Les années suivantes confirmeront ce diagnostic. Aux Etats-Unis, au milieu des années 1980, des entreprises en intelligence artificielle nouvelle mouture font faillite ou changent de pied. Les bâtiments ayant abrité SAIL sont détruits en 1986.

          

Douglas Engelbart a gagné. En janvier 1984, Apple sort son premier Macintosh, réalisant bon nombre des visions de l’ingénieur.

          

Résumons. Une « IA » a bien gagné mais ce n’est pas celle dont rêvaient les pères fondateurs, Minsky et McCarthy. C’est l’intelligence augmentée de Douglas Engelbart qui l’emporte, avec l’avènement d’outils informatiques personnels et efficaces. L’intelligence artificielle, la « vraie », semble patiner. La victoire de la vision symbolique sur la ­vision connexionniste a fait long feu. Mais cette dernière prépare sa résurrection.

Par   David Larousserie 

En savoir plus  
Quand des rats de bibliothèque réveillaient les réseaux de neurones

Quand des rats de bibliothèque réveillaient les réseaux de neurones

Les cinq saisons de l’intelligence artificielle (2/5). Elle pulvérise l’homme au jeu de go ou prend le volant de sa voiture. De futurs seigneurs des réseaux, une petite station alpine et quelques francs-tireurs oubliés… Les années 1980 n’en demandaient pas plus pour voir renaître l’IA de cendres encore tièdes.

En 1983, à 23 ans, le Français Yann LeCun est encore étudiant à l’Ecole supérieure d’ingénieurs en électrotechnique et électronique (ESIEE), installée près de la gare Montparnasse à Paris. Ce féru d’informatique et de science passe ses mercredis après-midi libres à Rocquencourt (Yvelines), à la bibliothèque de l’Ins­titut national en robotique et informatique appliquée (Inria), dévorant la littérature scienti­fique de pointe.

          

Il parcourt aussi les rangées de la Fnac, et c’est là qu’il trouve une pile de comptes rendus d’un colloque prospectif tenu à ­Cerisy (Manche) en 1981 et au titre peu attirant : « L’auto-organisation, de la physique au politique ».

          

Les participants, de renom, Henri Atlan, Cornelius Castoriadis, Edgar Morin, René Girard, Isabelle Stengers, Francisco Varela, Jean-Pierre Dupuy… y parlent morphogenèse, automates cellulaires, émergence, système complexe, cybernétique… « Ces actes de Cerisy suggéraient que les participants ne connaissaient pas bien la littérature des années 1960 sur les réseaux de neurones. Mais ils parlaient de “réseaux d’automates”, ce qui se rapprochait des mêmes problématiques », témoigne Yann LeCun, rat de bibliothèque qui, malgré sa jeunesse, en connaissait plus que beaucoup sur le sujet.

          

« C’était la première fois que j’apprenais l’existence de travaux sur des machines capables d’apprendre. J’étais fasciné »
Yann LeCun, chercheur en IA

         

Au moment où il parcourt cette littérature, la notion d’intelligence artificielle (IA) n’est pas en très bonne forme. Les deux écoles qui se sont développées autour d’elle ont connu de sérieux coups d’arrêt. La première est celle des réseaux de neurones et n’a pas rempli les promesses annoncées par son précurseur, Frank Rosenblatt, en 1958 avec sa machine, le Perceptron. La seconde, dite symbolique, qui essaie de reproduire le raisonnement humain par l’enchaînement de règles et de logique, a eu plus de succès mais tout aussi éphémères.

          

« C’est en tombant sur un autre livre à la Fnac en 1980, Théories du langage, théories de l’apprentissage [Seuil, 1979], de Massimo Piattelli-Palmarini, que je m’étais branché sur le Perceptron et la littérature sur le sujet. C’était la première fois que j’apprenais l’existence de travaux sur des machines capables d’apprendre. J’étais fasciné », se souvient Yann LeCun. Il y découvre aussi une curiosité. Dans ce livre, Seymour Papert défend le Perceptron, alors que dix ans plus tôt il avait écrit avec Marvin Minsky un livre pointant les limites de cette machine… Le jeune ingénieur y voit l’espoir de dépasser ces limites.

          

Concept original et pionnier

          

En 1983, après avoir lu les actes du colloque de Cerisy, il pousse donc la porte du laboratoire de Françoise Soulié-Fogelman, une jeune normalienne formée aux maths dont la communication à Cerisy portait sur les réseaux d’automates. Elle convainc l’ingénieur de se lancer dans une thèse, alors qu’elle est en train de finir la sienne. Administrativement, elle ne peut donc l’encadrer, et c’est Maurice Milgram, mathématicien de Paris-VI et présent à Cerisy, qui devient le directeur de thèse de Yann LeCun à partir de 1984. Ce n’est que trois ans plus tard, à la fin de ce travail, que Maurice Milgram se mettra lui-même sur les réseaux de neurones…

          

Yann LeCun est donc assez autonome dans ses travaux, même si Françoise Soulié-Fogelman lui donne des coups de pouce décisifs. En 1984, il part avec elle – et grâce à elle – aux laboratoires Xerox, en Californie, berceau d’inventions célèbres comme les imprimantes laser, les interfaces graphiques commandées à la souris… Ils y mesureront le retard français en matière d’équipements informatiques.

          

En 1985, il fera son premier exposé en anglais lors d’une école d’été aux Houches (Haute-Savoie) consacrée aux systèmes désordonnés et à l’organisation en biologie. Le concept est original et pionnier. Il a été lancé en 1951 par Cécile DeWitt-Morette pour initier les nouvelles générations d’après-guerre à la physique moderne. Les cours se passent le matin et l’après-midi est libre avant que, le soir, reprennent les discussions.

          

Une équipe de rêve

          

L’initiative est déterminante pour notre histoire. Yann LeCun y croise la route de Larry Jackel et de John Denker, physiciens américains des célèbres laboratoires Bell, où furent inventés ou développés le transistor, le laser, la communication par fibre optique… Larry ­Jackel recrutera le jeune Français en 1988, un an après la fin de sa thèse, pour qu’il rejoigne ce qui deviendra une équipe de rêve des réseaux de neurones avec John Denker.

          

Un autre physicien est également présent aux Houches, et c’est d’ailleurs un peu à cause de lui qu’il y a une telle effervescence au­tour des réseaux de neurones. John Hopfield, de l’université Caltech et des laboratoires Bell, a en effet publié en 1982 un article ­faisant le pont entre des objets bien connus des physiciens, les verres de spin, et les ­réseaux de neurones.

          

« A l’époque, faire des avancées en physique nécessitait de grands instruments et de grandes équipes, comme dans les accélérateurs de particules ou les satellites très chers. Comprendre le cerveau m’apparaissait faisable dans de petits laboratoires »
Terry Sejnowski, physicien.

         

Les verres de spin sont des assemblées de petits aimants (soit la tête en « haut », soit la tête en « bas ») en interaction les uns avec les autres. Ces modèles décrivent notamment des matériaux magnétiques. Mais l’analogie inattendue entre ces aimants et les neurones réveille le domaine. « C’est Pierre-Gilles de Gennes [Prix Nobel de physique en 1991] qui un jour m’a apporté l’article de Hopfield », se souvient Gérard Dreyfus, professeur émérite à l’Ecole supérieure de physique et de chimie industrielles de la ville de Paris. Ce dernier, venu de l’électronique, était justement en train de s’orienter vers une autre voie, et cet article tombait à pic. Présent lui aussi aux Houches, il développera la seconde équipe française sur le sujet, concurrente de celle de Françoise Soulié-Fogelman, avec ses deux premiers étudiants, Léon Personnaz et Isabelle Guyon, équipe qui rejoindra aussi celle de Larry Jackel aux laboratoires Bell.

          

Terminons par un dernier physicien, Terry Sejnowski. Sa présence aux Houches est plus naturelle car il avait John Hopfield comme professeur à Princeton, avant le célèbre ­article de 1982. Il est l’un de ceux qui vont contribuer à faire le pont entre la France et les Etats-Unis. Au moment de cette école d’été, il est déjà défroqué, étant passé aux questions de neuroscience. « A l’époque, faire des avancées en physique nécessitait de grands instruments et de grandes équipes, comme dans les accélérateurs de particules ou les satellites très chers. Comprendre le cerveau m’apparaissait faisable dans de petits laboratoires », résume Terry Sejnowski.

          

Au Japon et en Suisse, on s’active aussi

          

Le hasard lui a fait rencontrer l’un des plus anciens acteurs du renouveau des réseaux de neurones artificiels, Geoffrey Hinton. Ce Britannique s’est mis en tête de comprendre le cerveau dans les années 1960, lorsqu’il était étudiant à Cambridge, puis lors de sa thèse en Ecosse en 1972. Soit une année avant la sortie du « rapport Lighthill », qui pointe les faibles avancées du domaine. Autant dire que le sujet n’est pas porteur en Europe, et Geoffrey Hinton s’envole donc pour l’université Stanford puis Carnegie Mellon (Pennsylvanie).

          

« Nous avons commencé à travailler ensemble avec Geoffrey en 1979, moi à Baltimore à l’université John Hopkins et lui à Carnegie Mellon, rappelle Terry Sejnowski. Nous faisions les allers-retours chaque semaine. Nous étions complémentaires, lui avec ses connaissances en psychologie, moi en physique et neuroscience. » Arrivé après les autres aux Houches, il a raté l’exposé de Yann LeCun. Mais celui-ci, qui lors de ses plongées en bibliothèque avait lu les travaux pionniers de son aîné sur une machine « apprenante », publiés un an avant les Houches, est allé lui parler afin d’échanger sur leurs progrès réciproques.

          

Ce même Terry, à son retour des Houches, prévient Geoffrey Hinton des progrès de ce jeune Français qui monte. Dès la fin de sa thèse, tout naturellement, LeCun fait son postdoc chez Geoffrey Hinton, parti pour ­Toronto, au Canada, pour des questions de désaccord avec la politique américaine reaganienne. Puis il s’envole quelques mois plus tard vers le New Jersey et les laboratoires Bell, à l’invitation insistante de Larry Jackel.

             

Résumons. En France, deux groupes ­concurrents émergent sur le thème des réseaux de neurones. L’un naît des envies d’un ingénieur, Yann LeCun, l’autre de l’ébullition suscitée par l’article d’un physicien. Ces pionniers croisent la route de deux futurs leaders nord-américains du domaine, Geoffrey ­Hinton, aux Etats-Unis puis au Canada, et Larry Jackel, aux laboratoires Bell. Une communauté se construit. Mais ils ne sont pas les seuls. Au Japon et en Suisse, on s’active aussi.

          

Au Japon, dans le groupe de recherche en vision et audition de l’opérateur audiovisuel public NHK, Kuhido Fukushima, 82 ans aujourd’hui, a développé, seul, pendant l’« hiver » de sa discipline, ses propres idées autour des réseaux de neurones. « Chaque mois, au début de la création du groupe en 1965, nous invitions un neurophysiologiste et échangions entre nous, mêlant les compétences d’ingénieurs, de psychologues ou de neuroscientifiques, se souvient le chercheur. J’étais fasciné par le mécanisme du traitement de l’information par le cerveau des mammifères. »

          

Nombreux pères méconnus

          

Dès 1979, il programme un réseau de neurones artificiels inspiré de la biologie et plus complexe que le Perceptron, doté de capacités d’apprentissage, qu’il baptise Neocognitron. Son article est publié d’abord en japonais puis, l’année suivante, en 1980, en anglais. Un article que peu de gens ont remarqué… sauf Yann LeCun, lors de ses pérégrinations du mercredi à la bibliothèque de l’Inria.

          

Jürgen Schmidhuber, un des derniers acteurs marquants de cette histoire, l’a remarqué lui aussi. Il est deux ans plus jeune que LeCun mais, dès l’adolescence, en Bavière, il « rêve de construire une machine intelligente apprenant toute seule et qui lui permettra alors de prendre [sa] retraite ». Dans un mémoire rédigé avant d’entamer une thèse à Munich, en 1987, il pose quelques principes sur la notion de méta-apprentissage. Après sa thèse, répondant à une annonce de ­l’Université de la Suisse italienne, à Lugano, il devient directeur de l’Institut Dalle Molle d’intelligence artificielle, rattaché à l’université, et construit un groupe qui se dis­tinguera quelques années plus tard par d’impressionnantes percées.

          

Jürgen Schmidhuber a aussi sorti de l’ombre un article de 1965 d’un mathématicien soviétique d’Ukraine, Alexeï Ivakhnenko, qu’il considère comme le père de ce qui sera baptisé l’« apprentissage profond »

         

Comme Yann LeCun, Jürgen Schmidhuber aime bien fouiller dans les bibliothèques universitaires, car « l’inventeur d’une importante méthode doit être justement crédité pour cela ». Le chercheur est donc aussi devenu célèbre pour ses interventions en conférence, lorsqu’il interrompt l’orateur pour lui dire qu’un autre, souvent lui d’ailleurs, a déjà trouvé ce qui était en train d’être exposé comme étant une première. La revue Bloomberg Businessweek, en mai, a même baptisé cette expérience « se faire schmidhubériser ».

          

En plus de Kuhido Fukushima, Jürgen Schmidhuber a aussi exhumé un colloque original qui s’est tenu à Paris en janvier 1951. Norbert Wiener, père de la cybernétique, y avait joué contre une machine de jeu d’échecs mise au point en 1914 par Leonardo Torres y Quevedo. Warren McCulloch, le physiologiste qui a lancé l’intérêt pour les neurones artificiels, y a présenté son travail. Cinq ans avant le séminaire de Dartmouth (1956), considéré comme l’acte de naissance de l’intelligence artificielle, les participants à ce colloque voulaient faire « de la place aux physiologistes et psychologues qu’intéressent les analogies possibles entre structures électroniques et structures nerveuses ».

          

Jürgen Schmidhuber a aussi sorti de l’ombre un article de 1965 d’un mathématicien soviétique d’Ukraine, Alexeï Ivakhnenko, qu’il considère comme le père de ce qui sera baptisé l’« apprentissage profond », la technique au centre de cette histoire. Ou encore le Finlandais Seppo Linnainmaa qui, en 1970, aurait inventé une méthode « redécouverte » dix ans plus tard par de futures vedettes du domaine. L’intelligence artificielle aurait donc de nombreux pères méconnus : personne avant Schmidhuber n’avait remarqué ces publications, pas même présentes dans l’une des bases de données de référence de la littérature scientifique, Scopus…

David Larousserie 

En savoir plus  
Dotés d’une mémoire, les réseaux de neurones artificiels renaissent

Dotés d’une mémoire, les réseaux de neurones artificiels renaissent

Les cinq saisons de l’intelligence artificielle (3/5). Elle pulvérise l’homme au jeu de go, prend le volant de sa voiture, le remplace à son travail, mais pourrait aussi mieux le soigner. C’est pendant les années 1980 que les verrous techniques semblent sauter un à un, dans une euphorie scientifique incomparable.

A la fin des années 1980, l’ambiance est plutôt bonne dans les laboratoires qui s’intéressent à une nouvelle manière de rendre les programmes informatiques intelligents. Aux Etats-Unis, en France, en Suisse ou au Japon, on s’enthousiasme des prouesses et perspectives des réseaux de neurones artificiels, inventés quarante ans plus tôt.

          

« On publiait rapidement, ce qui est le charme des sujets émergents », se rappelle Gérard Dreyfus, aujourd’hui professeur émérite à l’ESPCI ParisTech, qui avait déjà connu une telle excitation lorsqu’il s’intéressait à des composants électroniques miniatures quelques années plus tôt. Il sera l’un des leaders des deux équipes françaises pionnières dans le domaine.

          

« C’était riche de discuter avec des physiciens, des neuroscientifiques, des statisticiens, des mathématiciens, des informaticiens… », complète Patrick Gallinari, professeur à Sorbonne Université, à Paris, membre de l’équipe française concurrente, dirigée par Françoise Soulié-Fogelman.

          

« L’équipe aux Bell Labs était fabuleuse. Je me retrouvais entre les mathématiques pures, incarnées par Vladimir Vapnik, et la physique à la main de John Denker, qui avait un côté ­Richard Feynman », ajoute Léon Bottou, formé en France mais recruté rapidement par le célèbre laboratoire américain. Entré à l’Ecole polytechnique en 1984, Léon Bottou fait ses premières armes de programmeur sur l’ordinateur VAX 8600 de 48 Mo de mémoire de l’école d’ingénieurs. Il s’essaie à la reconnaissance d’écriture par réseaux de neurones en dessinant lui-même à la souris des centaines de lettres pour se constituer une base de données d’apprentissage. Le système ajuste ses paramètres à partir d’exemples avant d’être appliqué à des situations nouvelles.

          

« Ils nous ont piqué les meilleurs ! »

          

En 1987, pour son stage de fin d’année, Léon Bottou pousse la porte du laboratoire dans lequel l’une des futures vedettes du domaine, Yann LeCun, vient d’arriver auprès de Françoise Soulié-Fogelman. Ils ont pour point commun de programmer sur la même machine, un Amiga 1000, sorti en 1985 avec 256 Ko de mémoire. Qui plus est dans le langage LISP, inventé par John McCarthy, qui fut l’un des pionniers de l’intelligence artificielle première version. Celle qui effacera durant les années 1960-1970 les réseaux de neurones…

          

Il entame sa thèse avec Françoise Soulié-Fogelman. Sans trop y croire au début, la petite équipe, complétée de Patrick Gallinari, demande des financements européens et en obtient trois ! « Quand on a déménagé sur le campus d’Orsay, nous avions, grâce à ces ­contrats, plus de puissance de calcul que tout le campus ! », se souvient Léon Bottou. Il suit alors Yann LeCun à Toronto pour un stage pendant l’été 1988 avant de finir sa thèse et de rejoindre son collègue, cette fois aux Bell Labs, recruté par le physicien Larry Jackel, qui avait fait de même avec Yann LeCun un an plus tôt. « Ils nous ont piqué les meilleurs ! », s’amuse Françoise Soulié-Fogelman, qui avait elle-même des vues sur un brillant Russe, Vladimir Vapnik, pris par Larry Jackel…

          

« L’ambiance intellectuelle à Bell Labs était incroyable, les ambitions scientifiques sans limites, les moyens matériels immenses. J’avais un ordinateur Sun4 pour moi tout seul, iden­tique à celui de l’université de Toronto, où j’avais fait mon post-doc, qui était partagé par 30 personnes ! », ajoute Yann LeCun, qui avait suivi le même parcours en éclaireur et qui est aujourd’hui à la fois professeur à l’université de New York et directeur du laboratoire d’intelligence artificielle de Facebook.

          

Défis techniques

          

Il n’est pas le seul de ce groupe fondé par le physicien Larry Jackel à avoir eu un tel succès. Facebook accueillera, outre Yann LeCun, Léon Bottou et Vladimir Vapnik. La Française Isabelle Guyon deviendra célèbre, outre ses apports à l’apprentissage machine, pour son implication dans l’organisation de défis techniques autour desquels s’affronteront les meilleures équipes du monde.

          

Quant au chercheur Yoshua Bengio, que nous retrouverons plus loin dans cette ­histoire, il restera dans le monde académique pour diriger, à Montréal, la plus grande concentration mondiale de chercheurs et contribuer à développer l’écosystème québécois. D’autres iront chez Microsoft…

                  

       
CHRISTELLE ENAULT

           

C’est aussi le temps des premières conférences, signe de l’émergence d’une nouvelle communauté qui commence à grossir et à faire connaissance.

          

Larry Jackel est revenu impressionné de son séjour, en mars 1985, à l’Ecole de physique des Houches (Haute-Savoie). Il importe ce concept aux Etats-Unis dès l’année suivante, dans la station de ski de Snowbird (Utah), avec exposés le matin, ski l’après-midi et nouvelles discussions le soir. De ces échanges passionnés émergera l’idée des conférences NIPS pour Neural Information Processing Systems, dès 1987 à Denver (Colorado). Terry Sejnowski, qui était de la première réunion à Snowbird, en sera le président pendant trente ans et aura vu grossir l’audience de la centaine de personnes à plus de 8 000 en décembre 2017 (dont près de 10 % d’employés de Google !).

          

Fonctionnement du cerveau humain

          

Mais, juste avant la première NIPS, la société savante en ingénierie, IEEE (Institute of Electrical and Electronics Engineers), avait organisé à San Diego (Californie), en juin 1987, un congrès international des réseaux de neurones. « Il y avait mille personnes, ce qui est déjà énorme ! », se souvient Patrick Gallinari présent à cet événement précurseur. Même à Paris, c’est l’effervescence : « En 1988, on a fait la première conférence sur le sujet à l’ESPCI. Il y avait tant de monde, plus de 150 personnes, qu’on a dû retransmettre les exposés dans une autre salle », se souvient Gérard Dreyfus.

          

Les découvertes, avec autant d’esprits brillants et motivés, vont alors s’enchaîner.

          

Pour rappel, le système de base que tous ces chercheurs étudient évoque le fonctionnement du cerveau humain. C’est un réseau de neurones artificiels, actifs ou passifs selon qu’ils ont été suffisamment stimulés par leurs voisins. Chaque unité fait la somme pondérée des stimuli reçus et s’active si cette somme dépasse un certain seuil. L’enjeu est d’apprendre ces valeurs en entraînant le réseau sur des exemples et en corrigeant ces réponses si besoin est. C’est ce que faisait la première version du Perceptron, à la fin des années 1950.

          

Pour aller plus loin, plusieurs chercheurs ont eu l’idée d’utiliser plusieurs couches de neurones afin de monter en complexité, les sorties d’une couche devenant l’entrée d’une autre et ainsi de suite. Problème, comment faire apprendre à ces couches la manière dont elles doivent se connecter entre elles ?

          

« Corrections historiques »

          

Une des idées-clés est la rétropropagation du gradient, dont les racines se perdent dans les méandres de la bibliographie. Jürgen Schmidhuber, l’un des pionniers et piliers de l’apprentissage automatique, adepte des « corrections historiques », le fait remonter à un Finlandais, Seppo Linnainmaa, dans les années 1970, puis à l’Américain Paul Werbos en 1984. Le gradient est une manière de mesurer un écart, en l’occurrence celui entre le bon résultat et celui fourni par la machine. La rétro­propagation consiste à revenir en arrière pour modifier les paramètres, recalculer le résultat et voir son écart par rapport à la valeur cible et ainsi de suite. Cette exploration de l’espace inconnu des paramètres s’apparente à une randonnée brumeuse en montagne vers une vallée : on avance à tâtons en suivant la pente descendante et on s’arrête si ça remonte. Le risque est de tomber sur une « fausse vallée », qui se comporterait comme un fond de relief, mais ne serait pas le point le plus bas.

          

« Au début des années 1980, David Rumelhart avait essayé et ça ne marchait pas. Selon moi, c’était dû à un bug informatique, explique Yann LeCun. Geoffrey Hinton avait alors convaincu Rumelhart de ne pas persévérer. » Mais Hinton, un des « anciens » du domaine, a changé d’avis lorsque, avec Terry Sejnowski, il a mis au point un autre type de réseaux de neurones qui n’avait pas ce risque de blocage. En outre, Yann LeCun, pour sa thèse de 1987, avait développé son propre algorithme de correction d’erreurs et donc d’apprentissage des poids, dont il avait pu faire la démonstration au duo Hinton-Sejnowski lors de leur contact à l’Ecole des Houches en 1984.

          

L’un des verrous de l’apprentissage était levé. En 1988, Terry Sejnowski publie son premier réseau de neurones capables de lire à haute voix de l’anglais. En 1989, Dean Pomerleau, à l’université Carnegie Mellon (Pennsylvanie), fait rouler une première voiture autonome sur route.

          

Apprentissage par renforcement

          

Simultanément, désormais aux Bell Labs, Yann LeCun fait une autre percée, elle aussi inspirée de la biologie et du système visuel. Pour la reconnaissance d’images, il devient vite coûteux en temps de calcul de prendre chaque valeur du pixel d’une image en entrée du réseau de neurones. Il utilise donc une procédure mathématique, la convolution, qui « filtre » l’image et réduit le nombre d’entrées. Mais cela suffit pour que chaque couche compose sa propre représentation de l’image, de plus en plus abstraite lorsqu’on s’enfonce dans ce réseau. C’est ainsi que, à la fin des années 1980, les réseaux LeNet1, LeNet2… jusqu’à LeNet5 sont entraînés à ­reconnaître les chiffres manuscrits.

          

L’autre innovation décisive pour les applications futures viendra dix ans plus tard de Suisse, en 1997. Dans leur havre de Lugano, Juergen Schmidhuber et son étudiant Sepp Hochreiter inventent un nouveau type de réseau qu’ils publient dans un article qui deviendra l’un des plus cités dans le domaine. Ils dotent un réseau de neurones d’une mémoire, en plus de ses capacités de calcul. Dans un réseau de neurones classique, des stimuli sont envoyés à une couche de neurones, qui elle-même s’active et émet de nouveaux stimuli vers la couche suivante et ainsi de suite jusqu’à la dernière couche. Mais lorsqu’on recommence l’opération avec d’autres stimuli, les neurones ont « oublié » ce qu’ils ont vu précédemment. Quand on montre une image de chat, puis une image de chien, le réseau n’a que faire de l’animal qu’il a vu précédemment pour répondre.

          

Une nouvelle technique, elle aussi inspirée de la biologie, consiste à traduire en équations ce qu’un humain fait souvent : apprendre de ses erreurs

         

L’invention des deux Allemands consiste à dire que l’état des neurones dépend non seulement des stimuli reçus mais aussi de ceux des étapes précédentes. Des connexions « retour » sont possibles. C’est évidemment bien plus proche du fonctionnement de notre cerveau. Facile à concevoir, pas forcément à réaliser. Mais Sepp Hochreiter a réussi à éviter des écueils mathématiques et à faire apprendre à son réseau baptisé LSTM, pour Long Short Term Memory. Les LSTM sont notamment à la base des systèmes de reconnaissance vocale ou de traduction puisque, pour bâtir des phrases correctes, il vaut mieux avoir la mémoire de ce qui précède… « 30 % de la puissance de calcul de Google sert à alimenter des LSTM », aime à dire Juergen Schmidhuber.

          

Enfin, un autre groupe met au point la technique qui sera à l’origine du succès, trente ans plus tard, de la victoire du programme ­AlphaGo vainqueur d’un champion du monde de go en 2016 : l’apprentissage par renforcement. Elle est, elle aussi, inspirée par la biologie et consiste à traduire en équations ce qu’un humain fait souvent, apprendre de ses erreurs. Au lieu de trouver les variables du réseau de neurones en minimisant une erreur de prédiction, on « récompense » ou « punit » le système en fonction de la réponse. Ses promoteurs, cités en référence dans l’article de DeepMind (filiale de Google) détaillant les secrets d’AlphaGo, sont notamment Richard Sutton, Satinder Singh et David McAllester. Ils étaient tous les trois membres d’un second groupe d’apprentissage machine aux Bell Labs, installé 50 kilomètres au nord de celui de Larry Jackel, Yann LeCun et Léon Bottou.

          

Les Bell Labs sont décidément un endroit-clé dans cette histoire. C’est aussi là que naîtra une autre technique qui ne sera pas pour rien dans un nouvel hiver pour le domaine, dix ans à peine après l’arrivée de ce printemps.


Par   David Larousserie 

En savoir plus