EXERGUE
Depuis 2005
IA - Janvier 2024

Les erreurs sur ChatGPT

Résumé

Beaucoup abordent l'intelligence artificielle par les inquiétudes qu'elle suscite et le programme conversationnel ChatGPT par les erreurs qu'il commet. On les oppose sur ce point à l'intelligence humaine, mais il faut traiter cette question correctement. J'avais déjà abordé ce sujet et certaines critiques que j'avais faites s'appliquent parfaitement pour mieux comprendre la nouveauté de l'intelligence artificielle conversationnelle.

La sortie publique du programme d'intelligence artificielle ChatGPT-3 a déclenché un véritable engouement mondial en décembre 2022 et les premiers mois de 2023. Ses performances conversationnelles ont étonné tout le monde et inquiété certains. Le psycholinguiste Stephen Pinker, auteur de The Language Instinct, a été bluffé : « Like most people, I would not have guessed that a system that did that would be capable of, say, writing the Gettysburg Address in the style of Donald Trump » ([Comme beaucoup, je n'aurais pas imaginé qu'un programme qui fait ça serait capable, par exemple, d'écrire le Discours de Gettysburg dans le style de Donald Trump] « Will ChatGPT Replace Human Writers? Pinker Weighs in », Harvard Gazette, 14 février 2023).

De fait, l'entreprise OpenAI a pris de court les majors de l'informatique et de l'Internet. Ces derniers avaient été refroidis par l'échec du programme Tay de Microsoft en 2016 sur Twitter, dont l'ouverture au grand public avait rapidement conduit le programme à produire des discours racistes, sexistes et autres. Cette dérive avait diffusé l'idée rapide que les chatbots avaient systématiquement les biais en question. Il est certain que les programmes reproduisent le contenu des textes sur lesquels ils ont été entraînés. Ce sont les textes humains qui ont ces biais. Et dans le cas de Tay, ce sont les intervenants qui ont sciemment trollé le programme pour lui faire dire des horreurs (sincèrement ou pour se moquer). L'expérience avait été rapidement interrompue par Microsoft.

Risques ?

Sur la forme, la question des risques est surtout un angle d'attaque journalistique ou philosophique quand on ne connaît pas bien le sujet. Tout produit industriel a des limites (température, résistance, âge des utilisateurs...). Sur le fond, le risque de dérives a été envisagé pour ChatGPT en raison des mêmes tentatives intentionnelles de sabotage. De nombreux dérapages ont été anticipés, malgré quelques failles que certains ont réussi à identifier ou à exploiter. Des contrôleurs continuent aussi à améliorer le programme pour les corriger. Le programme refuse parfois de répondre en s'excusant, au point que certains considèrent que ChatGPT est « politiquement correct », victime de l'idéologie woke ou simplement partisan, par exemple dans son traitement plus favorable à Biden qu'à Trump. Ça peut être un problème, mais ça concerne surtout ceux qui veulent effectivement tenir un discours raciste, sexiste, etc., en se prévalant de la liberté d'expression.

Pour ces dérives, les humains sont bien ceux qui les commettent et le programme peut les imiter si on ne lui met pas de garde-fous. Le même mois de décembre 2022, la publication de la revue de Michel Onfray, Front populaire (dont j'ai fait un compte rendu), consacrée à Michel Houellebecq, a aussi donné lieu à des dérapages. Comme pour ChatGPT, on n'est pas obligé de prendre ce qu'on lit pour argent comptant. Mais il vaut mieux exercer plus concrètement son sens critique en développant soi-même une argumentation comme je le fais ici. C'est seulement cela qui permet de ne pas reproduire les biais qu'on reproche à l'IA. Sinon, on reste dans le flou qui permet les sous-entendus malveillants.

Méthode

La méthode qui consiste à chercher les erreurs n'est pas mauvaise. Encore faut-il que ce soit pour les corriger et non pour pousser à la faute, ce qui semble bien être le cas pour beaucoup d'utilisateurs. C'est un comportement infantile ou pervers, comme celui d'enseigner des erreurs à ChatGPT (même pour vérifier que c'est possible) :

Erreur enseignée à ChatGPT
N.B. Le compte @tasty_gigabyte7 a été suspendu sur Twitter/X

Comment analyser la question ? J'ai déjà eu l'occasion de rappeler, dans mon précédent article sur ChatGPT, que les professeurs doivent considérer les étapes des élèves humains. L'idée rabâchée que le niveau baisse correspond plutôt à un défaut de progressivité. L'enseignant doit s'assurer que l'élève ne fait pas que répéter et qu'il comprend vraiment. C'est le drame de l'enseignement : si l'élève ne comprend pas, c'est souvent que le prof explique mal ou que l'élève comprend de travers sans que ce soit repéré. Il en résulte que certains élèves qui comprennent mal et deviennent profs expliquent mal à leur tour. Si le prof explique bien, l'élève peut aussi répéter la bonne explication sans vraiment la comprendre. C'est moins grave s'il devient prof, mais il n'a pas vraiment compris quand même. On peut vérifier la compréhension par la paraphrase, mais elle peut être bancale et tout est à refaire. Le propre des interactions humaines est d'avoir une sorte de rectification bienveillante des erreurs qu'on entend (comme celle d'un étranger), sauf pour les mentalités hyper-normatives. C'est aussi ce qui se produit, dans les deux sens d'ailleurs, avec les réponses des programmes conversationnels.

Pour l'intelligence artificielle comme pour les humains, la correction des erreurs repose sur l'explicabilité : la possibilité de justifier ses réponses. Le repérage des erreurs est bien utile pour la mise au point des programmes. Le linguiste suisse Henri Frei (1899-1980) parlait de « grammaire des fautes » (1929). Pour la langue, où les phrases possibles sont infinies, contrairement au peu d'exemples canoniques enseignés à l'école, les erreurs des élèves signalent bien les ratés de la progression de l'acquisition. Frei remarque que le plus souvent, l'élève applique une généralisation de la règle et les erreurs concernent les exceptions ou les limites d'application des règles. C'est aussi le cas des programmes, où les erreurs signalent la systématicité des règles utilisées. Les biais qu'on reproche à l'IA renvoient bien aux principes malsains contenus dans les textes qui ont servi à son apprentissage.

Compréhension

Un argument contre ChatGPT consiste à nier que le programme comprend quoi que ce soit. Cela reprend les objections de la première génération d'opposants à l'idée même d'intelligence artificielle, dont j'ai parlé dans Philosophie contre intelligence artificielle (1996), qu'il s'agisse de philosophes, de linguistes, de politiques et même de chercheurs en IA (Dreyfus, Searle, Florès, Weizenbaum, Winograd). L'opposition humain/machine est particulièrement forte chez les philosophes influencés par la phénoménologie. Ma position est qu'au contraire l'intelligence artificielle résume et incarne l'histoire de la philosophie, dont la démarche est assez bien décrite par Umberto Eco dans La Recherche de la langue parfaite (1994). Le principe de l'IA est celui de la rationalité, programmée sur la machine, à laquelle la phénoménologie oppose la pétition de principe d'une sorte d'intuition humaine, sans réelle explication.

La version sommaire de la négation de l'intelligence artificielle consiste surtout à nier que ce que la machine réussit soit bien de l'intelligence. On demande toujours plus. Quand la machine réalise une performance considérée auparavant comme propre à l'intelligence humaine, on décide alors que ce n'est pas de l'intelligence. J'ai aussi mentionné dans mon livre ce que Pamela Mc Corduck remarqua au cours de son enquête sur l'IA, selon son coauteur :

« C'est peut-être ici que réside la sérénité dont fait preuve Mc Corduck à l'égard de l'intelligence artificielle. Son attitude n'a pas été instantanée. Elle est le résultat d'une mise en parallèle des arguments hostiles aux machines pensantes et des raisons données au XIXe siècle pour expliquer que les femmes ne seraient jamais les égales intellectuelles des hommes. Elle découvrit des points communs des plus amusants. Au début, c'était une sorte de jeu, qui consistait à dire pourquoi les femmes ne pourraient jamais vraiment penser [...] Puis elle comprit peu à peu qu'une vérité autrement plus fondamentale se dissimulait derrière cela. L'intelligence était un terme politique, défini par ceux qui détenaient le pouvoir […] Et pour elle, la grande question "une machine peut-elle penser ?" perdit son caractère solennel. » (Edward Feigenbaum, Pamela Mc Corduck, La Cinquième génération, 1983, p. 66).

La réalité contemporaine est aussi qu'on s'habitue tout simplement aux progrès incessants des machines. Mais il faudrait plutôt se rappeler l'impression de l'époque où elles sont apparues, comme pour la machine à calculer de Blaise Pascal, au XVIIe siècle, que j'avais aussi citée :

« Que l'on puisse donner une telle compétence à une machine, au sens où nous l'entendons, semblait alors un peu surnaturel. C'est ainsi que la sœur de Pascal […] écrivait que "l'esprit avait été en quelque sorte capturé par la machine" car "il était possible d'exécuter sans erreur toutes sortes de calculs, chose extraordinaire sans crayons, mais, bien plus, sans même connaître l'arithmétique". Cette réflexion de la sœur de Pascal est vraisemblablement l'une des premières faites sur le problème connu aujourd'hui sous le nom d'intelligence artificielle. […]. » (René Moreau, Ainsi naquit l'informatique, p. 13).

L'idée que l'IA ne comprend pas correspond aussi très souvent à une reproduction de l'idée fameuse de la « chambre chinoise » du philosophe John Searle, dans Du Cerveau au savoir (1984). Il avait imaginé une « expérience de pensée » qui consiste à enseigner à un humain à manipuler des symboles correspondant aux caractères et aux règles de la langue chinoise. Il prétendait que même avec un résultat conforme aux attentes, cela ne signifie pas que l'on comprend le chinois.

Le défaut de ces « expériences de pensée » est justement qu'on ne fait pas une vraie expérience et qu'elles visent à confirmer des préjugés. En l'occurrence, ce qu'il propose, parodiant le test de Turing, consistait à dire que, même si l'ordinateur réussit, il ne comprend pas parce que c'est un ordinateur (pétition de principe). Searle ne comprend pas ce qu'est comprendre. Ce qui est quand même un problème pour la « philosophie de l'esprit » qui est sa spécialité.

On peut considérer que sa chambre chinoise correspond simplement à un guide pour touristes avec des phrases toutes faites, ou plus généralement à l'usage de n'importe quel dictionnaire de langue étrangère. On peut toujours dire que ceux qui les utilisent ne comprennent pas le chinois. Certains lui ont répondu que c'est le programme dans son ensemble qui comprend. Ce n'est guère plus clair. Il faut plutôt considérer que c'est bien par ce moyen qu'on apprend une langue : si on lit que « Bonjour » se dit « Ni Hao » (你好) et qu'on le répète, on sait dire « Bonjour » en chinois (dans cette langue, il faut aussi des « tons » à l'oral, mais on peut l'écrire). C'est généralement ainsi qu'on apprend une langue.

D'ailleurs, « l'expérience de pensée » de Searle est particulièrement maladroite, puisque les caractères chinois sont bien des simplifications de dessins. On peut bien dessiner quelque chose pour se faire comprendre. Ce que Searle décrit est simplement l'invention de l'écriture ! La maîtrise de l'utilisation de signes pour reproduire les mots (les sons) et les règles d'une langue correspond bien à la maîtrise de la langue.

Conversationnel

Le principe réel de fonctionnement des IA conversationnelles est de toute façon de traiter bel et bien la question posée. Ce qui peut se dire que le programme la comprend : il analyse la question et produit une réponse qui lui correspond plus ou moins bien (comme cela pourrait aussi être le cas pour un humain). Dire que ChatGPT ne comprend pas correspondrait plutôt au fait qu'on lui poserait une question sur la bourse et qu'il proposerait une réponse sur le jardinage. Bon, ce genre de choses arrive aussi avec les humains, mais c'est bien par la réponse qu'on vérifie la compréhension de l'élève mentionnée plus haut, avec une interprétation coopérative possible, comme dans le film d'Hal Ashby, Bienvenue, Mister Chance (1979).

En disant que l'IA ne comprend pas, on semble dire que la réponse est juste grammaticalement correcte. Ce n'est pas le cas. Il ne s'agit pas de questions/réponses brèves, mais bien d'une réponse articulée, éventuellement sur plusieurs paragraphes dont le sens correspond bien à la question posée, sans parler de la capacité de parodie du programme. C'est ce qui s'appelle comprendre quand un professeur vérifie la compréhension de l'élève. On peut parler de définition pragmatique de la compréhension. Le refus de la reconnaître correspond aux préjugés ou à la mauvaise foi qui affectent notoirement les êtres humains.

On peut toujours faire des réserves sur la communication au nom de l'empathie humaine par opposition à une construction artificielle de l'informatique. Honnêtement, il faudrait pourtant admettre que la compréhension ou l'émotion humaines reposent bien aussi sur une forme de construction stéréotypée, comme le note une dissidente chinoise :

« Yiyun Li [...] s'aperçoit qu'il suffit de 'combiner des formules toutes faites' pour bâtir un merveilleux discours de propagande. Pis : ses 'mensonges poétiques' émeuvent aux larmes ses camarades. 'Ce jour-là, j'ai compris que je ne pouvais pas faire confiance à la langue chinoise, dit-elle. Que le régime reposait sur des mots creux.' » (« Yiyun Li, mélancolique devant l'indicible » , Le Monde, « Cahier Livre », 3 mars 2023).

Concernant le style mécanique du discours des premiers systèmes informatiques, j'ai rappelé dans mon livre le cas célèbre d'Helen Keller (sourde, muette, aveugle), dont les lettres montraient le même type de progression que celle qui a pu être celle de l'IA au cours de son histoire.

Lettres d'Helen Keller

Statistiques

Concernant plus spécifiquement le cas de ChatGPT, il court l'idée que les programmes conversationnels construisent leur réponse à partir de la probabilité d'apparition des mots suivants dans la phrase. Cela fait référence, pour celui qui entend cette explication, à l'expérience courante des propositions en cours de frappe dans les moteurs de recherche ou les téléphones. Outre les ratés fréquents de ce processus, cela me paraît relever, comme explication de l'IA, de ce qu'on appelle un « élément de langage » : quelque chose de stéréotypé à répondre au public. Cela ne me paraît pas une bonne explication pour deux raisons.

D'abord, deviner le mot qui suit correspond surtout aux expressions toutes faites ou aux coocurrences. Inversement, produire des phrases complètes et des textes construits correspond bien à des réponses à des questions. Il ne s'agit pas de produire seulement une forme grammaticale correcte avec le risque de mots incompatibles comme l'exemple connu de « cadavre exquis » des surréalistes : « les idées vertes dorment furieusement », prétendument issu de l'écriture automatique (sic) ! J'ai noté dans mon livre sur l'IA que cette proposition correspondait en fait à un contre-exemple linguistique, identifiant bien des règles sémantiques de construction de la syntaxe. On peut parler de « mot suivant », mais c'est de la sémantique : les idées ne sont pas vertes, elles ne dorment pas et on ne dort pas furieusement. Le test d'une compréhension réussie concerne bien la correspondance de la réponse avec le contenu de la question.

En outre, comme les programmes d'IA conversationnelle ont été entraînés sur des milliards de textes, ils ont acquis par ce moyen une capacité de réponse à des questions imitant celles que feraient des humains. Si le résultat consiste à donner une réponse statistique, cela concerne les cas où c'est la réponse la plus probable à la question. S'il s'agit de connaître la capitale du Pérou, le programme rencontrera forcément souvent dans les textes qu'il s'agit de Lima. La vraie question est de savoir si le programme peut faire des inférences pour les cas où la réponse n'est pas présente explicitement. Il serait amusant que ces inférences puissent le conduire à dire que New York est la capitale des États-Unis pour les mêmes raisons qu'un humain le ferait. Mais comme Washington est bien présent explicitement comme capitale dans de nombreux textes, il est peu probable que les programmes commettent cette erreur.

Ce qui est important, sur la possibilité de similitude avec une erreur humaine, est qu'on peut en déduire que l'humain construit aussi statistiquement ses connaissances (vraies ou fausses) à partir de la fréquence des informations qu'il rencontre. C'est bien la fréquence ou le poids de crédibilité des informations qui lui permet de trier les informations au cours de l'apprentissage. L'argument selon lequel un enfant n'a pas besoin de voir un million de chats pour les reconnaître concerne spécifiquement les difficultés de la reconnaissance d'images. Mais sur le principe de la connaissance, il s'agit toujours de statistiques : on généralise à partir d'un ou quelque cas, puis on affine. Les enfants appliquent d'ailleurs bien des dénominations fautives à tout ce qui ressemble à ce qu'ils connaissent - et les adultes aussi.

Approche communicative ou formelle

Dans mon livre sur les philosophes opposés à l'IA, j'ai aussi parlé du modèle de la didactique des langues étrangères (DLE). On pourrait considérer l'entraînement de ChatGPT sur des milliards de textes comme un apprentissage empirique par l'exemple. Normalement, la phénoménologie devrait y être favorable puisqu'elle s'oppose précisément à une formalisation grammaticale abstraite. Mais ce qu'elle refuse est en fait l'analyse des processus, y compris le sien (qui se résume à l'intuition bergsonienne). Ce débat correspond à l'opposition entre l'apprentissage de la langue par la grammaire, très prisée des Français, et celle en vigueur dans de nombreux pays étrangers, plus implicite, fondée sur des exemples de textes. Les étrangers disent souvent que les Français apprennent leur langue comme une langue étrangère - ce qui n'est pas faux. Dans la pratique, la méthode française concerne surtout l'histoire de négation des langues régionales ou simplement les oppositions entre langue populaire et littéraire, technique ou soutenue, qui concerne la maîtrise de registres particuliers. Car les Français s'appuient aussi sur des textes pour la pratique de la langue.

Ces milliards d'exemples pour entraîner les IA correspondent bien à l'idéal de l'« approche communicative » en didactique des langues étrangères. Cette conception qui a été très à la mode est fondée sur l'idée philosophique intuitionniste/phénoménologique qu'on doit apprendre une langue étrangère comme on apprend sa langue maternelle orale, par un bain linguistique identique à l'enfant qui ne sait pas encore parler. Mais les adultes possèdent aussi des connaissances et peuvent normalement bénéficier de l'aide des notions de grammaire pour leur propre langue (ou au contraire être handicapés par leurs habitudes). Cette question de comment le programme d'IA apprend ne correspond pas à la question de comment le programme répond. Chaque fois qu'on lui pose une question, il ne va pas chercher dans des millions d'exemples. Pour les capitales des pays, il ne va pas utiliser les millions d'occurrences où l'on rencontre France/capitale/Paris à proximité. Il a forcément construit la base de données correspondante. De toute façon, ce genre de liste existe déjà dans des bases, pour les capitales tout comme pour de nombreuses autres connaissances.

La vraie question concernant les programmes d'IA conversationnelle comme ChatGPT consiste à se demander si cet apprentissage génère une théorie formelle explicite de la langue et du discours et si le programme serait capable de la formuler comme le ferait un linguiste. Est-ce que l'entraînement produit des règles que ChatGPT applique ensuite ? Au final, les milliards de paramètres de l'IA conversationnelle correspondent aux algorithmes et aux bases de données de l'informatique traditionnelle.

Quand j'ai commencé à m'intéresser à l'IA classique dans les années 1980, il me semblait que le problème principal était l'extraction des connaissances à partir de textes pour la réutiliser dans les réponses à fournir. L'inconvénient de la nouvelle IA utilisant les réseaux neuronaux depuis les années 2000 est le principe de la boîte noire : on ne sait pas forcément comment le programme produit ses réponses.

Ces réseaux neuronaux peuvent-ils être considérés comme reproduisant le mécanisme cérébral comme le pensaient les concepteurs et les commentateurs du Perceptron qui a servi d'ancêtre aux réseaux neuronaux actuels ? Le débat opposant Piaget à Chomsky extrapolait à partir de ce qui n'était souvent que des prototypes. Cette controverse avait marqué l'époque qui anticipait les réalisations de la période actuelle. Curieusement, l'absence de structure cognitive matérielle était l'objection des philosophes opposés à l'IA. On peut donc considérer que les réseaux neuronaux actuels satisfont cette contrainte. Mais comme pour le cerveau humain, on se retrouve avec une nouvelle boîte noire.

Génie logiciel

J'avais aussi mentionné l'automatisation de la création de programmes. ChatGPT peut justement écrire des programmes dans les langages de programmation. Ce point est intéressant. Le principe même de l'IA correspond à la possibilité pour le programme de se modifier lui-même (on parlait de programmation non-monotone). Si on dit que l'ordinateur fait seulement ce qu'il a été programmé pour faire, on ne parle pas d'IA, mais d'informatique traditionnelle. Quand on évoque un risque pour l'IA, cela concerne précisément la capacité du programme d'étendre ses capacités ou de redéfinir ses principes de fonctionnement. Ce qui ne veut pas dire que cela correspond à n'importe quoi. Il s'agit normalement de processus adaptatifs. On devrait toujours pouvoir identifier ce qui génère les résultats.

L'évolution d'un programme d'intelligence artificielle peut réaliser le principe du génie logiciel qui repose sur une analyse des besoins (pour l'informatisation d'un service industriel ou commercial) qui génère automatiquement le programme correspondant en fin de processus. Au cours d'une formation à la méthode Merise, dans les années 1990, j'avais remarqué qu'il serait pratique d'automatiser le recueil de l'information en langue naturelle. C'est bien ce qu'est capable de faire l'IA conversationnelle. Dans mon livre, j'ai mentionné que le « niveau organisationnel » du service informatisé par Merise concerne l'action située de la philosophie phénoménologique. La philo peut être considérée comme faisant de « l'analyse organisationnelle » sans le savoir, alors que les spécialistes de programmation un peu cultivés savent bien qu'ils prolongent une forme de méthode cartésienne appliquée. La philosophie traditionnelle serait sans doute intéressée de savoir que, dans la méthode Merise, l'« analyse conceptuelle » consiste à enlever le temps et le lieu du modèle organisationnel. On obtient les concepts du projet en cours qui correspondent aux champs de la base de données. À la fin de l'application de la méthode, la traduction en langage de programmation devient automatique.

On peut étendre ce principe pour modéliser une compétence professionnelle humaine quelconque et par extension pour comprendre tout comportement. Dans l'intelligence artificielle symbolique traditionnelle, cela correspond aux frames pour décrire l'expérience humaine (voyages = client, date de départ, heure départ, aéroport de départ, aéroport d'arrivée, date d'arrivée, heure d'arrivée) et aux scripts (pour le restaurant : retenir, s'installer, commander, être servi, manger, payer, etc.). Ces « méthodes » de génie logiciel me paraissaient constituer la contribution de l'informatique (de gestion) aux sciences humaines. Elles enregistrent la partie formalisable et automatisable de l'expérience humaine. La production de réponses à des questions de façon articulée par ChatGPT correspond déjà à une analyse des besoins, utilisable par domaine d'application.

Grammaire textuelle

Les LLM (Large Language Models) de l'IA conversationnelle, où l'on parle de prédire statistiquement le mot suivant (perplexity), correspondent bien à la construction d'une phrase. Cette façon actuelle de les présenter est sans doute inspirée de la machine de Turing : une bande de papier avec des cases et des règles de déplacement, instruction par instruction.

Les linguistes eux-mêmes se limitent souvent à la phrase simple ou complexe plutôt qu'au discours. Ce qui vient après un premier mot, dans une langue donnée, correspond bien au schéma SVO (sujet-verbe-objet) en français ou en anglais, SOV en coréen ou japonais, etc. À l'intérieur de chaque groupe nominal ou verbal. Le mot suivant peut correspondre à : « Le chien est dans le jardin, dans la cuisine, etc. » Rien de très compliqué. Les matheux peuvent parler de vecteur (un groupe syntaxique organisé), mais c'est juste de l'analyse grammaticale. La vraie question philosophique classique de la relation entre langage et pensée est celle de l'unité minimale de sens. Ça prend le nom de token dans les LLM.

Le problème n'est pas la linguistique de la phrase. La question est la phrase suivante, puis la suivante. Ce qui correspond à la capacité narrative de ChatGPT. Sur ce point, on peut supposer que les ateliers d'écriture américains, qui permettent une fabrique de texte et non seulement une linguistique de la phrase, ont implicitement joué un rôle. Dans l'exemple : « la maman des poissons/elle est bien gentille, etc./Et moi je l'aime bien, avec du citron » (chanson de Bobby Lapointe), il s'agit de construire un récit, de préférence avec un effet de surprise et pas seulement une fréquence statistique. L'erreur classique de la philosophie consiste plutôt à faire dépendre la pensée de la langue ou de l'étymologie.

Monitoring

L'idée de construction statistique relève aussi de la question de la construction logique sur le modèle de vérité du logicien Tarski : « la neige est blanche si et seulement si la neige est blanche » (ce qui n'est pas non plus très original), par opposition à la fiction : on peut dire n'importe quoi pour inventer une histoire (encore qu'il existe des « structures du conte »). C'est ici que se pose la question de la vérification. La réalité n'est pas logique mais empirique. C'est ce qui permet de corriger les théories fausses. L'épistémologie de Popper qui préfère les théories à l'empirisme est bien obligée de les tester. C'est juste un préjugé kantien de sa part de préférer les théories.

En didactique des langues, on parle de monitoring pour le rôle de contrôle par la grammaire. Aujourd'hui, le principal problème de ChatGPT est la fiabilité de ses réponses. Parfois, le programme invente des réponses, voire des fausses citations ou références. Le principe est bien qu'il imite seulement la forme des textes qui lui ont servi d'apprentissage. On parle d'« hallucinations. » C'est sans doute ce qui induit l'idée que l'IA ne comprend pas. L'utilisateur semble aussi partir du principe que la machine doit être parfaite (réalisant l'idée d'un philosophe ou d'un dieu omniscients). C'est bien ce qu'on est en droit d'espérer d'un service informatique, habituellement, pour un objectif limité. Si on lui demande l'adresse d'une boutique, on ne s'attend pas qu'il en invente une. Mais on peut donc aussi dire que ChatGPT simule l'imagination humaine. On peut aussi dire que ChatGPT est une sorte de machine littéraire qui fonde son image du monde sur les textes, comme les intellectuels. La phénoménologie pourrait admettre que le programme fait preuve d'imagination. Je n'y compte pas trop.

Le problème traditionnel des philosophes opposés à l'intelligence artificielle est qu'ils disaient que l'informatique fonctionne avec des 0/1, comme j'ai eu l'occasion d'en parler dans mon livre. Il semble que ce soit moins le cas aujourd'hui. La réalité est que la philosophie se réduit en fait à l'histoire des idées et l'histoire des idées est aussi l'histoire des erreurs. Dans son livre, Pourquoi des philosophes, Jean-François Revel rapporte les thèses du philosophe Étienne Souriau qu'on peut considérer comme un cas empirique d'hallucination d'intellectuel :

« J'ai assisté dernièrement, à la Sorbonne, à une réunion d'un 'groupe de travail'. Il y s'agissait d'esthétique, plus précisément de 'filmologie'. On se demandait quel statut ontologique il fallait donner au film non encore projeté sur l'écran, dont les images n'ont donc pas encore atteint la 'réalité écranique'. M. Souriau (dont l'esthétique et la filmologie sont le fief et hors duquel il n'est point de salut en ce domaine) introduisit le terme de 'réalité pelliculaire'. Avant d'être projetées sur l'écran, c'est-à-dire de passer de la 'réalité pelliculaire' à la 'réalité écranique', les images traversent la lentille des projecteurs. À ce niveau, elles jouissent donc d'une 'réalité lenticulaire'. Maintenant, qu'est-ce, au fond, que la projection ? C'est une marche en avant. On dira donc une promotion. Mais cette promotion se fait également de bas en haut. Il s'agit donc d'une promotion anaphorique. On peut donc considérer comme définitivement démontré par la filmologie, et grâce à M. Souriau (hors duquel il n'est point de salut dans le vaste domaine de l'esthétique) que le passage de la réalité pelliculaire à la réalité écranique par l'intermédiaire de la réalité lenticulaire constitue une authentique promotion anaphorique » (pp. 59-60).

Comme ChatGPT est capable de produire des parodies, c'est effectivement amusant d'obtenir une citation qu'aurait pu écrire un auteur. Mais ce n'est pas ce qu'on lui demande si l'on cherche des références authentiques. Il faut cependant remarquer que l'invention de citation est aussi une caractéristique humaine. Le philosophe et sociologue communiste Henri Lefebvre, dans les années 1950, avait inventé une fausse citation de Marx pour rester dans la ligne. C'était aussi une pratique courante des clercs au Moyen-Âge, par précaution ou duplicité. Il était préférable de prétendre qu'une idée nouvelle était celle d'une autorité. Ne parlons pas des plagiats ou des simples erreurs d'attribution. Il en résulte qu'on peut donc déjà trouver des fausses références dans les textes originaux qui servent de corpus à ChatGPT, y compris de la part des plus grands auteurs. On trouve aussi souvent des attributions multiples sur les réseaux sociaux. La citation : « La dictature, c'est ferme ta gueule, la démocratie, c'est cause toujours ! », est attribuée à Coluche, Woody Allen, Jean-Louis Barrault, etc.

La solution est évidente. Des IA conversationnelles comme ChatGPT doivent posséder un sous-programme de révision éditoriale des réponses avant publication. On doit automatiser le fact-checking. Un tel module devrait d'ailleurs devenir un service spécifique d'édition des textes. Cela risque d'être un problème pour les politiciens qui ne pourraient plus mentir. J'ai coutume de dire que « la politique, c'est quand on commence à raconter de bêtises pour sélectionner ceux qui font semblant d'y croire ». On peut donc comprendre que certains soient farouchement opposés à l'intelligence artificielle. Évidemment, d'aucuns pourraient l'utiliser pour générer des mensonges, comme dans le roman prophétique d'Escarpit, Le Littératron (1964). Mais un autre programme pourrait aussi analyser les textes en question et les débunker.

Une possibilité serait sans doute la mise au point d'un mécanisme de contrôle comme le langage IEML de Pierre Lévy qui vise à permettre une sorte de calcul logique. Un système conversationnel pourrait lui-même contribuer à le construire et l'améliorer de manière interactive. On rejoint l'idée philosophique de La Recherche de la langue parfaite d'Umberto Eco.

Conclusion

À vrai dire, dans les années 1990, j'imaginais que le stade actuel de l'IA serait atteint plus rapidement. Je pensais alors qu'il suffisait d'augmenter énormément les catégories sémantiques pour avoir une compréhension plus performante. Les linguistes avaient l'habitude de travailler sur des modèles trop limités. Certains, comme Maurice Gross, semblaient découragés par le nombre de mots composés. J'ai toujours pensé qu'il fallait travailler sur des dictionnaires exhaustifs (pour la traduction automatique en particulier). Dans mon bouquin, j'avais parlé du Roget's Thesaurus qui proposait depuis longtemps une classification sémantique de la totalité des mots de la langue anglaise (il venait d'être traduit en français sous la direction de Daniel Péchoin).

Dans mon compte rendu du texte de Jacques Pitrat (1934-2019), Textes, Ordinateurs et Compréhension (1985), à propos des primitives du chercheur de l'IA Robert Shank (1946-2023), je disais : « il n'est pas nécessaire de rechercher des sortes de primitives ultimes, puisque les textes se situent à un niveau donné de généralité (on parle par exemple d'un chien, et pas d'un mammifère ou animal ou être vivant ou ensemble d'atomes). » Le texte de Pitrat montre comment se posait la question de la compréhension pour l'intelligence artificielle symbolique avant les réseaux neuronaux.

De fait, ce qui caractérise les LLM des réseaux neuronaux est un entraînement sur des masses très importantes de textes. Les chercheurs se sont aperçus que les performances explosaient à partir d'un certain seuil. On parle d'émergence de quelque chose, qui ressemble bien à de l'intelligence, avec des limites que j'ai tendance à considérer comme relativement semblables à celles des humains en ce qui concerne les délires. On peut dire que les réseaux neuronaux simulent donc bien le cerveau, y compris dans les erreurs constatées au cours de l'histoire. J'en avais bien donné une illustration à propos des opposants à l'IA (Searle, Dreyfus, Weizenbaum, Winograd et Florès) ou d'autres philosophes des sciences comme Popper (j'ai ajouté une note à ce sujet quand il est mort en 1994 au moment où je relisais mon projet de doctorat dont le livre est issu).

Pour faire face aux problèmes qui se posent dans la mise au point des systèmes intelligents, je pensais aussi qu'il fallait être capable de récupérer les expertises humaines disponibles. Une partie des résistances vient sans doute de la crainte de certains d'être court-circuités (c'est vexant pour un intellectuel). L'informatisation ou l'automatisation ont toujours connu ces phénomènes. Cette capacité d'émergence de la part des IA conversationnelles montre que les centaines de milliards de paramètres construits à partir de textes en nombre quasi-infini correspondent bien à l'incorporation d'expertises nombreuses dans les machines. Il ne fallait sans doute pas chercher à trop se limiter comme antérieurement. Les réseaux neuronaux ont réalisé tout seuls ceux que les programmeurs tardaient à faire (outre l'époque où les capacités de la machine étaient limitées).

La tâche actuelle va sans doute consister à expliciter les algorithmes qui permettent de générer des réponses et à les améliorer pour supprimer cette trop grande imitation des divagations humaines. Sur le fond, cela ne change rien au fait que l'histoire de la connaissance est aussi l'histoire des erreurs.

Jacques Bolo

courrier Merci de signaler à l'auteur toute erreur que vous trouveriez sur cette page
courrier Recommander cette page à un ami
Voir aussi :
Soutenez
la revue Exergue
Tous les articles
Références
Critiques

IA
Méthodologie
Culture
Ecologie
Economie
Education
Ethnologie
Relativisme
Société
Europe
Turquie
Démocratie
Sciences
Histoire
Photos
Urbanisme
Sociologie
Reportages
Linguistique
Philosophie
Internet
Politique
Humour
Racismes
Femmes
Démographie
Conneries
Peurdesmots
Médias
Religion
Social
Sports
Carnet
Publicités Amazon/Google/Libraires
Bolo, Philosophie contre Intelligence artificielle
Umberto Eco, La Recherche de la langue parfaite
Sousa Cardoso, Parise, Guide de l'IA gé&nérative
Pinker, The Language Instinct
Bolo, Nathalie Heinich et le militantisme woke
Bolo, Pour Brassens
Bolo, Pour en finir avec la question de la laïcité
Bolo, La Pensée Finkielkraut
Accueil Ball © 2005- Exergue - Paris Ball Légal Ball Ball Partenaires Ball Contacts