Le modèle de langage GPT-3, révolution ou évolution ?
La sortie du modèle GPT-3 a ouvert un nouvel horizon des possibles qui a fait couler beaucoup d’encre : “GPT-3, cette intelligence artificielle qui écrit des articles (presque) toute seule” [1], “GPT-3, une intelligence artificielle capable de rivaliser avec Ernest Hemingway” [2]. Ce modèle semble en effet capable de nombreuses prouesses. Un étudiant a ainsi réussi à alimenter un blog avec des articles générés automatiquement par GPT-3, et de nombreuses personnes ont pensé lire les textes d’une vraie personne [3]. Le modèle a pu répondre à certaines questions générales, de sens commun, de quiz [12] et même de médecine [13]. Il a encore généré des morceaux de musique [14]. Mais, ce modèle peut aussi être déraisonnable. Il peut vous dire que votre boisson à la canneberge est un poison ou conseiller à un avocat d’aller travailler en maillot de bain pour remplacer son costume taché [15].
Pour les chercheurs en traitement automatique du langage (TAL), ce modèle est certes nouveau mais son principe est déjà bien connu. Le Monde s'appuyait plus récemment sur les témoignages d’experts en TAL pour nuancer l’engouement : “GPT-3, l’intelligence artificielle qui a appris presque toute seule à presque tout faire” [4].
Tentons ici de démystifier ce qui se cache derrière GPT-3, cette 3e génération de “Generative Pre-Training”, dernier maillon de l’évolution des modèles de langage à l’architecture de Transformers.
Lire l'article