Les modèles de langue de grande taille (en anglais “Large Language Models” ou ) ont révolutionné le traitement automatique de la langue naturelle ( ). S’ils se révèlent très efficaces pour résoudre de nombreuses tâches de TALN, ils présentent deux problèmes majeurs : l’anglais est surreprésenté au détriment des autres langues, et ils sont généralement des “boîtes noires”.
Grâce à cette approche, Bloom est capable de remplir différentes tâches de TALN et serait plus efficace que des modèles monolingues sur certaines langues.
Deux problèmes que le projet de recherche international BigScience vise à résoudre grâce à Bloom, un modèle multilingue développé et entraîné dans une démarche de science ouverte et participative.
La révolution des modèles de langue de grande taille
Les modèles de langue sont des modèles statistiques entraînés sur des corpus de textes pour calculer la probabilité d’une séquence de mots dans une phrase en langue naturelle en tenant compte d’un contexte. Leurs premières applications concernent la traduction automatique, les systèmes de questions-réponses, la reconnaissance vocale, le résumé automatique ou la génération automatique de texte.
Ces dernières années, l’apparition d’une nouvelle génération de modèles de langue a révolutionné le domaine du traitement automatique de la langue naturelle. Fondés sur des réseaux de neurones artificiels, ces modèles sont caractérisés par un grand nombre de paramètres et un apprentissage non supervisé sur de très gros volumes de données textuelles – d’où l’appellation “modèles de langue de grande taille”. De ce fait, ils sont capables de mieux capter les caractéristiques lexicales des phrases et des mots.
Extrêmement puissants, ils présentent toutefois deux limites importantes. D’abord, même en ayant été entraînés sur des corpus multilingues, ils ne fonctionnent (très) bien quasiment qu’en anglais. Le laboratoire d’intelligence artificielle de Meta tente de résoudre ce problème avec son nouveau modèle de langue baptisé “No Language Left Behind” (“Aucune langue laissée de côté”).
Deuxième limite : en raison de leur complexité grandissante, ils sont opaques, c’est-à-dire qu’il est difficile d’expliquer leur fonctionnement et leurs résultats. En outre, la grande majorité des modèles de langue de grande taille sont développés par des entreprises et laboratoires de recherche privés, qui les mettent à disposition du public, à l’image de BERT (Bidirectional Encoder Representations from Transformers), publié par Google, mais communiquent très peu d’informations sur leur apprentissage.
Or, compte tenu de l’utilisation croissante des systèmes d’intelligence artificielle et de leurs impacts potentiels dans tous les domaines, il est essentiel de gagner en transparence. Cela implique de pouvoir ouvrir la boîte noire des gros modèles de langue afin de mieux les comprendre et de pouvoir les améliorer. Tel est l’objectif poursuivi par le projet BigScience.
Faites entrer Bloom
Ce projet initié au printemps 2021 par la start-up franco-américaine spécialisée en intelligence artificielle Hugging Face, et soutenu par le CNRS, GENCI et le ministère de l’Enseignement supérieur et de la Recherche, a donné naissance au modèle de langue Bloom.
Bloom fonctionne de la même manière que ses prédécesseurs : il prédit la probabilité d’un mot à partir d’un texte initial et complète des phrases, mot après mot. Comme GPT-3, il s’agit d’un modèle autorégressif (les prédictions sont réalisées pas à pas et le résultat d’une prédiction sert d’entrée pour la prédiction suivante) basé sur une architecture Transformer. Il a été entraîné sur de très grands corpus de textes et contient à peu près le même nombre de paramètres (176 milliards). Mais il se distingue des autres modèles par son caractère “véritablement” multilingue et open source.
Le plus grand modèle de langue multilingue
Bloom est en effet capable de produire des textes cohérents dans quarante-six langues et du code dans treize langages de programmation. Il inclut de nombreuses langues sous-représentées, notamment des langues d’Afrique subsaharienne comme le swahili ou le yoruba. Il a été entraîné simultanément dans toutes ces langues, à partir de sources aussi variées que des romans, des articles scientifiques ou des dépêches sportives (et ce, sans que les données soient triées en fonction de leur langue).
Grâce à cette approche, Bloom est capable de remplir différentes tâches de traitement automatique de la langue naturelle, et serait plus efficace que des modèles monolingues sur certaines langues. “Agglomérer des contenus en des langues variées permet d’apprendre des modèles robustes et performants pour toutes les langues considérées, et conduit même souvent à des résultats meilleurs que des modèles monolingues”, affirme le CNRS.
Le caractère multilingue de Bloom a nécessité un important travail d’ingénierie et de recherche, d’une part pour créer des données d’apprentissage de bonne qualité, et d’autre part pour entraîner le modèle.
Les données utilisées pour entraîner les gros modèles sont habituellement récupérées automatiquement sur Internet. Une tâche complexe, lorsque l’on cherche à couvrir des langues peu présentes en ligne. Ici, les données ont aussi été aspirées sur Internet, notamment sur Wikipédia, et préparées par la start-up Hugging Face, qui a également intégré des corpus de textes existants payants.
Quant à l’entraînement du modèle, cette étape a bénéficié de la participation d’une large communauté de chercheurs séduits par l’aventure BigScience.
Un formidable outil de recherche
C’est la deuxième particularité de BigScience. Ce projet de science participative et ouverte a rassemblé un millier de chercheurs en provenance de plus de soixante-dix pays, issus aussi bien du monde académique que de laboratoires de recherche privés comme Orange Labs, travaillant ensemble pour entraîner un modèle de langue unique en son genre de manière complètement transparente.
Bloom est aujourd’hui disponible gratuitement sous la licence “BigScience RAIL”, qui met l’accent sur un usage responsable. Les paramètres du modèle sont accessibles à des fins d’expérimentation et les résultats de recherche sont partagés avec l’ensemble de la communauté scientifique.
Cela fait de Bloom un formidable outil de recherche, visant à faire progresser les travaux sur les modèles de langue de grande taille et l’intelligence artificielle en général. Il doit permettre à des scientifiques de tous horizons d’observer la conception et le fonctionnement des LLM pour mieux les comprendre et les améliorer. Selon le CNRS, des projets seront également menés pour mesurer l’empreinte carbone de ces modèles.
Un Large Language Model (modèle de langue de grande taille) est un programme informatique de traitement automatique du langage qui se caractérise par un grand nombre de paramètres et un apprentissage non supervisé sur de très gros volumes de données textuelles. Cela lui permet de mieux capter les caractéristiques lexicales des phrases et des mots.
Le traitement automatique de la langue naturelle, ou ingénierie linguistique, mobilise la linguistique, l’informatique et l’intelligence artificielle afin de produire des programmes informatiques permettant d’automatiser, par exemple, la traduction ou les réponses à des questions, ou de faire fonctionner la reconnaissance vocale.