Intelligence artificielle | Article | Explorer

P-C. Langlais (Pleais) : « Nos modèles de langue sont entraînés sur des corpus ouverts »

Stock image showing a black man’s face looking into a computer screen in an open plan working office. Type is being added to the screen by an Artificial intelligence, AI, chatbot.

mardi 7 mai 2024

Temps de lecture : 3 min

Ecouter le contenu de la page avec notre synthèse vocale

• La start-up Pleais propose une gamme de modèles de langues de plus petite taille que les géants Mistral ou ChatGPT pour des usages bureautiques et administratifs spécifiques, comme la recherche documentaire.
• Elle mise sur la transparence et l’éthique, en respectant le droit d’auteur et permettant à ses clients d’avoir la garantie que ses modèles de langues répondent à des critères réglementaires stricts.
• L’un des cofondateurs de la société, Pierre-Carl Langlais, explique par ailleurs que cette stratégie axée solution dédiée est davantage en phase avec le manque d’infrastructures GPU en Europe.

Pourquoi avoir créé Pleais ? A quels problèmes rencontrés par les utilisateurs de modèles de langues répondez-vous ?

Je suis chercheur en humanités numériques et je me suis penché sur l’analyse des corpus, comme ceux de la presse ancienne, pour appréhender la manière dont les textes étaient reçus à l’époque. Par ce biais, je me suis intéressé à l’intelligence artificielle comme outil, et j’ai rapidement perçu ce qu’allaient devenir les modèles de langue. J’ai pris conscience que certains professionnels ont besoin de savoir comment les modèles ont été entraînés, et de savoir si les données utilisées respectent le droit d’auteur. A noter que pour des raisons réglementaires et de transparence, certains modèles ont besoin d’être audités. C’est un enjeu éthique important, à savoir « qu’est-ce que l’on met dans l’IA ? », et les implications sont autant culturelles que démocratiques. C’est également un enjeu concurrentiel, car tous les acteurs de toute taille, doivent pouvoir accéder à des modèles adaptés à leurs besoins.

Concrètement, quelles sont votre approche et votre proposition de valeur ?

Nous nous sommes inspirés d’un projet chinois baptisé QWEN, qui propose de très bons modèles dont la taille varie de 500 millions 4 milliards de paramètres. Notre vision est ainsi de proposer une large gamme de modèles qui peuvent tourner sur des GPU accessibles, voire sur des CPU, à destination du secteur public, du secteur bancaire ou des acteurs de la santé, tout en étant hébergés sur des infrastructures locales. Nous ne souhaitons d’ailleurs pas « vendre des modèles » mais des produits, comme des outils de recherche, qui intègrent ces modèles. Notre modèle pour les services publics est baptisé Albert. C’est notre projet phare en IA générative pour les usages bureaucratiques français. Il offre la possibilité de rédiger des synthèses de rapport, de simplifier le langage administratif, etc., tout en intégrant une dimension éthique importante.

Nous entraînons des modèles sur des corpus ouverts — des textes tombés dans le domaine public – parce que les corpus sous licence cherchent à refermer le champ concurrentiel de l’IA.

Pourquoi créer des modèles de petite taille, et pas un gros modèle de langue comme ChatGPT ?

Notre objectif est de montrer qu’il est possible d’entraîner des petits modèles de langue à partir de données ouvertes. Cela répond notamment au fait que l’on manque d’infrastructures GPU en Europe et nous sommes néanmoins convaincus que de petits modèles peuvent être très performants dans une logique de spécialisation, sur des usages ciblés, par exemple en analyse de document, dans la bureautique, dans des usages purement bureaucratiques, etc. Par ailleurs, quand vous prenez un modèle très généraliste comme Mistral ou GPT, vous devez réaliser un important travail d’adaptation pour que ces modèles deviennent performants dans l’analyse de documents dans un secteur précis.

Pourquoi les professions réglementées et le service public utiliseraient davantage vos modèles ?

L’IA Act introduit un principe de chaîne de responsabilité par rapport à ce que génèrent les modèles. Cette responsabilité est rattachée soit à la personne qui a créé un modèle, soit à celle qui va le déployer. Sur le papier, c’est la personne qui déploie le modèle qui est responsable de ce qui est généré. Or cela crée une importante tension entre les parties, car il est souvent, voire toujours, impossible de contrôler la manière dont un modèle a été créé. Dans le privé, il existe des activités régulées qui doivent répondre à des exigences spécifiques, comme la santé ou la finance. Par ailleurs, le service public a également besoin de répondre à des exigences de transparence. Nous entraînons donc des modèles sur des corpus ouverts — des textes tombés dans le domaine public —, principalement des PDF, et ce notamment parce que les corpus sous licence cherchent à refermer le champ concurrentiel de l’IA.