Traducteurs automatiques, correcteurs d’orthographe, moteurs de recherche, interfaces vocales ou assistants virtuels… Le traitement automatique du langage naturel (TALN) est partout, et nous l’utilisons quotidiennement. À l’intersection de la linguistique, de l’informatique et des mathématiques, cette…

Traducteurs automatiques, correcteurs d’orthographe, moteurs de recherche, interfaces vocales ou assistants virtuels… Le traitement automatique du langage naturel (TALN) est partout, et nous l’utilisons quotidiennement. À l’intersection de la linguistique, de l’informatique et des mathématiques, cette discipline de l’intelligence artificielle vise à développer des outils informatiques capables de comprendre et parler notre langue afin de rendre l’usage des technologies plus simple et agréable et de nous fournir une multitude de services.

Pour ce faire, différents niveaux de traitement sont nécessaires : lexical, syntaxique, sémantique, pragmatique… La machine doit identifier les différents mots, leurs propriétés telles que leur rôle grammatical ou leur signification, et les relations qu’ils entretiennent, mais aussi saisir le sens de la phrase et le contexte particulier dans lequel elle a été formulée.

C’est très compliqué, parce que le langage naturel est caractérisé :

1) par son ambiguïté, qui se manifeste par le fait qu’un mot peut avoir plusieurs sens et par la multitude d’interprétations que l’on peut donner à une phrase ;
2) inversement, par sa variabilité, un même concept peut être désigné par plusieurs synonymes et une même idée par différentes paraphrases ;
3) par une certaine quantité d’implicite, c’est-à-dire ce qui n’est pas formulé expressément.

Les humains disposent d’une connaissance « d’arrière-plan » qui leur permet la plupart du temps de lever les ambiguïtés et de comprendre l’implicite. Ce qui n’est pas le cas de la machine. Ainsi, la « désambiguïsation lexicale » est un problème majeur dans le traitement des langues naturelles, dont la résolution permettrait des avancées importantes !

Même si de nombreux progrès restent à accomplir dans le domaine du TALN, des avancées spectaculaires ont été obtenues grâce à l’utilisation de techniques d’apprentissage automatique, notamment à base de réseaux de neurones artificiels, qui mobilisent aujourd’hui les efforts de nombreuses équipes de recherche.

A lire aussi sur Hello Future

Deux scientifiques examinent des données sur un écran dans un laboratoire

Alerte sismique : un réseau de neurones convolutifs surveille le champ de gravité terrestre

Découvrir
Un homme regarde son écran d'un air songeur

Dans les entrailles de l’IA : enjeux et méthodes de l’explicabilité

Découvrir
Un homme regarde des données sur une tablette

L’IA générative, une nouvelle approche pour pallier la rareté des données

Découvrir

L’apprentissage auto-supervisé ouvre la voie à une IA de bon sens

Découvrir

Vers une IA moins gourmande en données et en énergie

Découvrir

L’IA franchit le mur du son

Découvrir