« Notre outil peut fonctionner comme une sorte de moteur de recherche sémantique ».
Les forums en ligne sont prisés par les internautes pour la possibilité qu’ils leur offrent d’obtenir des réponses pertinentes aux questions qu’ils se posent. Toutefois, pour que cette pertinence opère, encore faut-il que la question soit comprise et ce indifféremment des mots avec lesquels elle est formulée. Or la plupart des moteurs de recherche classiques s’appuient principalement sur les mots de la question et non pas sur le sens de cette dernière, sur son analyse sémantique. Et de fait, ils ne verront donc pas d’équivalence entre deux propositions similaires sur le plan sémantique, mais distinctes dans les mots qu’elles contiennent. Par exemple « comment faire garder ses enfants ? » et « où trouver une bonne baby-sitter ? »…
De la connaissance experte à la connaissance apprise des données
Delphine Charlet et Géraldine Damnati, ingénieures de recherche au sein des Orange Labs, dans l’équipe Deskin (« apprendre » en breton), et expertes du langage, s’intéressent de près à ce sujet. Après avoir débuté par l’analyse de la parole, pour reconnaître soit des mots, soit des locuteurs, les chercheuses étudient aujourd’hui la sémantique du langage naturel. Elles ont remporté en 2017 un des challenges de SemEval, une compétition internationale de sémantique.
Delphine rappelle : « la sémantique signifie le sens des textes. Historiquement, le traitement automatique du langage s’est beaucoup appuyé sur des connaissances expertes, élaborées par des linguistes et lexicographes. On y consignait par exemple que « voiture » est synonyme d’« automobile » et que « Ford T » est un modèle de voiture. Aujourd’hui, il existe de telles bases pour beaucoup de langues. Mais pas pour toutes les langues et pas dans tous les domaines applicatifs car ce procédé est long, difficile à mettre à jour, demandant une supervision humaine. ». D’autres technologies ont émergé avec l’analyse statistique et plus récemment le deep learning, l’apprentissage profond : on peut inférer des connaissances à partir d’ensembles massifs de textes, sans forcément s’appuyer sur une base déjà annotée par l’homme.
Comprendre finement et complètement le sens du texte est le « Graal » pour l’intelligence artificielle. Mais dans beaucoup de cas, le besoin réel est de comprendre assez grossièrement pour traiter des très gros volumes de données. Ces traitements de bas niveau suffisent déjà à aider les personnes à trouver la bonne information, alors que des traitements de haut niveau veulent comprendre de manière sûre le sens de tout extrait de texte.
Les forums, « terrain » de recherche stratégique
Les forums en ligne se révèlent très précieux et riches d’informations. On y observe une véritable intelligence collective humaine : des gens rencontrent des problèmes, d’autres apportent des solutions. Mais les contenus de ces forums sont encore sous-exploités. À partir de bases de connaissances, on arrive à répondre automatiquement à des questions de type « qui », « quoi » ou « combien », par exemple « combien mesure la Tour Eiffel » ou « qui a tué Henri IV ». En revanche, répondre à des questions de type « pourquoi » ou « comment » est beaucoup plus difficile.
« Le paradigme « question et réponse » est important en intelligence artificielle, c’en est même un peu le cœur : je pose une question et une machine intelligente me répond. Notre approche est différente : quand on pose une question, nous cherchons à identifier toutes les questions similaires déjà posées, et faire remonter les réponses (humaines) ayant été apportées », explique Géraldine.
Calculer la similarité sémantique
Chaque année depuis 10 ans, les compétitions internationales SemEval mettent à contribution de nombreuses équipes du monde entier sur différentes tâches d’analyse sémantique. Lors de la campagne SemEval 2017, une tâche « Community Question Answering » abordait précisément le problème de la recherche de questions similaires dans des forums. En posant une question sur un corpus défini à l’avance, Google faisait remonter les 10 meilleurs résultats. Le défi était de faire mieux que Google ! Les données de test de la campagne concernaient un forum en anglais, à destination des occidentaux expatriés au Qatar, traitant de tout sujet de la vie quotidienne (où trouver un bon resto, comment faire pour embaucher une nourrice, quelle est la meilleure banque…). « Notre équipe a gagné cette compétition avec une solution robuste, capable de calculer la similarité sémantique entre les mots, même avec des données « parasitées » par des fautes d’orthographe ou de grammaire », raconte Delphine. L’approche adoptée par la team Deskin consistait à chercher des mots similaires et pas seulement identiques, en paramétrant le modèle de traitement automatique. Le machine learning permet de traiter tout l’historique du forum concerné, afin d’apprendre les représentations de chacun des mots en fonction de leur contexte d’apparition. « Cette technique de word embedding ou plongement de mots fait émerger les similarités de sens des mots à partir des comparaisons de leurs contextes, détaille Géraldine. Un des avantages est que le modèle est indifférent à des erreurs locales, par exemple « voitur » sans « e » sera bien identifié comme voiture grâce aux autres éléments qui l’entourent. »
Des applications potentielles multiples
Dans quel contexte mettre à profit cette solution ? Une première application naturelle concerne les forums Orange, le service client, les auto-dépannages. Un prototype est en cours de construction sur la base de l’assistance des forums d’Orange, en cherchant les bons paradigmes pour ce modèle dédié. Au-delà, le champ est beaucoup plus large puisque l’outil peut fonctionner comme une sorte de moteur de recherche sémantique. Par exemple, il est possible de chercher des informations très précises dans des documentations techniques, faire des recherches dans le domaine biomédical (tests, comptes rendus, diagnostics, tout document venant de patients ou de médecins), produire des aides au data-journalisme, tant pour le lecteur cherchant une information que pour l’auteur voulant confirmer sa validité (fact checking).
Et demain, un cap ultérieur sera atteint avec l’analyse de la syntaxe, de la structure des textes, des prédicats et des arguments. « Dans notre approche actuelle, la phrase « Pierre a réparé la voiture de Paul » nous permet de comprendre qu’il est question de réparation de voiture et que deux personnes sont concernées, mais sans savoir qui au juste a aidé qui. En identifiant les rôles sémantiques des constituants de la phrase, notre équipe s’attache à améliorer la compréhension fine des textes », concluent les deux chercheuses.