Recherche | Blog

Votre smartphone vous sert l’information utile sur un plateau

jeudi 20 février 2020 - Mis à jour le lundi 24 février 2020

Temps de lecture : 6 min

Ecouter le contenu de la page avec notre synthèse vocale

Nouvel acteur clé contribuant à l’intelligence ambiante en salle de réunion, votre smartphone capte les échanges et vous restitue les informations utiles vous permettant d’accélérer vos prises de décision.

Imaginez une réunion où vous disposeriez en un coup d’œil des informations sur les personnes, les organisations, les lieux cités par les participants.

Imaginez une réunion où les documents requis pour résoudre une problématique viendraient à vous sans même les demander et ceci sans équipement particulier, seulement votre smartphone connecté à un service Web. C’est un véritable défi technologique qu’adressent nos chercheurs d’Orange dans le cadre de leurs travaux autour des réunions augmentées…

Figure 1 : Les smartphones au service des participants en réunion

Des traitements temps-réel basés sur la captation sonore

Pour rendre service aux participants en réunion, il est important de savoir ce qui se dit et qui parle. Exploiter les smartphones des participants est donc une opportunité, car c’est l’équipement professionnel par excellence. Il nous suit partout et ses capacités de captation audio et vidéo ainsi que sa puissance de calcul en font un véritable acteur pour contribuer à l’intelligence ambiante.

L’idée de départ était donc d’exploiter la puissance de tous les smartphones autour de la table de réunion et de la mettre au service des participants. Chaque smartphone est associé à un locuteur. En se connectant à un service Web, l’audio est transcrite et la vidéo sauvegardée lorsque le participant active cette fonction. Ces flux servent ensuite à produire un compte-rendu multimédia qui prend une forme arborescente, pour faire apparaître les points importants de la réunion, ou la forme d’un player vidéo composé de plusieurs vignettes – la vidéo des locuteurs présents.

Figure 2 : Compte-rendu multimédia disponible en fin de réunion

Mais, en activant le micro du smartphone, une problématique se pose. La voix d’un locuteur est captée par le micro de son smartphone mais peut également l’être par le micro de son voisin autour de la table. Pour résoudre ce point, les niveaux sonores de l’audio captée par chaque smartphone peuvent être analysés afin d’identifier le locuteur de la phrase émise. Ce procédé a été breveté en 2019 et permet également sans aucune intervention de l’utilisateur de restituer le plan et la configuration de table de réunion grâce à l’analyse comparative des amplitudes sonores. Et, puisque les flux audio sont sauvegardés indépendamment les uns des autres, restituer le déroulement d’une réunion avec un son spatialisé est désormais envisageable.

Tout ceci demande beaucoup de traitements et de sauvegardes à réaliser en parallèle. Pour économiser de l’espace de stockage ainsi que les traitements inutiles, une nouvelle méthode qui exploite la caméra du smartphone a également été proposée. L’analyse du visage et en particulier des mouvements de bouche par le smartphone, posé sur un support et orienté vers son propriétaire, permet de savoir si la personne est en train de parler ou non. Si elle ne parle pas, il est inutile de transcrire la parole de l’audio captée ni même de sauvegarder son flux audio et vidéo ! Bien sûr, ce procédé ne fonctionne plus s’il s’agit d’une réunion de ventriloques…

Une chaîne de traitement complexe

La chaîne de traitements intégrée dans le prototype réalisé exploite de multiples algorithmes d’Intelligence Artificielle et sollicite des modules variés tels que la transcription de la parole, l’analyse syntaxique et sémantique des phrases pour en extraire les noms propres, les dates, les lieux et un module de détection de moments forts en particulier : les structures expressives telles que les questions, les problèmes, les actions au moyen de classifieurs entraînés sur des jeux de données génériques.

En fin de chaîne de traitement, un module de calcul de similarité sémantique permet de détecter si les phrases échangées en réunion sont proches d’autres contenus qui pourraient venir aider les participants ou étoffer la conversation ([1]). Ces contenus sont chargés dans le système avant la réunion. Dans le scénario de démonstration du prototype au Salon de la Recherche d’Orange en 2019 ([3]), le code du travail avait été chargé au préalable et des articles de loi étaient suggérés au fil de l’eau. L’objectif clairement visé ici est de réduire le temps de recherche d’informations correspondant aujourd’hui à un cinquième de la durée globale de la réunion.

L’enchaînement de ces divers traitements se fait maintenant en temps réel : c’est le principe du Fast Data. Le système exploite la parole échangée. S’il s’agit d’un moment fort, il l’associe à de plus gros volumes de données en exploitant les technologies de Big Data sémantique pour aider à résoudre des problèmes ou susciter des idées aux participants ([2]). Et les suggestions de contenu arrivent alors directement sur les smartphones des participants.

Mais… Chaque module dans cette chaîne complexe peut commettre des erreurs, qui se répercutent alors sur le reste de la chaîne de traitement. Cela peut induire de mauvaises suggestions. Qu’à cela ne tienne, l’erreur est humaine. Oups : l’erreur peut venir du système ! S’il se trompe, les participants peuvent le corriger pendant ou après la réunion, puisque les échanges importants sont conservés et restitués à la demande. Les classifieurs automatiques sont alors alimentés en nouveaux jeux de données, ce qui crée un cercle vertueux : le système apprend lui aussi de ses erreurs.

En fin de réunion, le module de visualisation agrège toutes les données manipulées et restitue les informations de manière structurée au sein d’un unique compte-rendu multimédia. Ce compte-rendu peut prendre plusieurs formes selon les besoins des utilisateurs : une arborescence ou une carte heuristique faisant apparaître les points à l’ordre du jour et reliant les questions, les problèmes et autres phrases clé de la réunion aux personnes, organisations, ou lieux associés. En cliquant sur un nœud spécifique de la synthèse, l’audio et la vidéo du locuteur apparait alors, permettant de revivre ce moment spécifique. Dans tous les cas, ces données sont rendues accessibles avec l’accord des participants et de manière contrôlée et raisonnée ([4] Règlement Général pour la Protection des Données, RGPD).

la-chaine-de-traitement-du-prototype-réalisé

Figure 3 : La chaîne de traitement du prototype réalisé

Encore de nombreuses pistes à explorer pour des réunions “augmentées”

Les idées ne manquent pas pour fiabiliser et enrichir le système…

L’analyse de l’intonation ou de la prosodie des phrases échangées permettrait de mieux détecter les moments forts en réunion.

Les classifieurs de reconnaissance d’expressions pourraient être spécifiques selon la typologie ou le contexte métier de la réunion. Cette variabilité impacte en effet les performances de compréhension de la réunion. Dans tous les cas, des vérifications expérimentales seront nécessaires et permettront d’obtenir de nouvelles données d’apprentissage.

L’introduction des techniques de détection automatique de changement de sujet pourrait permettre également de réaliser des synthèses plus fines de nos réunions, de démêler les propos échangés et également de faciliter le croisement de réunions entre elles ou le croisement avec d’autres documents d’entreprise dans une approche multimodale pour en tirer de nouvelles connaissances [5].

Fluidifier les échanges d’informations entre la réunion et les autres situations de travail est également un axe d’étude. Les suggestions de contenu ou l’aide contextuelle apparaissant sur le smartphone du participant en réunion pourraient ainsi être personnalisées, en couplant le système existant à son assistant ou compagnon professionnel ayant connaissance en local de ses activités. Inversement, son compagnon pourrait lui suggérer, au fil de sa journée, les informations issues des réunions auxquelles il a été convié.

Le prototype a été présenté au Salon de la Recherche d’Orange en 2019 dans la salle de réunion du futur ([3]). Les smartphones, captant les échanges, étaient posés sur des supports orientés vers les locuteurs. La carte heuristique produite au fil de l’eau par le système était projetée sur grand écran.

[1] Le sens au-delà des mots – Recherche de questions similaires dans des forums :

https://hellofuture.orange.com/fr/le-sens-au-dela-des-mots-recherche-de-questions-similaires-dans-des-forums/

[2] Recherche sémantique :

https://hellofuture.orange.com/fr/lexploration-documentaire-reinvente-le-knowledge-management/

[3] Quand l’IA s’invite dans vos réunions :

https://hellofuture.orange.com/fr/quand-lia-sinvite-dans-vos-reunions-a-distance/

[4] RGPD : derrière la réglementation, une opportunité pour les entreprises :

https://hellofuture.orange.com/fr/rgpd-derriere-la-reglementation-une-opportunite-pour-les-entreprises/

[5] L’exploration documentaire réinvente le Knowledge Management :

https://hellofuture.orange.com/fr/lexploration-documentaire-reinvente-le-knowledge-management/