L’exploration documentaire réinvente le Knowledge Management

Comment valoriser les contenus existants dans une entreprise, qu’ils soient textes, audio ou vidéo ? Comment explorer ces contenus facilement et en tirer de nouvelles connaissances ? Démonstration d’une solution inédite, de gestion documentaire sémantique.

Proposer une recherche plus efficace dans tous les formats de contenus y compris les documents vidéo ou audio souvent sous-exploités.

Dans la plupart des entreprises, les données sont partout, souvent organisées en silos, par entité ou métier. Retrouver une information spécifique peut parfois relever du parcours du combattant et nécessiter de consulter de multiples canaux ou supports, de s’identifier à plusieurs reprises, de passer du temps à visionner ou écouter une conférence dans son intégralité ou en lire toute la transcription.

Face à ce constat, les chercheurs du domaine de Recherche Data and Knowledge d’Orange, qui travaillent depuis plusieurs années sur l’exploration et la valorisation de contenus multimédias de la Connaissance, ont mis au point un prototype de référentiel documentaire multimédia pour les entreprises. Cette solution inédite et innovante, appelée Sema4KM, à la fois référentiel et moteur de recherche, utilise des technologies de “speech to text” (reconnaissance de la parole), des outils d’analyse sémantique et extraction de mots clés, d’analyse en locuteurs et des outils d’indexation développés par la recherche d’Orange et combinés pour générer de la valeur. L’ambition ? Proposer une gestion documentaire multimédia avec une navigation simplifiée dans la base de données  et une recherche plus efficace dans tous les formats de contenus y compris les documents vidéo ou audio souvent sous-exploités.  Le moteur d’exploration offre aussi la possibilité d’établir des croisements entre différentes sources de connaissance.

« Nous avons inventé le terme « Explorescence », pour qualifier cette nouvelle façon d’explorer les contenus afin de créer de la Connaissance » indique Géraldine Damnati, Ingénieur de recherche en Traitement Automatique du Langage chez Orange.

Des contenus vidéo et audio valorisés

La démonstration proposée au Salon de la Recherche 2019 s’appuie sur les documents produits par la Recherche d’Orange, un corpus documentaire constitué de webinaires, de conférences filmées, d’articles de blogs, de sites internet ou intranet, d’un Yearbook, de présentations diverses… A partir d’une requête d’informations sur un sujet comme celui de la Blockchain, par exemple, la recherche aboutit rapidement à la sélection de plusieurs contenus de formats différents. Au-delà des textes, la nouveauté ce sont les extraits identifiés d’une conférence pourtant consacrée à un sujet beaucoup plus large, ou encore le recensement de tous les intervenants s’étant déjà exprimés sur la thématique.

L’outil s’inscrit dans une démarche innovante de gestion des connaissances, et les chercheurs de Data and Knowledge travaillent main dans la main avec les équipes Knowledge Management et celles du domaine Entreprise Digitale, pour adapter les solutions aux contenus et aux problématiques des entreprises. « Nous réfléchissons déjà aux évolutions de l’outil. Par exemple, la recherche par similarité de mots ou d’extraits, la recherche multilingue, et même la recherche conversationnelle qui permettra de poser des questions pour obtenir des éléments de réponse encore plus précis ».

A lire aussi sur Hello Future

Deux personnes sont assises devant un ordinateur, discutant d'un projet. Des bobines de fil sont visibles sur la table.

Ne pas reproduire préjugés et erreurs humaines dans les LLMs : comment faire ?

Découvrir
GettyImages - Noria knowledge graph - graphe de connaissances

NORIA : détection d’anomalies réseaux à l’aide des graphes de connaissances

Découvrir
GettyImages - urbanisme

Les promesses de l’apprentissage automatique pour la rénovation urbaine

Découvrir
GettyImages - machine learning research - recherche en apprentissage automatique

Prise de décisions précoces basée sur le Machine Learning (ML-EDM)

Découvrir
GettyImages - micro plastique - micro plastic

L’apprentissage automatique pour réduire les déchets plastiques en mer

Découvrir
GettyImages - optimisation énergie réseaux - energy networks

Énergie : échanger la production verte et locale, optimiser les consommations du réseau

Découvrir
Un homme se faisant scanner le visage par une tablette pour une meilleure reconnaissance audiovisuelle

Regarder pour mieux entendre : séparation des voix dans un flux audio-visuel

Découvrir

Chiffrer ou classifier le trafic Internet : faut-il vraiment choisir ?

Découvrir