DAGOBAH : Un tableau ne parle que par celui qui sait l'annoter
Les données constituent un véritable trésor pour les services numériques sous réserve qu’elles soient nettoyées et non biaisées, mais aussi associées à des informations sémantiques explicites et structurées permettant leur exploitation par des traitements informatiques.
Les données non structurées comme les textes sont naturellement explicites (les informations nécessaires à la compréhension du contenu sont dans les phrases ou leur voisinage, agencées selon des règles de construction connues), la difficulté résidant alors dans l’extraction des éléments pertinents et du sens correct en fonction du contexte. A contrario, la sémantique des données structurées ou semi-structurées comme les tableaux est exclusivement latente : un mécanisme implicite (inférence) basé sur les connaissances propres du lecteur est requis pour qu’ils soient compréhensibles, dans la mesure où il n’y a pas de contexte explicite.
Associer des annotations sémantiques aux données tabulaires afin d’en augmenter la valeur ajoutée pour des applications d’Intelligence Artificielle est un enjeu majeur, en particulier dans les entreprises où la majorité des données se présente sous cette forme.
Plateforme de recherche issue de projets IA, DAGOBAH est un système d’annotation sémantique de données tabulaires indépendant du contexte, permettant la génération de graphes de connaissances enrichis sur lesquels les utilisateurs peuvent s’appuyer pour répondre à leurs besoins. DAGOBAH est un projet de recherche collaboratif développé par des équipes d’Orange Labs de Belfort et Rennes, en partenariat avec le département Data Science d’EURECOM à Sophia Antipolis.
Lire l'article
Les données non structurées comme les textes sont naturellement explicites (les informations nécessaires à la compréhension du contenu sont dans les phrases ou leur voisinage, agencées selon des règles de construction connues), la difficulté résidant alors dans l’extraction des éléments pertinents et du sens correct en fonction du contexte. A contrario, la sémantique des données structurées ou semi-structurées comme les tableaux est exclusivement latente : un mécanisme implicite (inférence) basé sur les connaissances propres du lecteur est requis pour qu’ils soient compréhensibles, dans la mesure où il n’y a pas de contexte explicite.
Associer des annotations sémantiques aux données tabulaires afin d’en augmenter la valeur ajoutée pour des applications d’Intelligence Artificielle est un enjeu majeur, en particulier dans les entreprises où la majorité des données se présente sous cette forme.
Plateforme de recherche issue de projets IA, DAGOBAH est un système d’annotation sémantique de données tabulaires indépendant du contexte, permettant la génération de graphes de connaissances enrichis sur lesquels les utilisateurs peuvent s’appuyer pour répondre à leurs besoins. DAGOBAH est un projet de recherche collaboratif développé par des équipes d’Orange Labs de Belfort et Rennes, en partenariat avec le département Data Science d’EURECOM à Sophia Antipolis.