• Le projet Back In Time de l’Inria en France utilise l’IA et la cryptographie pour rendre des documents historiques cryptés accessibles aux chercheurs.
• Ces innovations rendues possibles par l’IA amènent les chercheurs en sciences humaines à travailler plus efficacement tout en repensant leurs méthodes de recherche.
Au Royaume-Uni, l’historienne Katherine McDonough chercheuse à l’Université de Lancaster et à l’Institut Alan Turing sur un projet unique en son genre : un outil sémantique d’exploration des cartes historiques basée sur la « computer vision ». Il permet à des utilisateurs novices en IA de traiter des cartes historiques et de créer des données structurées sur leur contenu. « L’idée de MapReader est de trouver de nouvelles manières de penser les paysages historiques, avec un outil d’identification de données automatique à partir de cartes historiques », explique la chercheuse. L’objectif est d’établir davantage de connaissance des cartes, de l’histoire des cartes, mais également de comprendre ce que les cartes disent de l’environnement, de paysages et plus largement, de la société. « D’habitude, les systèmes d’information géographique (GIS) sont utilisés pour tracer manuellement des points, des lignes, des polygones, etc. Ici on sort d’une approche pixel par pixel pour segmenter des cartes en différentes parcelles et interroger le système afin de savoir s’il y a des arbres dans cette zone, de l’eau, une infrastructure ferroviaire ou autre. » L’outil a été développé afin qu’il soit très simple pour n’importe quelle personne de créer ses propres annotations. Cela permet, en cas d’erreur, de modifier les annotations, plutôt que de recommencer tous les tracés.
On assiste actuellement à une transformation de la confiance, de l’acceptation et de l’enthousiasme des historiens envers l’IA
Appréhender l’histoire différemment
MapReader permet de trouver des informations spécifiques à différentes échelles, que ce soit au niveau national ou international, et de disposer davantage d’un savoir historique qui n’a jusque-là pas pu être appréhendé de cette manière. « Par exemple, les Britanniques faisaient autrefois beaucoup de curling et, dans le passé, il y avait des étangs bâtis par des humains qui disposaient d’angles droits pour jouer au curling. MapReader a permis à un historien de voir comment l’évolution de cette pratique a évolué avec le changement climatique en analysant l’évolution des étangs dans le temps. » Pour la chercheuse, l’IA permet non pas de répondre à des questions de sciences humaines avec un outil disponible « sur étagère » mais de « repenser le design des méthodes afin qu’elles soient plus adaptées pour répondre à ce type de questions ». Elle estime que l’on assiste actuellement à une transformation de la confiance, de l’acceptation et de l’enthousiasme des historiens envers l’IA. « Pour que les historiens utilisent l’IA de manière responsable, on ne peut se contenter d’outils standards. Nous devons nous impliquer dans le processus de conception, sinon, le manque de transparence dont la manière dont les données sont transformées ou déduites est trop problématique ».
Déchiffrer les textes historiques cryptés
En France, des chercheurs de l’Inria entendent quant à eux rendre accessibles des documents historiques illisibles, car cryptés. C’est l’essence du projet Back In Time qui mélange histoire, traitement automatique des langues et cryptographie. « Notre rêve est de développer un logiciel en ligne sur lequel les chercheurs puissent mettre des photos de leur document afin d’obtenir un texte lisible », explique Cécile Pierrot, chargée de recherche à Inria Nancy et spécialiste en cryptographie. Ce niveau d’automatisation n’est pas encore à l’ordre du jour. « La cryptographie date de 1500 ans avant Jésus-Christ et, en histoire, on a beaucoup d’exemples de textes chiffrés volontairement. On a aujourd’hui besoin d’automatiser la tâche de lecture. » L’objectif est, par exemple, de recréer à partir de rien une table de correspondance des symboles d’un document du XVIe siècle. Pour comprendre ces documents quand les tables de correspondance ne sont pas accessibles, il faut étudier les statistiques des symboles dans un texte, leur fréquence, l’association des symboles, leur position, etc. « Aujourd’hui on va chercher des algorithmes d’optimisation. On essaie de trouver une clef qui va nous permettre de lire le texte et on va associer un score à cette clef qui sera évaluée parmi des milliers d’autres clefs. On va avoir un graphe des clefs possibles et on va se retrouver avec un paysage 3D de ces clefs. Le but sera de trouver la plus haute valeur. »
Des défis linguistiques importants
La tâche est d’autant plus complexe que, au cours de l’histoire ici de la langue française, l’orthographe de celle-ci n’est pas fixée. « On a, par exemple, des signes abréviatifs dont l’interprétation peut être multiple, comme un signe qui ressemble à un 9 et qui peut être transcrit en Con ou Com voire Usse en fin de mot. Et cela demande des travaux supplémentaires en traitement automatique du langage », précise Thibault Clérice, qui dirige des recherches combinant traitement automatique des langues et humanités computationnelles. Une autre difficulté réside dans la reconnaissance du texte manuscrit. « Parfois on ne sait pas ce qu’on va trouver comme type de signe dans un document. Cela représente un défi pour l’IA à la frontière entre la computer vision et le traitement automatique des langues. » Néanmoins, le chercheur estime que le développement de l’IA est extrêmement important pour l’élargissement des corpus historiques. « On commence à arriver au bout des développements pour les corpus déjà numérisés non cryptés, d’où la nécessité de se diriger vers d’autres types de sources. »
Visuel : décryptage de la lettre de Charles Quint – Cécile Pierrot à la bibliothèque Stanislas de Nancy – photographie Clotilde Verdenal ©LoeiLCreatif