“Les principes FAIR décrivent la façon dont les données doivent être stockées et présentées pour être plus facilement découvertes, accessibles, interopérables et réutilisables.”
La science ouverte repose sur l’idée que les résultats de la recherche doivent sortir des universités et des laboratoires pour être diffusés dans toute la société. Pour ce faire, il faut pouvoir rendre les publications et les données scientifiques accessibles à tous (chercheurs, mais aussi citoyens et entreprises) gratuitement.
Or aujourd’hui, l’accès aux connaissances scientifiques – et ce, alors même qu’elles sont souvent issues de travaux financés sur fonds publics – est généralement soumis à la souscription à des abonnements coûteux à des revues spécialisées détenues par un petit nombre d’éditeurs.
Une science plus efficace et transparente
Pour ses partisans, la science ouverte induit une démocratisation de l’accès aux savoirs. Surtout, elle augmente l’efficacité de la recherche et favorise les avancées scientifiques et l’innovation. En effet, elle permet aux chercheurs de mutualiser leurs travaux au sein d’un écosystème plus propice à la collaboration et à l’accumulation des connaissances dans une ou plusieurs disciplines.
Plus transparente, la science ouverte constitue également un levier pour l’intégrité scientifique et renforce la confiance des citoyens.
La France s’est dotée d’une politique ambitieuse dans ce domaine : après un premier plan lancé en 2018, le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation a annoncé un deuxième Plan national pour la science ouverte en juillet 2021. Ce deuxième plan, par lequel le gouvernement réaffirme ses engagements en faveur de l’ouverture des publications scientifiques et des données, étend son périmètre aux codes sources produits par la recherche.
Les voies de l’open access
Premier prérequis de la science ouverte, le libre accès (“open access”) désigne la mise à disposition gratuite d’articles académiques sous forme numérique. Cette notion recouvre en fait l’accès ouvert, c’est-à-dire les contenus disponibles gratuitement pour les internautes, et le libre accès, c’est-à-dire les contenus à la fois placés en accès gratuit et sous licence libre (ce qui offre la possibilité de les réutiliser – dans les conditions fixées par la licence).
Il existe plusieurs modèles économiques, ou “voies”, de l’open access, visant à couvrir les frais de publication. La “voie verte” désigne le dépôt, par les auteurs eux-mêmes, de leurs travaux dans une archive ouverte comme HAL, archive nationale française créée en 2001. On peut également citer l’initiative européenne OpenAIRE, ou l’archive américaine arXiv dans les domaines de la biologie, de la physique, des mathématiques, de l’informatique…
La “voie dorée” concerne les revues nativement open access. Plusieurs modèles permettent de financer le travail éditorial. Dans le modèle auteur-payeur, l’auteur d’un article (ou son établissement employeur) paie l’éditeur pour compenser la perte de financement habituellement apporté par les abonnements. Le projet américain Public Library of Science (PLOS) a, par exemple, emprunté cette voie. OpenEdition a aussi opté pour la “voie dorée”, mais avec un modèle “freemium” : l’inscription est gratuite, mais l’accès à des services complémentaires est payant.
La France défend une troisième voie : le modèle “diamant” dans lequel les frais de publication ne sont demandés ni aux lecteurs ni aux auteurs, mais sont pris en charge par un État, une université, une organisation à but non lucratif, etc.
Données (scientifiques) ouvertes et principes FAIR
Le sujet de l’ouverture des données scientifiques est plus complexe, car celle-ci peut être limitée par des restrictions légales (secret industriel ou commercial, données à caractère personnel, etc.) ou les bonnes pratiques de sécurité.
Si dans certaines disciplines les chercheurs ont l’habitude de partager les données, comme en physique des particules où le CERN, l’Organisation européenne pour la recherche nucléaire, met les données produites à la disposition de la communauté scientifique et du grand public, dans d’autres, comme la sociologie ou la biologie, la tendance est plus à une “thésaurisation des données” (notamment du fait de leur coût d’acquisition).
De ce fait, les chercheurs peuvent difficilement analyser ou reproduire les résultats des travaux de leurs pairs, ou les utiliser pour faire de nouvelles découvertes.
Pour remédier à cette situation, sur le modèle de ce qui a été fait dans le domaine des données publiques, le gouvernement français a décidé de créer une plateforme nationale regroupant toutes les données pluridisciplinaires issues de la recherche sous l’intitulé “Recherche Data Gouv”.
La Commission européenne a, quant à elle, lancé l’European Open Science Cloud (EOSC). Les chercheurs travaillant dans des institutions européennes ont accès à toutes les données disponibles ainsi qu’à des services permettant de traiter et d’analyser ces données.
La façon dont les données sont organisées est elle aussi importante. Ainsi, les principes FAIR (Findable, Accessible, Interoperable, Reusable) décrivent la façon dont les données doivent être stockées et présentées pour être plus facilement découvertes, accessibles, interopérables (c’est-à-dire échangeables) et réutilisables. Cela implique que ces données – et les métadonnées qui les décrivent – soient conformes à un certain nombre de protocoles et de standards.
Le TAL et le text mining à l’appui de la science ouverte
La science ouverte s’accompagne enfin du développement d’outils s’appuyant sur l’intelligence artificielle (IA) et l’apprentissage automatique ou machine learning (ML) pour aider les chercheurs à analyser et exploiter la production scientifique dans un domaine donné – une tâche humainement impossible tant la masse de ressources disponibles est gigantesque !
Le traitement automatique du langage (TAL) et la fouille de textes et de données (TDM, pour Text and Data Mining), en particulier, s’avèrent utiles pour faire le tri dans l’ensemble des publications et des données scientifiques, et y découvrir des informations pertinentes (“information retrieval”).
Le TDM désigne les méthodes et les algorithmes permettant d’analyser, à l’aide de technologies linguistiques, de vastes ensembles hétérogènes de données ou de textes non structurés et d’en extraire automatiquement des connaissances.
Financée par le gouvernement français, la plateforme ISTEX (Information Scientifique et Technique d’EXcellence) offre aux enseignants et aux chercheurs un accès en ligne à plus de 20 millions de documents provenant d’une trentaine de corpus de littérature scientifique dans toutes les disciplines.
Pour permettre une recherche encore plus fine et pertinente, elle met aussi à leur disposition des services TDM. Plusieurs outils de sémantisation et de visualisation de données développés pour les besoins de ce projet sont désormais accessibles à tous, comme le logiciel LODEX.
Dans le domaine de la recherche biomédicale, le pionnier PubGene propose, par exemple, des outils permettant aux utilisateurs d’explorer de vastes référentiels d’informations à l’aide d’algorithmes avancés de text mining et d’algorithmes de TAL spécialisés.
L’objectif de l’entreprise norvégienne créée en 2001 est de rendre la médecine personnalisée plus accessible.Sa solution Coremine Vitae promet ainsi d’aider les cliniciens à identifier les meilleures options de traitement et définir des protocoles de soins en fonction du profil médical individuel du patient.
Sources :
Deuxième Plan national pour la science ouverte https://www.ouvrirlascience.fr/deuxieme-plan-national-pour-la-science-ouverte-2021-2024/
La science ouverte https://www.inserm.fr/nos-recherches/science-ouverte
Comment la science ouverte peut s’inspirer du libre accès aux données publiques https://theconversation.com/comment-la-science-ouverte-peut-sinspirer-du-libre-acces-aux-donnees-publiques-157091
Principes FAIR https://www.ccsd.cnrs.fr/principes-fair/
La fouille de texte et de données au service des sciences https://theconversation.com/la-fouille-de-texte-et-de-donnees-au-service-des-sciences-57743
Exploration des données https://www.science-ouverte.cnrs.fr/exploration-des-donnees/