Open Science : principes et outils d’une science plus accessible et efficace

Une scientifique menant une discussion sur l'Open Science avec des collègues dans un laboratoire.
La science ouverte est la diffusion la plus large possible des publications et des données issues de la recherche publique ou privée. Cette démarche a pour objectif de démocratiser l’accès aux savoirs et d’accélérer les découvertes scientifiques, et repose sur l’alliance entre l’open access et les “FAIR data” (c’est-à-dire trouvables, accessibles, interopérables et réutilisables) d’une part, et l’utilisation de techniques de machine learning d’autre part.

“Les principes FAIR décrivent la façon dont les données doivent être stockées et présentées pour être plus facilement découvertes, accessibles, interopérables et réutilisables.”

La science ouverte repose sur l’idée que les résultats de la recherche doivent sortir des universités et des laboratoires pour être diffusés dans toute la société. Pour ce faire, il faut pouvoir rendre les publications et les données scientifiques accessibles à tous (chercheurs, mais aussi citoyens et entreprises) gratuitement.

Or aujourd’hui, l’accès aux connaissances scientifiques – et ce, alors même quelles sont souvent issues de travaux financés sur fonds publics – est généralement soumis à la souscription à des abonnements coûteux à des revues spécialisées détenues par un petit nombre d’éditeurs.

 

Une science plus efficace et transparente

Pour ses partisans, la science ouverte induit une démocratisation de laccès aux savoirs. Surtout, elle augmente lefficacité de la recherche et favorise les avancées scientifiques et linnovation. En effet, elle permet aux chercheurs de mutualiser leurs travaux au sein dun écosystème plus propice à la collaboration et à laccumulation des connaissances dans une ou plusieurs disciplines.

Plus transparente, la science ouverte constitue également un levier pour lintégrité scientifique et renforce la confiance des citoyens.

La France s’est dotée dune politique ambitieuse dans ce domaine : après un premier plan lancé en 2018, le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation a annoncé un deuxième Plan national pour la science ouverte en juillet 2021. Ce deuxième plan, par lequel le gouvernement réaffirme ses engagements en faveur de l’ouverture des publications scientifiques et des données, étend son périmètre aux codes sources produits par la recherche.

 

Les voies de l’open access

Premier prérequis de la science ouverte, le libre accès (“open access”) désigne la mise à disposition gratuite darticles académiques sous forme numérique. Cette notion recouvre en fait laccès ouvert, c’est-à-dire les contenus disponibles gratuitement pour les internautes, et le libre accès, c’est-à-dire les contenus à la fois placés en accès gratuit et sous licence libre (ce qui offre la possibilité de les réutiliser – dans les conditions fixées par la licence).

Il existe plusieurs modèles économiques, ou “voies”, de lopen access, visant à couvrir les frais de publication. La “voie verte” désigne le dépôt, par les auteurs eux-mêmes, de leurs travaux dans une archive ouverte comme HAL, archive nationale française créée en 2001. On peut également citer l’initiative européenne OpenAIRE, ou l’archive américaine arXiv dans les domaines de la biologie, de la physique, des mathématiques, de l’informatique…

La “voie dorée” concerne les revues nativement open access. Plusieurs modèles permettent de financer le travail éditorial. Dans le modèle auteur-payeur, lauteur d’un article (ou son établissement employeur) paie l’éditeur pour compenser la perte de financement habituellement apporté par les abonnements. Le projet américain Public Library of Science (PLOS) a, par exemple, emprunté cette voie. OpenEdition a aussi opté pour la “voie dorée”, mais avec un modèle “freemium” : l’inscription est gratuite, mais l’accès à des services complémentaires est payant.

La France défend une troisième voie : le modèle diamant” dans lequel les frais de publication ne sont demandés ni aux lecteurs ni aux auteurs, mais sont pris en charge par un État, une université, une organisation à but non lucratif, etc.

 

Données (scientifiques) ouvertes et principes FAIR

Le sujet de louverture des données scientifiques est plus complexe, car celle-ci peut être limitée par des restrictions légales (secret industriel ou commercial, données à caractère personnel, etc.) ou les bonnes pratiques de sécurité.

Si dans certaines disciplines les chercheurs ont l’habitude de partager les données, comme en physique des particules où le CERN, l’Organisation européenne pour la recherche nucléaire, met les données produites à la disposition de la communauté scientifique et du grand public, dans d’autres, comme la sociologie ou la biologie, la tendance est plus à une “thésaurisation des données” (notamment du fait de leur coût d’acquisition).

De ce fait, les chercheurs peuvent difficilement analyser ou reproduire les résultats des travaux de leurs pairs, ou les utiliser pour faire de nouvelles découvertes.

Pour remédier à cette situation, sur le modèle de ce qui a été fait dans le domaine des données publiques, le gouvernement français a décidé de créer une plateforme nationale regroupant toutes les données pluridisciplinaires issues de la recherche sous l’intitulé “Recherche Data Gouv”.

La Commission européenne a, quant à elle, lancé lEuropean Open Science Cloud (EOSC). Les chercheurs travaillant dans des institutions européennes ont accès à toutes les données disponibles ainsi qu’à des services permettant de traiter et d’analyser ces données.

La façon dont les données sont organisées est elle aussi importante. Ainsi, les principes FAIR (Findable, Accessible, Interoperable, Reusable) décrivent la façon dont les données doivent être stockées et présentées pour être plus facilement découvertes, accessibles, interopérables (c’est-à-dire échangeables) et réutilisables. Cela implique que ces données – et les métadonnées qui les décrivent – soient conformes à un certain nombre de protocoles et de standards.

 

Le TAL et le text mining à l’appui de la science ouverte

La science ouverte saccompagne enfin du développement doutils sappuyant sur lintelligence artificielle (IA) et l’apprentissage automatique ou machine learning (ML) pour aider les chercheurs à analyser et exploiter la production scientifique dans un domaine donné – une tâche humainement impossible tant la masse de ressources disponibles est gigantesque !

Le traitement automatique du langage (TAL) et la fouille de textes et de données (TDM, pour Text and Data Mining), en particulier, s’avèrent utiles pour faire le tri dans lensemble des publications et des données scientifiques, et y découvrir des informations pertinentes (“information retrieval”).

Le TDM désigne les méthodes et les algorithmes permettant d’analyser, à l’aide de technologies linguistiques, de vastes ensembles hétérogènes de données ou de textes non structurés et den extraire automatiquement des connaissances.

Financée par le gouvernement français, la plateforme ISTEX (Information Scientifique et Technique dEXcellence) offre aux enseignants et aux chercheurs un accès en ligne à plus de 20 millions de documents provenant d’une trentaine de corpus de littérature scientifique dans toutes les disciplines.

Pour permettre une recherche encore plus fine et pertinente, elle met aussi à leur disposition des services TDM. Plusieurs outils de sémantisation et de visualisation de données développés pour les besoins de ce projet sont désormais accessibles à tous, comme le logiciel LODEX.

Dans le domaine de la recherche biomédicale, le pionnier PubGene propose, par exemple, des outils permettant aux utilisateurs dexplorer de vastes référentiels dinformations à laide dalgorithmes avancés de text mining et dalgorithmes de TAL spécialisés.

L’objectif de l’entreprise norvégienne créée en 2001 est de rendre la médecine personnalisée plus accessible.Sa solution Coremine Vitae promet ainsi d’aider les cliniciens à identifier les meilleures options de traitement et définir des protocoles de soins en fonction du profil médical individuel du patient.

 

A lire aussi sur Hello Future

ChatGPT est-il un agent conversationnel de type humain ?

Découvrir

La personnalité dérivée des données peut révolutionner les services intelligents

Découvrir

Reflet numérique professionnel : connais-toi toi-même !

Découvrir
Aleksandra Guerraz fait parler les verbatims

Aleksandra Guerraz fait parler les verbatims

Découvrir