Module 9 : Considérations déontologiques et juridiques

40 La gestion et l’ouverture des données de la recherche

Matthieu Noucher

Présentation du thème et de l’auteur du chapitre

Avec le développement des infrastructures numériques, des plateformes Web de diffusion de l’Information Scientifique et Technique (IST) émergent progressivement. Ainsi, les institutions, les organismes de recherche, les agences de financement, les éditeurs et éditrices scientifiques, tous et toutes s’accordent aujourd’hui sur l’indispensable ouverture des données de la recherche, et plus particulièrement celles financées sur fonds publics. Ces différents acteurs et actrices mettent en place des actions pour les rendre facile à trouver, accessibles, intelligibles et réutilisables[1]. L’exploitation et la réutilisation efficaces des données requièrent néanmoins la mise en place de mécanismes de gestion, d’accès et de partage qu’il est important d’avoir en tête dès le début de son travail de recherche.

Matthieu Noucher est chercheur au Centre National de la Recherche Scientifique (CNRS), en France, au sein du laboratoire PASSAGES à Bordeaux[2]. Géographe et spécialiste des sciences de l’information géographique, ses recherches portent sur la dimension politique et sociale des usages de la cartographie et des technologies géomatiques.

Les données de la recherche

L’OCDE[3] définit les données de la recherche comme :

[des] enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.

Dans une perspective de science ouverte juste, cette définition me semble restrictive car elle établit une hiérarchie entre les corpus : quels critères permettent de considérer qu’une base de données relève d’une source principale alors qu’un carnet de terrain serait une source secondaire? Par ailleurs, la référence à des enregistrements dits « factuels » renvoie à une conception positiviste de la science qui invisibilise les savoirs endogènes dès lors qu’ils ne sont pas observables et ne renvoient au « réel ». Avec une approche plus constructiviste, je considère que la recherche s’alimente de multiples données, que les sources principales ou primaires n’existent pas puisque toute donnée est construite et que, par conséquent, la valorisation des données de la recherche doit être pensée dans toute leur diversité. Par ailleurs, pour instaurer des liens solides avec les acteurs et actrices des territoires, il me semble nécessaire de s’ancrer le plus possible dans les mouvements citoyens et institutionnels en cours – qui dépassent voire précèdent le monde académique – sur l’ouverture des données publiques.

L’ouverture des données publiques

Le partage des données de la recherche s’inscrit donc dans le mouvement d’ouverture et de partage des données publiques qui dépasse la sphère scientifique stricto sensu. Ce mouvement mondial[4] consiste à mettre à disposition de tous les citoyens et de toutes les citoyennes, sur Internet, toutes les données publiques qui seront librement accessibles et gratuitement réutilisables. L’essor de portails Web dédiés aux données ouvertes ou open data est souvent perçu comme emblématique de la révolution numérique en cours, matérialisant à la fois la réponse des pouvoirs publics à la transformation des exigences démocratiques et les possibilités offertes par la technique au déploiement et à l’actualisation de ces aspirations sociales. Mettant au premier plan la notion de « partage » des données, l’open data est ainsi censé représenter une forme de renouvellement du pacte entre État et citoyen-ne-s. Pour un chercheur ou une chercheuse, les modalités de mise en partage de ses données peuvent être multiples. Chacune d’entre elles répond à des enjeux de diffusion et de valorisation des savoirs.

Diffuser ses données : quels canaux de communication?

Outre les données exposées dans les publications scientifiques, qui ne représentent que « la partie émergée de l’iceberg », les données issues de la recherche peuvent être valorisées en les diffusant comme des ressources complémentaires dans des articles, en les publiant dans des data papers, en les déposant dans des entrepôts de données ou encore en les rendant disponibles en ligne via le site Web d’un projet ou d’un réseau.

Les rubriques « ressources complémentaires » (supplementary materials)

De nombreuses revues, de plus en plus en SHS, offrent aux auteurs et autrices la possibilité d’annexer à leur article le corpus mobilisé pour la recherche qui y est présentée. Les rubriques des revues en ligne intitulées « ressources complémentaires » ou « supplementary materials » sont dédiées à ce type de diffusion. Il s’agit ainsi d’offrir aux lecteurs et lectrices qui souhaitent approfondir, reproduire ou prolonger l’analyse de le faire sur la base du matériel de recherche qui a servi très directement pour la publication présentée. Les données diffusées sont alors bien souvent un extrait d’un corpus plus large qui peut lui-même être diffusé en intégralité dans un entrepôt de données (cf. infra).

Les articles dédiés aux données (data paper)

De nouveaux types de publications centrées sur les données, tels les data papers ou data journal, sont proposés depuis quelques années par les éditeurs et éditrices. Ils permettent d’augmenter la visibilité des données de la recherche et de renforcer ainsi leur statut de contribution scientifique : il est possible de les citer au même titre que les publications « classiques ». Les codes sources de programmes informatiques, de plus en plus présents dans le champs des SHS avec le développement des humanités numériques, peuvent également être diffusés pour faciliter la compréhension et la reproduction de l’algorithme produit et mobilisé pour la recherche. Les données de la recherche, décrites dans ce type d’article, peuvent être déposées dans un entrepôt de données et reliées à l’article.

Les entrepôts de données

Un entrepôt de données (data repository, digital repository) est un réservoir constitué majoritairement de données de recherche, qui sont décrites par des identifiants et des métadonnées de façon à pouvoir être retrouvées. Ces entrepôts peuvent être thématique[5], disciplinaire[6], multidisciplinaire[7], institutionnels[8] ou spécifique à un projet de recherche. Des annuaires d’entrepôts de données existent comme re3data[9] qui en recense plus de 2700.

L’importance des identifiants

Les identifiants sont des éléments indispensables pour faciliter l’accès aux données de la recherche et leur intégration dans des services d’information. Il s’agit d’un code d’identification unique et pérenne (les spécialistes parlent aussi de persistent identifier ou PID) assigné à un objet de façon permanente. Les URL sont communément utilisées comme identifiants mais leur pérennité n’est pas assurée. Au contraire des identifiants qui sont disponibles et gérables à long terme, ils ne changeront pas si les objets sont renommés ou déplacés (changement de site, d’entrepôts de données, etc.). Par ailleurs, il est possible d’avoir plusieurs identifiants pérennes émanant de différents systèmes pour un même jeu de données. Les systèmes les plus utilisés sont les suivants :

Système

Liens

DOI https://datacite.org/
HANDLE http://handle.net/
PURL https://archive.org/services/purl/

L’importance des métadonnées

Afin que les données de la recherche soient réutilisables, le contexte de leur production doit être documenté de manière précise et intelligible. Cette description peut se faire sous la forme d’une documentation adéquate, via un fichier txt ou pdf qui rapporte des informations sur le projet (hypothèses, méthodologie, échantillonnage, instruments, etc.), sur les fichiers ou la base de données et sur les paramètres.

À la différence de la documentation qui est seulement lisible par l’humain, les métadonnées sont structurées et interprétables par les ordinateurs. Elles permettent donc de les retrouver plus facilement car l’un des revers de la démultiplication des infrastructures de recherche est lié au « déluge de données ». Il devient en effet de plus en plus complexe de s’y retrouver, les métadonnées sont alors un outil essentiel.

Les métadonnées peuvent aussi se définir comme un ensemble structuré de données qui servent à définir ou décrire une ressource. Les métadonnées répondent aux questions suivantes :

  • QUI a créé les données?
  • QUE contiennent-t-elles?
  • OÙ sont-elles?
  • QUAND ont-elles été créées?
  • COMMENT ont-elles été créées?
  • POURQUOI ont-elles été créées?

Pour répondre à ces questions, on comprendra qu’il est plus facile de produire les métadonnées au moment de la collecte ou de la création des données plutôt qu’a posteriori (une fois la thèse terminée, par exemple). Les métadonnées sont donc à compléter tout au long du cycle de vie des données.

Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. On peut citer le standard Dublin Core, l’un des plus utilisés, qui comprend 15 éléments de description formels (titre, créateur, éditeur), thématiques (sujet, description, langue, etc.) et relatifs à la propriété intellectuelle[10].

Un exemple pour aller plus loin : https://www.navigae.fr/

Navigae est une plateforme de recherche et de valorisation des données cartographiques scientifiques et patrimoniales. Elle a pour objectif d’améliorer la diffusion et la réutilisation des données géographiques issues de fonds de laboratoires de recherche ou de bibliothèques.

Présentation complète : article de la Lettre de l’INSHS du CNRS

Une tâche laborieuse… mais indispensable

L’élaboration d’une stratégie de diffusion des données de la recherche et le respect de bonnes pratiques peuvent apparaître comme une tâche laborieuse. Cependant, ce sont des éléments importants dans le processus de recherche qu’on ne peut plus ignorer. Une bonne gestion de ses données permet d’assurer l’intégrité scientifique et la reproductibilité de la recherche, d’améliorer bien souvent la qualité des données par l’effort de documentation que demande leur diffusion, d’éviter la duplication des corpus et de minimiser le risque de perte. Au-delà de ces intérêts pratiques, l’enjeu est aussi politique. Diffuser ses données, c’est en effet augmenter leur visibilité et éviter qu’une uniformisation (par exemple, linguistique) des savoirs par la donnée ne s’impose. Autrement dit, c’est une opportunité de faire connaitre les productions scientifiques dans toute leur diversité!

Bibliographie commentée à venir


  1. Selon les principes dit du « FAIR data » pour Findable, Accessible, Interoperable, Reusable.
  2. https://cv.archives-ouvertes.fr/matthieu-noucher
  3. http://www.oecd.org/fr/science/sci-tech/principesetlignesdirectricesdelocdepourlaccesauxdonneesdelarecherchefinanceesurfondspublics.htm
  4. En 2013, une charte adoptée par le G8 pour l'ouverture des données publiques promeut le principe d'accès et de gratuité de leur réutilisation par tous et toutes et en privilégiant les formats ouverts et non-propriétaires.
  5. Comme, en sciences de l’éducation, le corpus d’apprentissage (sur l’observation des interactions en ligne en situation d’apprentissage à distance) du projet MULCE : http://lrl-diffusion.univ-bpclermont.fr/mulce2/index.html
  6. Comme le Réseau Quetelet dédié aux sciences humaines et sociales : http://quetelet.progedo.fr/
  7. Comme la plateforme Zenodo : https://www.zenodo.org/
  8. Comme le portail de l’Université d’Edimbourg en Écosse : https://datashare.is.ed.ac.uk/
  9. Re3data pour Registry of Research Data Repositories : https://www.re3data.org/
  10. Ces 15 éléments sont décrits dans la notice Wikipedia : https://fr.wikipedia.org/wiki/Dublin_Core