Aller au contenu

Gérer ses données

Dernière mise à jour :

Les principes FAIR

Les données de recherche doivent idéalement respecter les principes FAIR (Findable, Accessible, Interoperable, Reusable). Ce cadre guide toutes les étapes de leur gestion :

  • Faciles à trouver (Findable)  : chaque jeu de données doit être facilement localisable grâce à des identifiants pérennes et des métadonnées riches.

  • Accessibles (Accessible) : les données (ou au moins les métadonnées) sont facilement accessibles via un protocole de communication standardisé.

  • Interopérables (Interoperable) : les données doivent pouvoir être combinées avec d’autres, grâce à des formats et standards ouverts.

  • Réutilisables (Reusable) : les données doivent être suffisamment bien documentées pour pouvoir être réutilisées par d’autres chercheurs, avec des licences et un contexte clairement définis.

Consultez sur cette page les différents enjeux de gestion des données :

Documentation et métadonnées

La documentation des données est une étape essentielle pour garantir leur compréhension, leur qualité et permettre leur réutilisation. Elle repose sur l'utilisation de métadonnées et de documents complémentaires permettant de décrire le contexte de production des données, leur structure, leur contenu et les conditions de leur usage.

Métadonnées

Les métadonnées sont un ensemble d'informations qui permettent de décrire précisément les données de recherche. Elles peuvent être embarquées (produites directement par les logiciels ou appareils : date, format...) ou enrichies (ajoutées par le producteur : mots-clés, nom du projet, licence...).

Standard de métadonnées

Un standard de métadonnées est un ensemble de règles communes qui définit comment décrire une information de manière standardisée. Il est adopté comme modèle par une communauté (discipline, type de données, infrastructure...) et fournit un langage commun facilitant l'échange d'informations. L'utilisation de standards permet une organisation cohérente des informations, favorise l'interopérabilité entre logiciels et plateformes, améliore la recherche et l'indexation des données, et facilite leur réutilisation.

Exemples de standards de métadonnées :

Fichier README

Un fichier README (LISEZMOI) est un document en format texte, lisible par les humains, qui accompagne les jeux de données d'un projet de recherche. Il vise à expliciter le contexte de production des données et vient en complément des métadonnées structurées. Il est recommandé d'utiliser un format ouvert et pérenne, tel que .txt ou .md.

Un modèle de README est proposé par l'entrepôt Recherche Data Gouv.

Dictionnaire de données

Un dictionnaire de données (ou codebook) est un référentiel qui décrit et définit précisément chaque variable contenue dans une base, en précisant sa signification, son format, ses valeurs possibles, son unité...

Un exemple de dictionnaire de données est présenté à la page 11 de la ressource suivante :

Pierre-Yves Arnould, Marie-Christine Jacquemot-Perbal. Guide de bonnes pratiques. Gestion et valorisation des données de la recherche. [Rapport de recherche] OTELo ; INIST-CNRS. 2016, 26 p. ⟨hal-01275841⟩

Stockage

Pendant la durée d'un projet, les données de recherche doivent être stockées dans un lieu adapté aux besoins de l'équipe et aux spécificités des données.

Plusieurs aspects sont à prendre en compte :

  • la sécurité des fichiers

  • leur accessibilité pour les personnes concernées

  • la préservation de leur intégrité, intelligibilité et lisibilité.

Cela implique notamment :

  • l’utilisation de supports robustes (éviter les supports fragiles comme les clés USB)

  • la préférence pour des solutions institutionnelles (serveurs ou clouds gérés par l’établissement)

  • l’exclusion des plateformes commerciales telles que Google Drive ou Dropbox dont les serveurs sont hors de l'Union européenne, ce qui peut poser des problèmes de conformité au RGPD ou des pertes de données

  • l'anticipation de mesures de sécurité spécifiques en cas de données à caractère personnel ou couvertes par un secret (professionnel, défense, industriel...) : chiffrement, gestion rigoureuse des droits d'accès...

Quelle solution de stockage choisir ?

Pour vous aider à choisir une solution adaptée à vos besoins, un outil d’aide au choix du stockage est mis à disposition avec l’offre de l’université de Bordeaux :

Consulter l'outil

Astuce : Utilisez la règle de la sauvegarde 3-2-1 : 3 copies des données, sur 2 supports différents, dont 1 copie à distance.

Questions juridiques

La gestion des données de recherche peut impliquer des enjeux juridiques importants, notamment en matière de données à caractère personnel, de propriété intellectuelle et de licences de réutilisation. Anticiper ces questions dès le début du projet permet de sécuriser les pratiques et de faciliter, le cas échéant, la diffusion des données.

La plateforme JurisDoR, centre de ressources de Recherche Data Gouv, diffuse au public et auprès des communautés scientifiques, des ressources juridiques pour la gestion des données de la recherche.

Données à caractère personnel

Avant d'engager une collecte ou un traitement de données à caractère personnel, il est indispensable de se poser les bonnes questions en matière de conformité réglementaire (RGPD) afin de ne pas se retrouver dans une situation bloquante.

Pour cela, contactez la juriste RGPD recherche de l'université de Bordeaux : rgpd-recherche@u-bordeaux.fr

Les données à caractère personnel regroupent toutes les informations permettant d'identifier une personne

  • directement (nom, prénom, photo...)

  • indirectement (adresse e-mail, adresse IP, plaque d'immatriculation...)

  • par recoupement de données (par exemple : une femme vivant dans telle ville, née tel jour et membre dans telle association).

Vous trouverez davantage d'informations sur la page Recherche, thèses, mémoires et rapports de stage.

Pour les personnels et étudiants de l'université de Bordeaux, consultez la page RGPD / données à caractère personnel.

Propriété intellectuelle et diffusion des données

Dans le contexte de la gestion des données de recherche, les questions de propriété intellectuelle se posent principalement au regard de leurs conditions de diffusion et de réutilisation.

La majorité des données de recherche ne relève pas du droit de la propriété intellectuelle et est juridiquement considérée comme des documents administratifs ou des informations publiques, lorsque ces données sont financées au moins pour moitié sur des fonds publics.

La loi pour une République numérique (2016) consacre ainsi un principe d’ouverture par défaut, de gratuité et de libre réutilisation des données publiques. Cette ouverture peut néanmoins être limitée lorsque les données sont protégées par un droit spécifique ou soumises à une réglementation particulière.

Cas spécifiques :

  • Œuvres de l'esprit : certaines productions sont protégées par le droit d'auteur, par exemple des photographies originales portant l'empreinte de la personnalité de l'auteur.

  • Bases de données : lorsque la création d’une base demande un investissement substantiel, l’établissement producteur bénéficie d'un droit sui generis sur le contenu global de la base. Pour les établissements publics, ce droit ne permet pas d'empêcher la diffusion et la réutilisation des données contenues dans la base, sauf exception prévue par la loi (notamment en présence de donnée à caractère personnel).

  • Données non communicables ou à communication restreinte au sens du Code des relations entre le public et l’administration (CRPA) : secret de la défense nationale, sécurité publique, vie privée, secret médical, secret des affaires...

  • Données à caractère personnel : peuvent être rendues publiques uniquement après anonymisation ou avec le consentement des personnes concernées.

Enfin, les contextes de recherche multi-partenariaux (collaborations, financements externes, contrats) doivent faire l’objet d’une attention particulière, les conditions de diffusion et de réutilisation des données pouvant être encadrées contractuellement.

À retenir : le principe applicable est « aussi ouvert que possible, aussi fermé que nécessaire ».

Licences de réutilisation

Lors de la diffusion des données de recherche, il est essentiel d'apposer une licence afin d'indiquer clairement aux potentiels réutilisateurs les conditions dans lesquelles les données peuvent être réutilisées.

Pour les données publiques, la licence doit être choisie parmi la liste fermée fixée par décret :

Les licences Creative Commons, largement utilisées à l’international et recommandées par de nombreux financeurs, ne figurent pas à ce jour dans le décret. Il est toutefois recommandé d’attribuer une double licence Licence ouverte et CC-BY (compatibles entre elles) lors de la publication d'un jeu de données.

Archivage

À l'issue de la recherche, lorsque l'équipe n'intervient plus sur les données, celles-ci entrent dans une nouvelle phase, distincte du stockage ou de la publication sur un entrepôt de données.

Il convient alors de contacter la Direction des archives - données et documents d'activité de l'université de Bordeaux (archives-universitaires@u-bordeaux.fr) (y compris dans le cas où l'unité de recherche a d'autres tutelles que l'université de Bordeaux).

Un premier tri est réalisé en collaboration avec les archivistes : les données sont rassemblées, classées et mises en cohérence, puis versées en archivage électronique intermédiaire.

Les données sont conservées pendant 25 ans, conformément au Référentiel de conservation et de communication UBx (RCC UBx). Passé ce délai, la Direction des archives élimine celles qui ne présentent pas d’intérêt scientifique, historique ou patrimonial, en respectant la réglementation en vigueur. Lors de la transmission vers les archives, le chercheur peut formuler des consignes de conservation complémentaires.

À noter : cet archivage s'applique également aux données à caractère personnel. Si le RGPD limite la durée de conservation pour les données stockées sur les postes de travail ou les espaces collaboratifs, l’archivage légal constitue une finalité légitime et obligatoire.

Astuce : anticiper l'archivage dès le début du projet

  • utiliser des conventions de nommage claires pour les dossiers et fichiers

  • organiser l'arborescence de manière cohérente

  • documenter soigneusement les données

Vous trouverez davantage d'informations sur la page Direction des archives - données et documents d'activité.

donnees-recherche%40u-bordeaux.fr