Introduction
Quelques éléments introductifs concernant la terminologie, les enjeux et les activités liés à la gestion et au partage des données de recherche.
Terminologie
Entendues au sens large, les données de recherche englobent toutes les données collectées, générées ou étudiées dans le cadre des activités de recherche et à des fins de recherche, i. e. pour produire, documenter et valider les résultats de recherche. Il peut s’agir de chiffres, de textes, d’images, de sons, de code informatique, etc.
Différentes typologies permettent de caractériser plus spécifiquement les données de recherche, selon que l’on les envisage du point de vue de leur mode de production ou du point de vue de leur degré d’achèvement par exemple.
- Typologie selon le mode de production : données d’observation, expérimentales, de simulation, données dérivées ou compilées.
- Typologie selon le degré d’achèvement : des données "brutes" aux données publiées.
Enjeux
Rendre accessibles et réutilisables le plus largement possible les données de recherche répond à différents enjeux.
- Innovation et collaboration : il s’agit de favoriser la réutilisation des données pour de nouvelles applications potentielles et la création de nouvelles collaborations, entre créateurs et utilisateurs des données.
- Préservation et réduction des coûts : il s’agit de préserver des données uniques et/ou coûteuses à produire, mais également d’éviter des coûts liés à la duplication de données existantes et plus largement à la perte de données. Chacun connaît des anecdotes telles que celles relatées par Peter Brewer, le rédacteur en chef de la revue JGR : Oceans, dans un éditorial intitulé “Do You Expect Me to Just Give Away My Data?”.
Brewer, P. (2017). “Do You Expect Me to Just Give Away My Data?” Eos, (98).
- Transparence : il s’agit de faciliter la reproduction et la réplication, de permettre de vérifier et de préciser des résultats, de décourager la fraude, etc.
- Valorisation : il s’agit de générer une reconnaissance directe pour les chercheurs qui ont produit les données, au travers de la publication de data papers par exemple et a minima par l’adaptation des pratiques de citation. Certaines revues promeuvent non seulement la citation des jeux de données en tant quels, mais encore les intègrent dans la bibliographie principale de l’article. La revue Scientific Data détaille cette nouvelle politique dans l’éditorial Data citation needed , illustrée par la référence 21 de l’article Field-recorded data on habitat, density, growth and movement of Nephrops norvegicus.
Data citation needed. (2019). Scientific Data, 6(1), 27.
- Respect d’une obligation : il s’agit d’appliquer les exigences d’une revue, voir par exemple l’annonce de la nouvelle politique de citation et de partage de données de Wiley en 2017, ou d’une agence de financement, telles que celles de la Commission Européenne présentées sous la forme d’une infographie : Open Research Data in Horizon 2020.
Activités
Diffuser les données de recherche s’insère dans le cycle de vie et de gestion des données. Le tableau ci-dessous identifie les principales activités impliquées, ainsi que différents niveaux d’engagement et de pratique pour chacune d’elles.
Pratique ad hoc | Pratique ponctuelle | Pratique active et informative | Pratique optimisée pour la réutilisation | |
Planifier votre projet | En ce qui concerne mes données, j'ai une "façon de faire les choses" mais pas de plans standardisés ni documentés. | Je crée des plans formels sur la façon dont je vais gérer mes données au début d'un projet, mais généralement je ne m'y réfère pas par la suite. | J'élabore des plans détaillés sur la façon dont je vais gérer mes données ; je réexamine et révise activement ces plans au cours d'un projet. | Les plans que j’ai créés pour gérer mes données sont conçus pour rationaliser leur utilisation future par moi-même ou par d'autres. |
Organiser vos données | Je ne suis pas une démarche cohérente pour maintenir mes données organisées, aussi je perds souvent du temps pour m’y retrouver. | J'ai une démarche pour organiser mes données, mais je ne la mets en pratique qu'une fois mon projet terminé. | J’ai une démarche pour organiser mes données, je l’applique de manière prospective, mais elle n’est pas nécessairement normalisée. | J'organise mes données de façon à ce que d’autres puissent les parcourir, les comprendre et les utiliser sans que je sois présent. |
Sauvegarder vos données | Je décide quelles données sont importantes pendant que je travaille dessus et je les sauvegarde généralement à un seul endroit. | Je sais quelles données doivent être sauvegardées et je les sauvegarde après y avoir travaillé pour réduire le risque de perte. | J'ai un système pour sauvegarder régulièrement les données importantes pendant que je travaille dessus. J'ai plusieurs sauvegardes. | J'enregistre mes données d'une manière et à un endroit conçus pour maximiser les possibilités de réutilisation par moi-même et par d’autres. |
Préparer vos données pour l’analyse | Je n'ai pas de processus normalisé ou bien documenté pour préparer mes données en vue de leur analyse. | J'ai réfléchi à la façon dont je vais devoir préparer mes données, mais je traite chaque cas d'une manière différente. | Mon processus de préparation des données est normalisé et bien documenté. | Je prépare mes données de manière à en faciliter l'utilisation à la fois par moi-même et par d'autres à l'avenir. |
Analyser vos données et traiter les résultats | Je dois souvent refaire mes analyses ou examiner leurs produits pour déterminer quelles procédures ou quels paramètres ont été appliqués. | Après avoir terminé mon analyse, je documente les paramètres spécifiques, les procédures et les protocoles appliqués. | Je documente régulièrement les particularités de mes processus d'analyse et de prise de décision pendant que j'analyse mes données. | J'ai veillé à ce que les particularités de mes processus d'analyse et de prise de décision puissent être comprises et mises en pratique par d’autres. |
Partager et publier vos données | Je partage les résultats de mes recherches, mais généralement je ne partage pas les données sous-jacentes. | Je partage mes données uniquement lorsque je suis tenu de le faire ou en réponse à des demandes directes d'autres chercheurs. | Je partage régulièrement les données sur lesquels se fondent mes résultats et mes conclusions sous une forme qui permet leur utilisation par d'autres. | Grâce à mes excellentes pratiques de gestion des données, je suis en mesure de partager efficacement mes données dès que cela est nécessaire, à tout moment et avec quiconque. |
Traduit et adapté de : Borghi, J. et al. (2018). Support Your Data: A Research Data Management Guide for Researchers. Research Ideas and Outcomes, 4, e26439.