Organisation des ensembles de données

Le choix d’un système bien conçu d’organisation des données peut vous aider à garder le cap sur vos données s’il existe plusieurs versions d’ensembles de données ou des modifications dans des ensembles de données. Cela vaut surtout dans les grandes équipes. Pour commencer votre organisation de données, vous devez définir la structure de vos données de recherche. Les types de structures les plus importants sont présentés ci-dessous:

 Façons possibles d'organiser les données
Façons possibles d’organiser les données. A : Organisation rectangulaire des données non hiérarchiques. B: Données à deux niveaux hiérarchiques (sujet et occasion de mesure) en format « large ». C : Données à deux niveaux hiérarchiques au format « long « . D : Modèle pour un fichier de données structuré de manière hiérarchique. E : Structure de base de données relationnelles.
  • Les fichiers rectangulaires plats ou les données tabulaires sont une structure de données classique et encore souvent utilisée qui peut être lue par tous les programmes statistiques et tableurs.
    • Un moyen courant de structurer des fichiers rectangulaires est le format large (tableau A dans l’image ci-dessus): les colonnes représentent différentes variables, tandis que les lignes représentent différentes observations (par exemple des sujets). Cependant, des problèmes de format large se posent lorsque les données sont structurées hiérarchiquement, par exemple dans des conceptions avec des mesures répétées (voir le tableau B de l’image ci-dessus). Si le nombre d’occasions de mesure diffère d’une observation à l’autre, de nombreuses cellules seront laissées vides par conception.
    • Une solution peut être d’utiliser le format long pour l’ensemble de données (voir tableau C dans l’image ci-dessus). En format long, chaque ligne représente une unité d’observation (p. ex. une occasion de mesure pour une personne spécifique) et une variable caractérise l’occasion de mesure (par exemple, jour 1, pré-test, etc.). Ce format permet la représentation de données hiérarchiques dans un fichier rectangulaire classique. Les fichiers en format long contiendront quelques redondances, car les caractéristiques des unités d’observation d’ordre supérieur sont répétées dans chaque ligne (par exemple, des variables invariantes dans le temps comme le sexe du sujet ou l’année de naissance). Comme les fonctions des paquets statistiques fonctionnent généralement avec l’un de ces formats uniquement, les transformations entre grand format et grand format sont une tâche fréquente et des fonctions correspondantes existent (par exemple, la fonction reshape et le paquet reshape2 dans R).
  • Des fichiers hiérarchiques peuvent être utilisés pour éviter les redondances, qui se produisent, lors de l’utilisation de fichiers rectangulaires (voir tableau E dans l’image ci-dessus). Les fichiers XML répondent à cette exigence et permettent d’enregistrer des données et des métadonnées dans un seul fichier. Cependant, malgré ces avantages, les fichiers XML ne sont pas couramment utilisés en psychologie et les logiciels statistiques nécessitent souvent des données tabulaires en entrée.
  • Les bases de données relationnelles organisent les données de différents niveaux hiérarchiques dans des tables rectangulaires séparées tandis que les différentes tables sont connectées par des associations définies. Les tableaux individuels peuvent être analysés statistiquement ou liés pour former de nouveaux tableaux. Les bases de données relationnelles peuvent représenter des associations complexes de manière élégante, mais elles ont besoin de plus d’administration et de connaissances des langages de base de données (par exemple SQL).

Organisation des données de recherche

Comme il n’existe ni bonnes pratiques ni conventions de nommage qui se réfèrent explicitement aux données de recherche psychologique, nous recommandons les directives développées dans le volet Projet: Enseigner l’intégrité dans la recherche empirique comme point de départ pour l’organisation des dossiers et des fichiers dans les projets de recherche empirique.

De plus, les directives générales sur la conception des conventions de nommage des bibliothèques de l’Université de Boston (s.d.) peuvent être utiles:

  • Le nom de fichier que vous choisissez doit être utilisé de manière cohérente dans tous vos fichiers (incluez toujours les mêmes informations, dans le même ordre)

Considérez comment, d’un point de vue futur, vos fichiers devraient être organisés, par exemple project_instrument_location_date_time_version.

  • Vous devez toujours inclure des dates dans vos noms de fichiers afin que les modifications puissent être retracées; utilisez le format AAAA-MM-JJ.
  • Évitez les symboles suivants dans vos noms de fichiers: »/\:*?  » < > & $. Ils ont des significations spécifiques dans certains systèmes d’exploitation informatiques et peuvent donc entraîner des erreurs de lecture ou même la suppression du fichier.
  • N’utilisez pas d’espaces pour séparer les termes, utilisez plutôt des traits de soulignement (_).
  • Essayez de nommer les dossiers de manière descriptive, afin qu’il soit clair ce qu’ils contiennent, et gardez les noms courts (15-20 caractères max.)
  • Essayez également de garder les noms de fichiers courts et descriptifs (< 25 caractères)
  • Si vous n’utilisez pas de logiciel de gestion automatique des versions, incluez les numéros de version à la fin du nom de fichier (par exemple v01, v02,..) et le modifier chaque fois que le fichier est enregistré (reportez-vous également à la section de la base de connaissances sur le contrôle des versions). Ceci est particulièrement important s’il y a plusieurs personnes qui travaillent ensemble sur les fichiers, afin que les modifications puissent être suivies.
  • Pour votre version finale, utilisez le mot FINAL au lieu d’un numéro de version. Ceci est particulièrement utile et important si vous partagez vos fichiers!
  • Les noms de fichiers ne doivent contenir qu’une seule période avant l’extension du fichier, par exemple project_name_date.doc PAS project.name.date.doc OU nom_de_projet..doc)
  • Si vous avez déjà nommé plusieurs de vos fichiers, vous pouvez les renommer rapidement en utilisant une application de renommage de fichiers telle que Bulk Rename Utility (Windows), ReNamer (Mac OS X) ou PSRenamer (Mac OS X, Windows, Unix, Linux) et Zamzar (convertir des fichiers en ligne).

L’application web DataWiz vous accompagne dans l’organisation de vos données de recherche en vous proposant une structure et un schéma de documentation prédéfinis pour votre projet de recherche.

Autres ressources

  • SQL est un langage de programmation spécialisé dans la gestion des données dans les systèmes de gestion de bases de données relationnelles.
  • XML est un langage de balisage interopérable lisible par l’homme et la machine et est largement utilisé dans la gestion des données de recherche en raison de sa simplicité et de sa facilité d’utilisation générique.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

lg