Organizzazione dei set di dati

La scelta di un sistema ben concepito di organizzazione dei dati può aiutare a tenere traccia dei dati se ci sono più versioni di set di dati o modifiche nei set di dati. Questo vale soprattutto nelle squadre più grandi. Per iniziare con l’organizzazione dei dati, è necessario definire la struttura dei dati di ricerca. I tipi di struttura più importanti sono mostrati di seguito:

Possibili modi per organizzare i dati
Possibili modi per organizzare i dati. A: Organizzazione rettangolare di dati non gerarchici. B: Dati con due livelli gerarchici (soggetto e occasione di misura) in formato” wide”. C: Dati con due livelli gerarchici in formato “lungo”. D: Modello per un file di dati strutturato gerarchicamente. E: Struttura della base dati relazionale.
  • I file rettangolari piatti o dati tabulari sono una struttura dati classica e ancora spesso utilizzata che può essere letta da tutti i programmi statistici e di fogli di calcolo.
    • Un modo comune per strutturare i file rettangolari è il formato largo (tabella A nell’immagine sopra): le colonne rappresentano variabili diverse, mentre le linee rappresentano osservazioni diverse (ad esempio soggetti). Tuttavia, i problemi di grande formato sorgono quando i dati sono strutturati gerarchicamente, ad esempio in progetti con misure ripetute (vedi tabella B nell’immagine sopra). Se il numero di occasioni di misurazione differisce tra le osservazioni, molte celle saranno lasciate vuote in base alla progettazione.
    • Una soluzione può essere quella di utilizzare il formato lungo per il set di dati (vedi tabella C nell’immagine sopra). In formato lungo ogni riga rappresenta un’unità osservativa (ad es. un’occasione di misurazione per una persona specifica) e una variabile caratterizza l’occasione di misurazione (ad esempio giorno 1, pre-test ecc.). Questo formato consente la rappresentazione di dati gerarchici in un file rettangolare classico. I file in formato lungo conterranno alcune ridondanze, perché le caratteristiche delle unità di osservazione di ordine superiore vengono ripetute in ogni riga (ad esempio variabili tempo-invarianti come il sesso del soggetto o l’anno di nascita). Poiché le funzioni all’interno dei pacchetti statistici di solito funzionano solo con uno di questi formati, le trasformazioni tra formato largo e formato lungo sono un’attività frequente e esistono funzioni corrispondenti (ad esempio la funzione reshape e il pacchetto reshape2 in R).
  • I file gerarchici possono essere impiegati per evitare ridondanze, che si verificano, quando si utilizzano file rettangolari (vedi tabella E nell’immagine sopra). I file XML soddisfano questo requisito e consentono di salvare dati e metadati in un unico file. Tuttavia, nonostante questi vantaggi XML-file non sono comunemente utilizzati in psicologia e software statistico spesso richiede dati tabulari come input.
  • Le basi di dati relazionali organizzano i dati di diversi livelli gerarchici in tabelle rettangolari separate mentre le diverse tabelle sono collegate attraverso associazioni definite. Le singole tabelle possono essere analizzate statisticamente o collegate per formare nuove tabelle. I database relazionali possono rappresentare associazioni complesse in modo elegante, ma hanno bisogno di più amministrazione e conoscenza dei linguaggi di database (ad esempio SQL).

Organizzazione dei dati di ricerca

Poiché non ci sono né best practice né convenzioni di denominazione che si riferiscono esplicitamente ai dati di ricerca psicologica, raccomandiamo la guida sviluppata nel LIVELLO del progetto: Insegnare l’integrità nella ricerca empirica come punto di partenza per l’organizzazione di cartelle e file in progetti di ricerca empirica.

Inoltre, la guida generale sulla progettazione di convenzioni di denominazione delle biblioteche della Boston University (n.d.) può essere utile:

  • Il nome del file scelto deve essere utilizzato in modo coerente in tutti i file (includere sempre le stesse informazioni, nello stesso ordine)

Considera come, da un punto di vista futuro, i tuoi file dovrebbero essere organizzati, ad esempio project_instrument_location_date_time_version.

  • Dovresti sempre includere le date nei nomi dei file in modo che le modifiche possano essere ripercorse; usa il formato AAAA-MM-GG.
  • Evita i seguenti simboli nei nomi dei file:”/\:*? ” < > & $. Essi hanno significati specifici in alcuni sistemi operativi del computer e, quindi, possono provocare errori di lettura o addirittura la cancellazione del file.
  • Non utilizzare spazi per separare i termini, utilizzare invece caratteri di sottolineatura (_).
  • Prova a nominare le cartelle in modo descrittivo, in modo che sia chiaro cosa contiene e mantieni i nomi brevi (15-20 caratteri max.)
  • Anche cercare di mantenere i nomi dei file brevi e descrittivi (< 25 caratteri)
  • Se non si utilizza un software di controllo automatico delle versioni, includere i numeri di versione alla fine del nome del file (ad esempio v01, v02,..) e cambiarlo ogni volta che il file viene salvato (inoltre, fare riferimento alla sezione della knowledge base sul controllo delle versioni). Ciò è particolarmente importante se ci sono più persone che lavorano insieme sui file, in modo che le modifiche possano essere monitorate.
  • Per la versione finale, utilizzare la parola FINALE invece di un numero di versione. Questo è particolarmente utile e importante se si condividono i file!
  • I nomi dei file devono contenere solo un periodo prima dell’estensione del file, ad esempio project_name_date.doc NO project.name.date.doc O nome_progetto..doc)
  • Se hai già nominato molti dei tuoi file, puoi rinominarli rapidamente utilizzando un’applicazione di ridenominazione dei file come Bulk Rename Utility (Windows), ReNamer (Mac OS X) o PSRenamer (Mac OS X, Windows, Unix, Linux) e Zamzar (converti file online).

L’applicazione web DataWiz ti assiste nell’organizzazione dei dati di ricerca offrendo una struttura predefinita e uno schema di documentazione per il tuo progetto di ricerca.

Ulteriori risorse

  • SQL è un linguaggio di programmazione specializzato nella gestione dei dati nei sistemi di gestione di database relazionali.
  • XML è un linguaggio di markup interoperabile leggibile dall’uomo e dalla macchina ed è ampiamente utilizzato nella gestione dei dati di ricerca grazie alla sua semplicità e usabilità generica.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

lg