organizarea seturilor de date

alegerea unui sistem bine conceput de organizare a datelor vă poate ajuta să urmăriți datele dvs. dacă există mai multe versiuni ale seturilor de date sau modificări ale seturilor de date. Acest lucru este valabil mai ales în echipele mai mari. Pentru a începe cu organizația dvs. de date, trebuie să definiți structura datelor dvs. de cercetare. Cele mai importante tipuri de structuri sunt prezentate mai jos:

modalități posibile de organizare a datelor
modalități posibile de organizare a datelor. R: organizarea dreptunghiulară a datelor non-ierarhice. B: Date cu două niveluri ierarhice (subiect și ocazie de măsurare) în format „larg”. C: Date cu două niveluri ierarhice în format” lung”. D: model pentru un fișier de date structurat ierarhic. E: structura bazei de date relaționale.
  • fișierele dreptunghiulare plate sau datele tabulare sunt o structură de date clasică și încă adesea utilizată, care poate fi citită de toate programele statistice și de calcul tabelar.
    • o modalitate obișnuită de a structura fișierele dreptunghiulare este formatul larg (tabelul A din imaginea de mai sus): coloanele reprezintă variabile diferite, în timp ce liniile reprezintă observații diferite (de exemplu, subiecți). Cu toate acestea, problemele în format larg apar atunci când datele sunt structurate ierarhic, de exemplu în modele cu măsuri repetate (a se vedea tabelul B din imaginea de mai sus). Dacă numărul de ocazii de măsurare diferă între observații, multe celule vor fi lăsate goale prin proiectare.
    • o soluție poate fi utilizarea formatului lung pentru setul de date (Vezi tabelul C din imaginea de mai sus). În format lung, fiecare linie descrie o unitate observațională (de ex. o ocazie de măsurare pentru o anumită persoană) și o variabilă caracterizează ocazia de măsurare (de exemplu, Ziua 1, pre-test etc.). Acest format permite reprezentarea datelor ierarhice într-un fișier dreptunghiular clasic. Fișierele în format lung vor conține unele redundanțe, deoarece caracteristicile unităților de observare de ordin superior se repetă în fiecare linie (de exemplu, variabile invariante în timp, cum ar fi sexul subiectului sau anul nașterii). Deoarece funcțiile din pachetele statistice funcționează de obicei doar cu unul dintre aceste formate, transformările între format larg și format lung sunt o sarcină frecventă și există funcții corespunzătoare (de exemplu, funcția de remodelare și pachetul reshape2 în R).
  • fișierele ierarhice pot fi utilizate pentru a evita redundanțele, care apar, atunci când se utilizează fișiere dreptunghiulare (a se vedea tabelul E din imaginea de mai sus). Fișierele XML îndeplinesc această cerință și permit salvarea datelor și metadatelor într-un singur fișier. Cu toate acestea, în ciuda acestor avantaje, fișierele XML nu sunt utilizate în mod obișnuit în psihologie, iar software-ul statistic necesită adesea date tabulare ca intrare.
  • bazele de date relaționale organizează date de diferite niveluri ierarhice în tabele dreptunghiulare separate, în timp ce diferitele tabele sunt conectate prin asociații definite. Tabelele individuale pot fi analizate statistic sau legate pentru a forma tabele noi. Bazele de date relaționale pot descrie asociații complexe într-un mod elegant, dar au nevoie de mai multă administrare și cunoaștere a limbajelor bazelor de date (de exemplu SQL).

organizarea datelor de cercetare

deoarece nu există nici cele mai bune practici, nici convenții de denumire care se referă în mod explicit la datele de cercetare psihologică, recomandăm îndrumarea dezvoltată în nivelul proiectului: predarea integrității în cercetarea empirică ca punct de plecare pentru organizarea dosarelor și fișierelor în proiectele de cercetare empirică.

mai mult, Ghidul general privind proiectarea convențiilor de denumire ale bibliotecilor Universității din Boston (n. d.) poate fi util:

  • denumirea fișierului pe care o alegeți trebuie utilizată în mod consecvent în toate fișierele dvs. (includeți întotdeauna aceleași informații, în aceeași ordine)

luați în considerare modul în care, dintr-un punct de vedere viitor, fișierele dvs. ar trebui să fie organizate, de ex.project_instrument_location_date_time_version.

  • ar trebui să includeți întotdeauna date în numele fișierelor dvs., astfel încât modificările să poată fi retrase; utilizați formatul AAAA-LL-ZZ.
  • evitați următoarele simboluri în numele fișierelor: „/ \ : * ? ” < > & $. Acestea au semnificații specifice în unele sisteme de operare ale computerului și, prin urmare, pot duce la interpretări greșite sau chiar la ștergerea fișierului.
  • nu utilizați spații pentru a separa termenii, în schimb utilizați subliniere (_).
  • încercați să denumiți folderele într-un mod descriptiv, astfel încât să fie clar ce conține și să păstrați numele scurte (maxim 15-20 de caractere.)
  • de asemenea, încercați să păstrați numele fișierelor scurte și descriptive (<25 caractere)
  • dacă nu utilizați un software de versionare automată, includeți numerele de versiune la sfârșitul numelui fișierului (de exemplu, v01, v02,..) și schimbați-l de fiecare dată când fișierul este salvat (de asemenea, consultați secțiunea bazei de cunoștințe despre versiuni). Acest lucru este important mai ales dacă există mai multe persoane care lucrează împreună la fișiere, astfel încât modificările să poată fi urmărite.
  • pentru versiunea finală, utilizați cuvântul FINAL în locul unui număr de versiune. Acest lucru este deosebit de util și important dacă partajați fișierele!
  • numele fișierelor trebuie să conțină doar o perioadă înainte de extensia fișierului, de ex.project_name_date.doc nu project.name.date.doc sau project_name_date..doc)
  • dacă ați numit deja multe dintre fișierele dvs., le puteți redenumi rapid utilizând o aplicație de redenumire a fișierelor, cum ar fi utilitarul de redenumire în bloc (Windows), ReNamer (Mac OS X) sau PSRenamer (Mac OS X, Windows, Unix, Linux) și Zamzar (conversia fișierelor online).

aplicația Web DataWiz vă ajută în organizarea datelor dvs. de cercetare oferind o structură predefinită și o schemă de documentare pentru proiectul dvs. de cercetare.

resurse suplimentare

  • SQL este un limbaj de programare specializat în gestionarea datelor în sistemele de gestionare a bazelor de date relaționale.
  • XML este un limbaj de marcare interoperabil care poate fi citit de om și de mașină și este utilizat pe scară largă în gestionarea datelor de cercetare datorită simplității și utilizabilității sale generice.

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg