organisering af datasæt

valg af et gennemtænkt system af dataorganisation kan hjælpe med at holde styr på dine data, hvis der er flere versioner af datasæt eller ændringer i datasæt. Dette gælder især i større hold. Til at begynde med din dataorganisation skal du definere strukturen i dine forskningsdata. De vigtigste strukturtyper er vist nedenfor:

mulige måder at organisere data
mulige måder at organisere data på. A: rektangulær organisering af ikke-hierarkiske data. B: Data med to hierarkiske niveauer (emne og måling lejlighed) i “bred” format. C: Data med to hierarkiske niveauer i” langt ” format. D: mønster for en hierarkisk struktureret datafil. E: relationel databasestruktur.
  • flade rektangulære filer eller tabeldata er en klassisk og stadig ofte brugt datastruktur, som kan læses af alle statistiske og regnearksprogrammer.
    • en almindelig måde at strukturere rektangulære filer på er det brede format (tabel A i billedet ovenfor): kolonner repræsenterer forskellige variabler, mens linjer repræsenterer forskellige observationer (f.eks. Imidlertid opstår der problemer i bredt format, når data er hierarkisk struktureret, f.eks. i design med gentagne målinger (se tabel B på billedet ovenfor). Hvis antallet af målebegivenheder adskiller sig mellem observationer, vil mange celler blive efterladt tomme ved design.
    • en løsning kan være at bruge det lange format til datasættet (se tabel C i billedet ovenfor). I langt format viser hver linje en observationsenhed (f. eks. en måling lejlighed for en bestemt person) og en variabel karakteriserer måling lejlighed (f.eks dag 1, pre-test etc.). Dette format tillader repræsentation af hierarkiske data i en klassisk rektangulær fil. Filer i langt format vil indeholde nogle afskedigelser, fordi funktioner i observationsenhederne med højere orden gentages i hver linje (f.eks. Da funktioner i statistiske pakker normalt kun fungerer med et af disse formater, er transformationer mellem bredformat og langformat en hyppig opgave, og der findes tilsvarende funktioner (f.eks. omformningsfunktionen og reshape2-pakken i R).
  • hierarkiske filer kan anvendes til at undgå afskedigelser, der opstår, når du bruger rektangulære filer (Se tabel E i billedet ovenfor). Disse filer opfylder dette krav og gør det muligt at gemme data og metadata i en enkelt fil. Men på trods af disse fordele er filer ikke almindeligt anvendt i psykologi, og statistiske programmer kræver ofte tabeldata som input.
  • relationelle databaser organiserer data fra forskellige hierarkiske niveauer i separate rektangulære tabeller, mens de forskellige tabeller er forbundet gennem definerede foreninger. Individuelle tabeller kan statistisk analyseres eller sammenkædes for at danne nye tabeller. Relationsdatabaser kan skildre komplekse foreninger på en elegant måde, men de har brug for mere administration og kendskab til databasesprog (f.eks.

organisering af forskningsdata

da der hverken er bedste praksis eller navngivningskonventioner, der eksplicit henviser til psykologiske forskningsdata, anbefaler vi den vejledning, der er udviklet i Projektniveauet: undervisning integritet i empirisk forskning som udgangspunkt for mappe-og filorganisation i empiriske forskningsprojekter.

desuden kan den generelle vejledning om design af navngivningskonventioner fra Boston University Libraries (nd) være nyttig:

  • den filnavn, du vælger, skal bruges konsekvent i dine filer (Medtag altid de samme oplysninger i samme rækkefølge)

overvej hvordan dine filer fra et fremtidigt synspunkt skal organiseres, f.eks. project_instrument_location_date_time_version.

  • du skal altid medtage datoer i dine filnavne, så ændringer kan trækkes tilbage; Brug format YYYY-MM-DD.
  • undgå følgende symboler i dine filnavne:”/\:*? ” < > & $. De har specifikke betydninger i nogle computer operativsystemer og dermed, kan resultere i fejllæsninger eller endda sletning af filen.
  • brug ikke mellemrum til at adskille udtryk, brug i stedet understregninger (_).
  • prøv at navngive mapper på en beskrivende måde, så det er klart, hvad det indeholder, og hold navnene korte (maks.15-20 tegn.)
  • prøv også at holde filnavne korte og beskrivende (<25 tegn)
  • hvis du ikke bruger et automatisk versionsprogram, skal du medtage versionsnumre i slutningen af filnavnet (f.eks..) og ændre det hver gang Filen gemmes (se også vidensbasens afsnit om versionsstyring). Dette er især vigtigt, hvis der er flere personer, der arbejder sammen om filerne, så ændringer kan spores.
  • til din endelige version skal du bruge ordet FINAL i stedet for et versionsnummer. Dette er især nyttigt og vigtigt, hvis du deler dine filer!
  • filnavne bør kun indeholde en periode før filtypen, f.eks. project_name_date.doc ikke project.name.date.doc eller project_name_date..doc)
  • hvis du allerede har navngivet mange af dine filer, kan du omdøbe dem hurtigt ved hjælp af et filomdøbningsprogram som f.eks.

programmet hjælper dig med at organisere dine forskningsdata ved at tilbyde en foruddefineret struktur og dokumentationsordning til dit forskningsprojekt.

yderligere ressourcer

  • et programmeringssprog, der er specialiseret i styring af data i relationsdatabasestyringssystemer.
  • er et interoperabelt menneske – og maskinlæsbart markup-sprog og bruges i vid udstrækning i forskningsdatastyring på grund af dets enkelhed og generiske anvendelighed.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

lg