organisation av dataset

att välja ett väl utformat system för dataorganisation kan hjälpa till att hålla koll på dina data om det finns flera versioner av dataset eller ändringar i dataset. Detta gäller särskilt i större lag. Till att börja med din dataorganisation måste du definiera strukturen för dina forskningsdata. De viktigaste strukturtyperna visas nedan:

möjliga sätt att organisera data
möjliga sätt att organisera data. A: rektangulär organisation av icke hierarkiska data. B: Data med två hierarkiska nivåer (ämne och mätningstillfälle) i ”brett” format. C: Data med två hierarkiska nivåer i” långt ” format. D: mönster för en hierarkiskt strukturerad datafil. E: relationell databasstruktur.
  • platta rektangulära filer eller tabelldata är en klassisk och fortfarande ofta används datastruktur som kan läsas av alla statistiska och kalkylprogram.
    • ett vanligt sätt att strukturera rektangulära filer är det breda formatet (tabell a i bilden ovan): kolumner representerar olika variabler, medan rader representerar olika observationer (t.ex. ämnen). Problem i bredformat uppstår emellertid när data är hierarkiskt strukturerade, t.ex. i mönster med upprepade mått (se Tabell B i bilden ovan). Om antalet mättillfällen skiljer sig mellan observationer kommer många celler att lämnas tomma genom design.
    • en lösning kan vara att använda det långa formatet för datamängden (se tabell C i bilden ovan). I långformat visar varje rad en observationsenhet (t. ex. ett mättillfälle för en specifik person) och en variabel kännetecknar mättillfället (t.ex. dag 1, förtest etc.). Detta format tillåter representation av hierarkiska data i en klassisk rektangulär fil. Filer i långt format kommer att innehålla vissa uppsägningar, eftersom funktioner i observationsenheterna med högre ordning upprepas i varje rad (t.ex. tidsinvarianta variabler som ämnets kön eller födelseår). Eftersom funktioner i statistiska paket vanligtvis bara fungerar med ett av dessa format, är transformationer mellan bredformat och långformat en frekvent uppgift och motsvarande funktioner finns (t.ex. reshape-funktionen och reshape2-paketet i R).
  • hierarkiska filer kan användas för att undvika uppsägningar, som uppstår, när du använder rektangulära filer (Se tabell E i bilden ovan). XML-filer uppfyller detta krav och gör det möjligt att spara data och metadata i en enda fil. Trots dessa fördelar XML-filer används inte ofta i psykologi och statistisk programvara kräver ofta tabelldata som indata.
  • relationsdatabaser organiserar data med olika hierarkiska nivåer i separata rektangulära tabeller medan de olika tabellerna är anslutna genom definierade föreningar. Enskilda tabeller kan statistiskt analyseras eller länkas för att bilda nya tabeller. Relationsdatabaser kan skildra komplexa associationer på ett elegant sätt men de behöver mer administration och kunskap om databasspråk (t.ex.SQL).

organisation av forskningsdata

eftersom det varken finns bästa praxis eller namnkonventioner som uttryckligen hänvisar till psykologiska forskningsdata rekommenderar vi den vägledning som utvecklats i projektnivå: Teaching Integrity in Empirical Research som utgångspunkt för mapp-och filorganisation i empiriska forskningsprojekt.

dessutom kan den allmänna vägledningen om utformning av namngivningskonventioner för Boston University Libraries (nd) vara till hjälp:

  • filnamnet du väljer ska användas konsekvent i dina filer (alltid innehålla samma information, i samma ordning)

Tänk på hur dina filer från en framtida synvinkel ska organiseras, t.ex. project_instrument_location_date_time_version.

  • du bör alltid inkludera datum i dina filnamn så att ändringar kan återställas.använd formatet ÅÅÅÅ-MM-DD.
  • undvik följande symboler i dina filnamn:”/\:*? ” < > & $. De har specifika betydelser i vissa datoroperativsystem och kan därmed leda till felläsningar eller till och med radering av filen.
  • använd inte mellanslag för att separera termer, använd istället understreck (_).
  • försök att namnge mappar på ett beskrivande sätt, så att det är klart vad den innehåller, och hålla namnen korta (15-20 tecken max.)
  • också försöka hålla filnamn kort och beskrivande (<25 tecken)
  • om du inte använder en automatisk versionshantering programvara, inkludera versionsnummer i slutet av filnamnet (t.ex. v01, v02,..) och ändra den varje gång filen sparas (se även kunskapsbasens avsnitt om versionshantering). Detta är särskilt viktigt om det finns flera personer som arbetar tillsammans på filerna, så att ändringar kan spåras.
  • för din slutliga version, använd ordet FINAL istället för ett versionsnummer. Detta är särskilt användbart och viktigt om du delar dina filer!
  • filnamn bör endast innehålla en period före filtillägget, t.ex. project_name_date.doc inte project.name.date.doc eller project_name_date..doc)
  • om du redan namngav många av dina filer kan du byta namn på dem snabbt genom att använda ett filnamnsprogram som Bulk Rename Utility (Windows), ReNamer (Mac OS X) eller PSRenamer (Mac OS X, Windows, Unix, Linux) och Zamzar (konvertera filer online).

DataWiz webbapplikation hjälper dig att organisera dina forskningsdata genom att erbjuda en fördefinierad struktur och dokumentationsschema för ditt forskningsprojekt.

ytterligare resurser

  • SQL är ett programmeringsspråk som är specialiserat på att hantera data i relationsdatabashanteringssystem.
  • XML är ett interoperabelt mänskligt och maskinläsbart markeringsspråk och används ofta i forskningsdatahantering på grund av dess enkelhet och generiska användbarhet.

Lämna ett svar

Din e-postadress kommer inte publiceras.

lg