organisatie van Datasets

het kiezen van een goed doordacht systeem van data organization kan helpen bij het bijhouden van uw gegevens als er meerdere versies van datasets of wijzigingen in datasets zijn. Dit geldt vooral voor grotere teams. Om te beginnen met uw dataorganisatie moet u de structuur van uw onderzoeksdata definiëren. De belangrijkste structuurtypes worden hieronder getoond:

mogelijke manieren om gegevens te organiseren
mogelijke manieren om gegevens te organiseren. A: rechthoekige organisatie van niet-hiërarchische gegevens. B: Gegevens met twee hiërarchische niveaus (onderwerp en meetmogelijkheid) in” breed ” formaat. C: gegevens met twee hiërarchische niveaus in “lang” formaat. D: patroon voor een hiërarchisch gestructureerd gegevensbestand. E: relationele database structuur.
  • platte rechthoekige bestanden of tabelgegevens is een klassieke en nog steeds vaak gebruikte gegevensstructuur die kan worden gelezen door alle statistische en spreadsheet programma ‘ s.
    • een veelgebruikte manier om rechthoekige bestanden te structureren is het grootformaat (tabel A in de afbeelding hierboven): kolommen vertegenwoordigen verschillende variabelen, terwijl lijnen verschillende observaties (bijvoorbeeld proefpersonen) vertegenwoordigen. Problemen in grootformaat doen zich echter voor wanneer gegevens hiërarchisch gestructureerd zijn, bijvoorbeeld bij ontwerpen met herhaalde metingen (zie Tabel B in de afbeelding hierboven). Als het aantal meetmomenten verschilt tussen waarnemingen, worden veel cellen door het ontwerp leeg gelaten.
    • een oplossing kan zijn om het lange formaat voor de gegevensverzameling te gebruiken (zie tabel C in de afbeelding hierboven). In lang formaat toont elke regel één observationele eenheid (bijv. Eén meetmoment voor een specifieke persoon) en een variabele karakteriseert de meetmoment (bv. dag 1, pre-test, enz.). Dit formaat maakt de representatie van hiërarchische gegevens in een klassiek rechthoekig bestand mogelijk. Bestanden in lang formaat zullen enkele redundanties bevatten, omdat kenmerken van de hogere ordewaarnemingseenheden in elke regel worden herhaald (bijvoorbeeld tijd-invariante variabelen zoals het geslacht van de persoon of het geboortejaar). Aangezien functies binnen statistische pakketten meestal alleen met één van deze formaten werken, zijn transformaties tussen grootformaat en langformaat een frequente taak en bestaan overeenkomstige functies (bijvoorbeeld de reshape-functie en het reshape2-pakket in R).
  • hiërarchische bestanden kunnen worden gebruikt om redundanties te voorkomen, die optreden, bij het gebruik van rechthoekige bestanden (zie tabel E in de afbeelding hierboven). XML-bestanden voldoen aan deze eis en maken het mogelijk om gegevens en metadata op te slaan in één enkel bestand. Echter, ondanks deze voordelen XML-bestanden worden niet vaak gebruikt in de psychologie en statistische software vereist vaak tabelgegevens als input.
  • relationele databases organiseren gegevens van verschillende hiërarchische niveaus in afzonderlijke rechthoekige tabellen, terwijl de verschillende tabellen met elkaar verbonden zijn via gedefinieerde associaties. Individuele tabellen kunnen statistisch worden geanalyseerd of gekoppeld aan nieuwe tabellen te vormen. Relationele databases kunnen complexe associaties op een elegante manier weergeven, maar ze hebben meer administratie en kennis van databasetalen nodig (bijv. SQL).

organisatie van onderzoeksgegevens

aangezien er geen best practices of naamgevingsconventies zijn die expliciet verwijzen naar psychologische onderzoeksgegevens, bevelen wij de leidraad aan die is ontwikkeld in het project: Onderwijsintegriteit in empirisch onderzoek als uitgangspunt voor de organisatie van mappen en bestanden in empirische onderzoeksprojecten.

bovendien kunnen de algemene richtsnoeren voor het ontwerpen van naamgevingsconventies van Boston universiteitsbibliotheken (n.d.) nuttig zijn.:

  • de bestandsnaamgeving die u kiest moet consistent gebruikt worden in uw bestanden (altijd dezelfde informatie, in dezelfde volgorde))

overweeg hoe, vanuit een toekomstig oogpunt, uw bestanden moeten worden georganiseerd, bijvoorbeeld project_instrument_location_date_time_version.

  • u dient altijd datums in uw bestandsnamen op te nemen zodat wijzigingen kunnen worden herleid; gebruik het formaat JJJJ-MM-DD.
  • Vermijd de volgende symbolen in uw bestandsnamen:”/\:* ? ” < > & $. Ze hebben specifieke betekenissen in sommige computerbesturingssystemen en kunnen dus leiden tot fouten of zelfs verwijdering van het bestand.
  • gebruik geen spaties om termen te scheiden, gebruik in plaats daarvan underscores (_).
  • probeer mappen een beschrijvende naam te geven, zodat duidelijk is wat ze bevatten, en houd de namen kort (15-20 tekens max.)
  • probeer ook bestandsnamen kort en beschrijvend te houden (<25 tekens)
  • als u geen automatische versiesoftware gebruikt, voeg versienummers toe aan het einde van de bestandsnaam (bijv. v01, v02,..) en verander het elke keer dat het bestand wordt opgeslagen (zie ook de sectie van de knowledge base over versiebeheer). Dit is vooral belangrijk als er meerdere mensen samenwerken aan de bestanden, zodat wijzigingen kunnen worden gevolgd.
  • gebruik voor uw definitieve versie het woord definitief in plaats van een versienummer. Dit is vooral handig en belangrijk als u uw bestanden te delen!
  • bestandsnamen mogen slechts één periode voor de bestandsextensie bevatten, bijvoorbeeld project_name_date.doc niet project.name.date.doc of project_name_date..doc)
  • als u al een naam hebt gegeven aan veel van uw bestanden, kunt u deze snel hernoemen met behulp van een toepassing voor het hernoemen van bestanden, zoals Bulk Rename Utility (Windows), ReNamer (Mac OS X) of PSRenamer (Mac OS X, Windows, Unix, Linux), en Zamzar (bestanden online converteren).

de DataWiz webapplicatie helpt u bij het organiseren van uw onderzoeksdata door een vooraf gedefinieerde structuur en documentatieschema voor uw onderzoeksproject aan te bieden.

verdere bronnen

  • SQL is een programmeertaal die gespecialiseerd is in het beheren van gegevens in relationele databasebeheersystemen.
  • XML is een interoperabele, mens – en machineleesbare opmaaktaal en wordt veel gebruikt in het beheer van onderzoeksgegevens vanwege de eenvoud en de algemene bruikbaarheid.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

lg