datajoukkojen organisointi

yhden hyvin suunnitellun tietojärjestelyn valitseminen voi auttaa sinua pysymään tiedoissasi, jos tietokokonaisuuksista on useita versioita tai tietokokonaisuuksien muutoksia. Tämä pätee erityisesti isommissa joukkueissa. Aluksi tiedon organisoinnin, sinun täytyy määritellä rakenne tutkimusaineiston. Tärkeimmät rakennetyypit on esitetty alla:

mahdolliset tavat järjestää tietoa
mahdolliset tavat järjestää tietoa. V: Ei-hierarkkisten tietojen suorakulmainen organisaatio. B: Tiedot, joilla on kaksi hierarkkista tasoa (aihe ja mittaustilaisuus) ”laajassa” muodossa. C: tiedot, joilla on kaksi hierarkkista tasoa ”pitkässä” muodossa. D: hierarkkisesti jäsennellyn tiedoston malli. E: relaatiotietokannan rakenne.
  • litteät suorakulmaiset tiedostot tai taulukkoaineisto on klassinen ja edelleen usein käytetty tietorakenne, jota voidaan lukea kaikilla tilasto-ja taulukkolaskentaohjelmilla.
    • yleinen tapa jäsentää Suorakulmaisia tiedostoja on laajakuva (taulukko a yllä olevassa kuvassa): sarakkeet edustavat eri muuttujia, kun taas rivit edustavat erilaisia havaintoja (esim.subjekteja). Laajassa muodossa ongelmia kuitenkin syntyy, kun data on hierarkkisesti jäsenneltyä, esimerkiksi toistuvin mittauksin rakennetuissa malleissa (KS.yllä olevan kuvan taulukko B). Jos mittauskertojen määrä vaihtelee havaintojen välillä, monet solut jäävät suunnittelun mukaan tyhjiksi.
    • yksi ratkaisu voi olla tietoaineiston pitkän formaatin käyttö (Katso yllä olevan kuvan taulukko C). Pitkässä muodossa jokainen suora kuvaa yhtä havaintoyksikköä (esim. yksi mittaustilaisuus tietylle henkilölle)ja mittaustilaisuutta kuvaava muuttuja (esim. päivä 1, pre-test jne.). Tämä muoto mahdollistaa hierarkkisen datan esittämisen klassisessa suorakulmaisessa tiedostossa. Pitkämuotoiset tiedostot sisältävät joitakin redundansseja, koska korkeamman kertaluvun havaintoyksiköiden ominaisuudet toistuvat jokaisella rivillä (esim.aika-invariantit muuttujat, kuten kohteen sukupuoli tai syntymävuosi). Koska tilastollisten pakettien funktiot toimivat yleensä vain yhdellä näistä formaateista, muunnokset laaja-ja pitkämuotoisten välillä ovat usein tehtävä ja vastaavia funktioita on olemassa (esim.reshape-funktio ja reshape2-paketti R: ssä).
  • hierarkkisia tiedostoja voidaan käyttää välttämään päällekkäisyyksiä, joita tapahtuu käytettäessä Suorakulmaisia tiedostoja (katso taulukko E yllä olevassa kuvassa). XML-tiedostot täyttävät tämän vaatimuksen ja mahdollistavat tietojen ja metatietojen tallentamisen yhteen tiedostoon. Näistä eduista huolimatta XML-tiedostoja ei kuitenkaan yleisesti käytetä psykologiassa ja tilastolliset ohjelmistot vaativat usein taulukkoaineistoa syötteenä.
  • relaatiotietokannat järjestävät eri hierarkkisten tasojen tiedot erillisiin suorakulmaisiin taulukoihin, kun taas eri taulukot ovat yhteydessä toisiinsa määriteltyjen assosiaatioiden kautta. Yksittäisiä taulukoita voidaan tilastollisesti analysoida tai linkittää muodostamaan uusia taulukoita. Relaatiotietokannat voivat kuvata monimutkaisia assosiaatioita elegantisti, mutta ne tarvitsevat enemmän hallintoa ja tietokantakielten (esim.SQL) tuntemusta.

tutkimusaineiston organisointi

koska ei ole olemassa parhaita käytäntöjä eikä nimeämiskäytäntöjä, jotka nimenomaisesti viittaisivat psykologiseen tutkimusaineistoon, suosittelemme PROJEKTITASOLLA kehitettyä ohjeistusta: teaching Integrity in Empirical Research lähtökohtana kansioiden ja tiedostojen organisoinnille empiirisissä tutkimushankkeissa.

myös Bostonin yliopiston kirjastojen (n.d.) nimeämiskäytäntöjen suunnittelua koskevat yleiset ohjeet voivat olla hyödyllisiä:

  • valitsemaasi tiedostonimeä tulee käyttää johdonmukaisesti kaikissa tiedostoissasi (sisältävät aina samat tiedot, samassa järjestyksessä)

mieti, miten tulevaisuudessa tiedostosi tulisi järjestää, esim.project_instrument_location_date_time_version.

  • sinun tulee aina lisätä päivämäärät tiedostonimiisi, jotta muutokset voidaan palauttaa; käytä muotoa VVVV-KK-PP.
  • vältä seuraavia symboleita tiedostonimissäsi:”/\:*? ” < > & $. Niillä on erityisiä merkityksiä joissakin tietokoneen käyttöjärjestelmissä, ja siten ne voivat johtaa vääriin lukemiin tai jopa tiedoston poistamiseen.
  • älä käytä välilyöntejä erotellaksesi termejä, vaan käytä alaviivoja (_).
  • yritä nimetä kansioita kuvaavasti, jotta on selvää, mitä se sisältää,ja pidä nimet lyhyinä (enintään 15-20 merkkiä.)
  • yritä myös pitää tiedostonimet lyhyinä ja kuvailevina (<25 merkkiä)
  • jos et käytä automaattista versiointiohjelmaa, sisällytä versionumerot tiedostonimen loppuun (esim.v01, v02,..) ja muuttaa sitä joka kerta, kun tiedosto tallennetaan (myös, katso knowledge base osiosta versiointi). Tämä on erityisen tärkeää, jos tiedostojen parissa työskentelee useita ihmisiä, jotta muutoksia voidaan seurata.
  • käytä lopullisessa versiossasi sanaa lopullinen versionumeron sijaan. Tämä on erityisen hyödyllistä ja tärkeää, jos jaat tiedostojasi!
  • tiedostonimet saavat sisältää vain yhden jakson ennen tiedostopäätettä, esim. project_name_date.doc project.name.date.doc tai project_name_date..doc)
  • jos olet jo nimennyt monia tiedostojasi, voit nimetä ne nopeasti uudelleen käyttämällä tiedostojen uudelleennimeämissovellusta, kuten Bulk Rename Utility (Windows), ReNamer (Mac OS X) tai PSRenamer (Mac OS X, Windows, Unix, Linux) ja Zamzar (convert files online).

DataWiz – verkkosovellus auttaa sinua tutkimustiedon järjestämisessä tarjoamalla ennalta määritellyn rakenteen ja dokumentointijärjestelmän tutkimusprojektillesi.

lisäresurssit

  • SQL on ohjelmointikieli, joka on erikoistunut tiedon hallintaan relaatiotietokantojen hallintajärjestelmissä.
  • XML on yhteentoimiva ihmisen ja koneellisesti luettava merkintäkieli, ja sitä käytetään laajasti tutkimustiedon hallinnassa yksinkertaisuutensa ja yleisen käytettävyytensä vuoksi.

Vastaa

Sähköpostiosoitettasi ei julkaista.

lg