adatkészletek szervezése

egy jól megtervezett adatszervezési rendszer kiválasztása segíthet az adatok nyomon követésében, ha az adatkészleteknek több verziója van, vagy az adatkészletek változásai vannak. Ez különösen a nagyobb csapatoknál érvényes. Az adatszervezéssel kezdve meg kell határoznia a kutatási adatok szerkezetét. A legfontosabb szerkezeti típusokat az alábbiakban mutatjuk be:

az adatok rendezésének lehetséges módjai
az adatok rendezésének lehetséges módjai. V: nem hierarchikus adatok téglalap alakú szervezése. B: Két hierarchikus szintű adatok (tárgy és mérési alkalom)” széles ” formátumban. C: két hierarchikus szintű adat “hosszú” formátumban. D: hierarchikusan strukturált adatfájl mintája. E: relációs adatbázis struktúra.
  • a lapos négyszögletes fájlok vagy táblázatos adatok egy klasszikus és még mindig gyakran használt adatstruktúra, amelyet minden statisztikai és táblázatkezelő program elolvashat.
    • a téglalap alakú fájlok felépítésének általános módja a széles formátum (a táblázat a fenti képen): az oszlopok különböző változókat, míg a vonalak különböző megfigyeléseket (pl. A széles formátumú problémák azonban akkor merülnek fel, ha az adatokat hierarchikusan strukturálják, például ismételt mérésekkel rendelkező tervekben (lásd a fenti képen a B. táblázatot). Ha a mérési alkalmak száma eltér a megfigyelések között, sok cella terv szerint üresen marad.
    • az egyik megoldás az adatkészlet hosszú formátumának használata lehet (lásd a fenti képen a C táblázatot). Hosszú formátumban minden sor egy megfigyelési egységet ábrázol (pl. egy mérési alkalom egy adott személy számára) és egy változó jellemzi a mérési alkalmat (pl. 1.nap, elővizsgálat stb.). Ez a formátum lehetővé teszi a hierarchikus adatok ábrázolását egy klasszikus téglalap alakú fájlban. A hosszú formátumú fájlok tartalmaznak néhány redundanciát, mert a magasabb rendű megfigyelési egységek jellemzői minden sorban megismétlődnek (pl. időinvariáns változók, például az alany neme vagy születési éve). Mivel a statisztikai csomagokon belüli függvények általában csak ezen formátumok egyikével működnek, gyakori feladat a széles és a hosszú formátum közötti transzformáció, és léteznek megfelelő funkciók (például a reshape függvény és a reshape2 csomag R-ben).
  • hierarchikus fájlok alkalmazhatók a redundanciák elkerülése érdekében, amelyek téglalap alakú fájlok használatakor fordulnak elő (lásd a fenti képen az E táblázatot). Az XML fájlok teljesítik ezt a követelményt, és lehetővé teszik az adatok és metaadatok egyetlen fájlban történő mentését. Ezen előnyök ellenére azonban az XML-fájlokat nem gyakran használják a pszichológiában, és a statisztikai szoftverek gyakran táblázatos adatokat igényelnek bemenetként.
  • a relációs adatbázisok különböző hierarchikus szintek adatait külön téglalap alakú táblákba szervezik, míg a különböző táblák meghatározott asszociációkon keresztül kapcsolódnak egymáshoz. Az egyes táblázatok statisztikailag elemezhetők vagy összekapcsolhatók új táblázatok kialakításával. A relációs adatbázisok elegánsan ábrázolhatják a komplex asszociációkat, de több adminisztrációra és az adatbázis nyelvek (pl. SQL) ismeretére van szükségük.

kutatási adatok szervezése

mivel nincsenek sem a legjobb gyakorlatok, sem az elnevezési konvenciók, amelyek kifejezetten utalnak a pszichológiai kutatási adatokra, javasoljuk a Project TIER: teaching Integrity in Empirical Research útmutatását az empirikus kutatási projektek mappák és fájlok szervezésének kiindulópontjaként.

ezenkívül hasznos lehet A Boston University Libraries (ND) elnevezési konvencióinak megtervezésére vonatkozó általános útmutató:

  • a választott fájlnevet következetesen kell használni a fájlokban (mindig ugyanazokat az információkat kell tartalmaznia, ugyanabban a sorrendben)

fontolja meg, hogy a jövőben hogyan kell rendezni a fájlokat, például project_instrument_location_date_time_version.

  • mindig adjon meg dátumokat a fájlnevekben, hogy a változások visszakereshetők legyenek; használja az ÉÉÉÉ-HH-NN formátumot.
  • kerülje a következő szimbólumokat a fájlnevekben: “/ \ : * ? ” < > & $. Bizonyos számítógépes operációs rendszerekben sajátos jelentéssel bírnak, így a fájl téves olvasását vagy akár törlését eredményezhetik.
  • ne használjon szóközöket a kifejezések elválasztásához, hanem használjon aláhúzást (_).
  • próbálja meg a mappákat leíró módon megnevezni, hogy egyértelmű legyen, mit tartalmaz, és tartsa rövidnek a neveket (max. 15-20 karakter.)
  • próbálja meg a fájlneveket rövid és leíró jellegűnek is tartani (<25 karakter)
  • ha nem használ automatikus verziószámozó szoftvert, akkor a fájlnév végén szerepeljen Verziószám (pl. v01, v02,..), majd módosítsa minden alkalommal, amikor a fájl mentésre kerül (Lásd még a Tudásbázis verziószámozásról szóló részét). Ez különösen akkor fontos, ha több ember dolgozik együtt a fájlokon, hogy a változások nyomon követhetők legyenek.
  • a végleges verzióhoz használja a végleges szót a verziószám helyett. Ez különösen hasznos és fontos, ha megosztja a fájlokat!
  • a Fájlneveknek csak egy periódust kell tartalmazniuk A fájlkiterjesztés előtt, pl. project_name_date.doc nem project.name.date.doc vagy project_name_date..doc)
  • ha már sok fájlt elnevezett, gyorsan átnevezheti azokat egy fájl átnevező alkalmazás segítségével, például a tömeges átnevezés segédprogram (Windows), a ReNamer (Mac OS X) vagy a PSRenamer (Mac OS X, Windows, Unix, Linux) és a Zamzar (fájlok konvertálása online) használatával.

a DataWiz webes alkalmazás segíti Önt a kutatási adatok szervezésében azáltal, hogy előre meghatározott struktúrát és dokumentációs sémát kínál a kutatási projekthez.

további források

  • az SQL egy olyan programozási nyelv, amely a relációs adatbázis-kezelő rendszerek adatainak kezelésére szakosodott.
  • az XML egy interoperábilis, ember és gép által olvasható jelölőnyelv, amelyet egyszerűsége és általános használhatósága miatt széles körben használnak a kutatási adatkezelésben.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.

lg