adatkészletek szervezése
egy jól megtervezett adatszervezési rendszer kiválasztása segíthet az adatok nyomon követésében, ha az adatkészleteknek több verziója van, vagy az adatkészletek változásai vannak. Ez különösen a nagyobb csapatoknál érvényes. Az adatszervezéssel kezdve meg kell határoznia a kutatási adatok szerkezetét. A legfontosabb szerkezeti típusokat az alábbiakban mutatjuk be:

- a lapos négyszögletes fájlok vagy táblázatos adatok egy klasszikus és még mindig gyakran használt adatstruktúra, amelyet minden statisztikai és táblázatkezelő program elolvashat.
- a téglalap alakú fájlok felépítésének általános módja a széles formátum (a táblázat a fenti képen): az oszlopok különböző változókat, míg a vonalak különböző megfigyeléseket (pl. A széles formátumú problémák azonban akkor merülnek fel, ha az adatokat hierarchikusan strukturálják, például ismételt mérésekkel rendelkező tervekben (lásd a fenti képen a B. táblázatot). Ha a mérési alkalmak száma eltér a megfigyelések között, sok cella terv szerint üresen marad.
- az egyik megoldás az adatkészlet hosszú formátumának használata lehet (lásd a fenti képen a C táblázatot). Hosszú formátumban minden sor egy megfigyelési egységet ábrázol (pl. egy mérési alkalom egy adott személy számára) és egy változó jellemzi a mérési alkalmat (pl. 1.nap, elővizsgálat stb.). Ez a formátum lehetővé teszi a hierarchikus adatok ábrázolását egy klasszikus téglalap alakú fájlban. A hosszú formátumú fájlok tartalmaznak néhány redundanciát, mert a magasabb rendű megfigyelési egységek jellemzői minden sorban megismétlődnek (pl. időinvariáns változók, például az alany neme vagy születési éve). Mivel a statisztikai csomagokon belüli függvények általában csak ezen formátumok egyikével működnek, gyakori feladat a széles és a hosszú formátum közötti transzformáció, és léteznek megfelelő funkciók (például a reshape függvény és a reshape2 csomag R-ben).
- hierarchikus fájlok alkalmazhatók a redundanciák elkerülése érdekében, amelyek téglalap alakú fájlok használatakor fordulnak elő (lásd a fenti képen az E táblázatot). Az XML fájlok teljesítik ezt a követelményt, és lehetővé teszik az adatok és metaadatok egyetlen fájlban történő mentését. Ezen előnyök ellenére azonban az XML-fájlokat nem gyakran használják a pszichológiában, és a statisztikai szoftverek gyakran táblázatos adatokat igényelnek bemenetként.
- a relációs adatbázisok különböző hierarchikus szintek adatait külön téglalap alakú táblákba szervezik, míg a különböző táblák meghatározott asszociációkon keresztül kapcsolódnak egymáshoz. Az egyes táblázatok statisztikailag elemezhetők vagy összekapcsolhatók új táblázatok kialakításával. A relációs adatbázisok elegánsan ábrázolhatják a komplex asszociációkat, de több adminisztrációra és az adatbázis nyelvek (pl. SQL) ismeretére van szükségük.
kutatási adatok szervezése
mivel nincsenek sem a legjobb gyakorlatok, sem az elnevezési konvenciók, amelyek kifejezetten utalnak a pszichológiai kutatási adatokra, javasoljuk a Project TIER: teaching Integrity in Empirical Research útmutatását az empirikus kutatási projektek mappák és fájlok szervezésének kiindulópontjaként.
ezenkívül hasznos lehet A Boston University Libraries (ND) elnevezési konvencióinak megtervezésére vonatkozó általános útmutató:
- a választott fájlnevet következetesen kell használni a fájlokban (mindig ugyanazokat az információkat kell tartalmaznia, ugyanabban a sorrendben)
fontolja meg, hogy a jövőben hogyan kell rendezni a fájlokat, például project_instrument_location_date_time_version.
- mindig adjon meg dátumokat a fájlnevekben, hogy a változások visszakereshetők legyenek; használja az ÉÉÉÉ-HH-NN formátumot.
- kerülje a következő szimbólumokat a fájlnevekben: “/ \ : * ? ” < > & $. Bizonyos számítógépes operációs rendszerekben sajátos jelentéssel bírnak, így a fájl téves olvasását vagy akár törlését eredményezhetik.
- ne használjon szóközöket a kifejezések elválasztásához, hanem használjon aláhúzást (_).
- próbálja meg a mappákat leíró módon megnevezni, hogy egyértelmű legyen, mit tartalmaz, és tartsa rövidnek a neveket (max. 15-20 karakter.)
- próbálja meg a fájlneveket rövid és leíró jellegűnek is tartani (<25 karakter)
- ha nem használ automatikus verziószámozó szoftvert, akkor a fájlnév végén szerepeljen Verziószám (pl. v01, v02,..), majd módosítsa minden alkalommal, amikor a fájl mentésre kerül (Lásd még a Tudásbázis verziószámozásról szóló részét). Ez különösen akkor fontos, ha több ember dolgozik együtt a fájlokon, hogy a változások nyomon követhetők legyenek.
- a végleges verzióhoz használja a végleges szót a verziószám helyett. Ez különösen hasznos és fontos, ha megosztja a fájlokat!
- a Fájlneveknek csak egy periódust kell tartalmazniuk A fájlkiterjesztés előtt, pl. project_name_date.doc nem project.name.date.doc vagy project_name_date..doc)
- ha már sok fájlt elnevezett, gyorsan átnevezheti azokat egy fájl átnevező alkalmazás segítségével, például a tömeges átnevezés segédprogram (Windows), a ReNamer (Mac OS X) vagy a PSRenamer (Mac OS X, Windows, Unix, Linux) és a Zamzar (fájlok konvertálása online) használatával.
a DataWiz webes alkalmazás segíti Önt a kutatási adatok szervezésében azáltal, hogy előre meghatározott struktúrát és dokumentációs sémát kínál a kutatási projekthez.
további források
- az SQL egy olyan programozási nyelv, amely a relációs adatbázis-kezelő rendszerek adatainak kezelésére szakosodott.
- az XML egy interoperábilis, ember és gép által olvasható jelölőnyelv, amelyet egyszerűsége és általános használhatósága miatt széles körben használnak a kutatási adatkezelésben.