Organizace datových souborů

Výběr jedné dobře koncipovaný systém organizace dat může pomoci udržet na trati s vaše data, pokud existuje více verzí sady dat nebo změny v datových sad. To platí zejména ve větších týmech. Chcete-li začít s organizací dat, musíte definovat strukturu vašich výzkumných dat. Nejdůležitější typy struktur jsou uvedeny níže:

možné způsoby uspořádání dat
možné způsoby uspořádání dat. A: obdélníková organizace nehierarchických dat. B: Data se dvěma hierarchickými úrovněmi (předmět a příležitost měření) v „širokém“ formátu. C: Data se dvěma hierarchickými úrovněmi v“ dlouhém “ formátu. D: vzor pro hierarchicky strukturovaný datový soubor. E: struktura relační datové základny.
  • ploché obdélníkové soubory nebo tabulková data jsou klasická a stále často používaná datová struktura, kterou lze číst všemi statistickými a tabulkovými programy.
    • běžným způsobem strukturování obdélníkových souborů je široký formát (tabulka a na obrázku výše): sloupce představují různé proměnné, zatímco řádky představují různá pozorování (např. Problémy v širokém formátu však vznikají, když jsou data hierarchicky strukturována, např. v návrzích s opakovanými opatřeními (viz tabulka B na obrázku výše). Pokud se počet případů měření liší mezi pozorováními, mnoho buněk zůstane podle návrhu prázdné.
    • jedním z řešení může být použití dlouhého formátu pro datovou sadu (viz tabulka C na obrázku výše). V dlouhém formátu zobrazuje každý řádek jednu pozorovací jednotku (např. jedna příležitost měření pro konkrétní osobu) a proměnná charakterizuje příležitost měření (např. Den 1, předběžný test atd.). Tento formát umožňuje reprezentaci hierarchických dat v klasickém obdélníkovém souboru. Soubory v dlouhém formátu bude obsahovat nějaké propouštění, protože funkce vyšších řádů pozorování jednotky se opakují v každém řádku (např. časově invariantních proměnných, jako je předmět, pohlaví nebo rok narození). Jelikož funkce ve statistických balíčcích obvykle pracují pouze s jedním z těchto formátů, častým úkolem jsou transformace mezi širokoúhlým a dlouhým formátem a existují odpovídající funkce (např. funkce reshape a balíček reshape2 v R).
  • hierarchické soubory mohou být použity, aby se zabránilo propouštění, ke kterým dochází při použití obdélníkových souborů (viz tabulka E na obrázku výše). Soubory XML splňují tento požadavek a umožňují ukládat data a metadata do jednoho souboru. Nicméně, i přes tyto výhody XML soubory nejsou běžně používány v psychologii a statistický software často vyžaduje tabulkové údaje jako vstup.
  • relační datové základny organizují data různých hierarchických úrovní v samostatných obdélníkových tabulkách, zatímco různé tabulky jsou spojeny prostřednictvím definovaných asociací. Jednotlivé tabulky lze statisticky analyzovat nebo propojit a vytvořit tak nové tabulky. Relační databáze mohou elegantně zobrazovat komplexní asociace, ale potřebují více správy a znalostí databázových jazyků (např. SQL).

Organizace Výzkumu Data

Jak tam nejsou ani osvědčené postupy, ani konvence, které výslovně odkazují na psychologický výzkum dat, doporučujeme pokyny vypracované v rámci Projektu TIER: Výuka Integrity v Empirický Výzkum jako výchozí bod pro složku a soubor, organizace v empirických výzkumných projektů.

kromě toho mohou být užitečné obecné pokyny pro navrhování konvencí pojmenování knihoven Bostonské univerzity (ND) :

  • pojmenování souboru si vyberete by měl být důsledně používáno v celé své souborů (vždy obsahovat stejné informace, ve stejném pořadí)

Zvažte, jak z budoucího hlediska, vaše soubory by měly být organizovány, např. project_instrument_location_date_time_version.

  • vždy byste měli do názvů souborů zahrnout data, aby bylo možné změny stáhnout; použijte formát RRRR-MM-DD.
  • Vyhněte se následujícím symbolům v názvech souborů:“/ \:* ? “ < > & $. V některých počítačových operačních systémech mají specifické významy, a proto mohou mít za následek nesprávné čtení nebo dokonce vymazání souboru.
  • nepoužívejte mezery k oddělování výrazů, místo toho použijte podtržítka (_).
  • zkuste pojmenovat složky popisným způsobem, aby bylo jasné, co obsahuje, a udržujte jména krátká (max 15-20 znaků.)
  • Také se snaží, aby názvy souborů krátké a popisné (<25 znaků)
  • Pokud nechcete používat automatické verzování software, zahrnout čísla verze na konci názvu souboru (např. v01, v02,..) a změňte jej při každém uložení souboru (viz také část znalostní báze o verzování). To je zvláště důležité, pokud na souborech pracuje několik lidí, aby bylo možné sledovat změny.
  • pro konečnou verzi použijte místo čísla verze slovo FINAL. To je zvláště užitečné a důležité, pokud sdílíte své soubory!
  • názvy souborů by měly obsahovat pouze jedno období před příponou souboru, např. project_name_date.doc ne project.name.date.doc nebo project_name_date..doc)
  • Pokud jste již jmenoval mnoho souborů, můžete je přejmenovat rychle pomocí přejmenování souborů aplikace, jako je Hromadné Přejmenování Utility (systém Windows), Přejmenování (Mac OS X) nebo PSRenamer (Mac OS X, Windows, Unix, Linux), a Zamzar (převod souborů online).

webová aplikace DataWiz vám pomůže při organizaci vašich výzkumných dat tím, že nabízí předdefinovanou strukturu a schéma dokumentace pro váš výzkumný projekt.

Další Zdroje

  • SQL je programovací jazyk, který se specializuje na správu dat v relační databáze systémů řízení.
  • XML je interoperabilní člověk-a strojově čitelný značkovací jazyk a je široce používán ve správě výzkumných dat díky své jednoduchosti a obecné použitelnosti.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

lg