Organizacja zbiorów danych

wybór jednego dobrze pomyślanego systemu organizacji danych może pomóc w śledzeniu danych, jeśli istnieje wiele wersji zbiorów danych lub zmian w zbiorach danych. Dotyczy to zwłaszcza większych zespołów. Aby rozpocząć organizację danych, musisz zdefiniować strukturę danych badawczych. Najważniejsze typy konstrukcji przedstawiono poniżej:

możliwe sposoby organizowania danych
możliwe sposoby organizowania danych. A: prostokątna organizacja niehierarchicznych danych. B: Dane z dwoma poziomami hierarchicznymi (temat i czas pomiaru) w formacie „szerokim”. C: Dane z dwoma poziomami hierarchicznymi w formacie „long”. D: wzorzec hierarchicznie uporządkowanego pliku danych. E: relacyjna struktura bazy danych.
  • płaskie prostokątne pliki lub dane tabelaryczne to klasyczna i nadal często używana struktura danych, która może być odczytywana przez wszystkie programy statystyczne i arkusze kalkulacyjne.
    • powszechnym sposobem strukturyzowania plików prostokątnych jest szeroki format (tabela A na powyższym obrazku): kolumny reprezentują różne zmienne, podczas gdy linie reprezentują różne obserwacje (np. obiekty). Jednak problemy w szerokim formacie pojawiają się, gdy dane są hierarchicznie ustrukturyzowane, np. w projektach z powtarzającymi się miarami (patrz Tabela B na powyższym obrazku). Jeśli liczba przypadków pomiaru różni się między obserwacjami, wiele komórek pozostanie pustych przez projekt.
    • jednym z rozwiązań może być użycie długiego formatu zestawu danych (patrz tabela C na powyższym obrazku). W długim formacie każda linia przedstawia jedną jednostkę obserwacyjną (np. jedna okazja pomiarowa dla konkretnej osoby), a zmienna charakteryzuje okazję pomiarową (np. dzień 1, przed testem itp.). Ten format pozwala na reprezentację danych hierarchicznych w klasycznym pliku prostokątnym. Pliki w długim formacie będą zawierały pewne redundancje, ponieważ cechy jednostek obserwacyjnych wyższego rzędu są powtarzane w każdej linii (np. zmienne niezmienne w czasie, takie jak płeć podmiotu lub rok urodzenia). Ponieważ funkcje w pakietach statystycznych zwykle pracują tylko z jednym z tych formatów, transformacje między szerokim i długim formatem są częstym zadaniem i istnieją odpowiednie funkcje (np. funkcja reshape i pakiet reshape2 w R).
  • pliki hierarchiczne mogą być stosowane w celu uniknięcia nadmiarowości, które występują podczas korzystania z plików prostokątnych (patrz tabela E na powyższym obrazku). Pliki XML spełniają ten wymóg i pozwalają na zapisanie danych i metadanych w jednym pliku. Jednak pomimo tych zalet pliki XML nie są powszechnie stosowane w psychologii i oprogramowanie statystyczne często wymaga danych tabelarycznych jako danych wejściowych.
  • relacyjne bazy danych organizują dane o różnych poziomach hierarchicznych w oddzielnych prostokątnych tabelach, podczas gdy różne tabele są połączone za pomocą zdefiniowanych skojarzeń. Poszczególne tabele mogą być analizowane statystycznie lub łączone w celu utworzenia nowych tabel. Relacyjne bazy danych mogą przedstawiać złożone skojarzenia w elegancki sposób, ale potrzebują więcej Administracji i znajomości języków bazodanowych (np. SQL).

Organizacja danych badawczych

ponieważ nie istnieją ani najlepsze praktyki, ani konwencje nazewnictwa, które wyraźnie odnoszą się do danych z badań psychologicznych, zalecamy wskazówki opracowane w poziomie projektu: teaching Integrity in Empirical Research jako punkt wyjścia do organizacji folderów i plików w empirycznych projektach badawczych.

ponadto pomocne mogą być ogólne wskazówki dotyczące projektowania konwencji nazewnictwa bibliotek uniwersyteckich w Bostonie (n. d.):

  • wybrana nazwa pliku powinna być używana konsekwentnie w wszystkich plikach (zawsze zawierają te same informacje, w tej samej kolejności)

zastanów się, jak z przyszłego punktu widzenia powinny być zorganizowane Twoje pliki, np. project_instrument_location_date_time_version.

  • w nazwach plików należy zawsze umieszczać daty, aby można było cofnąć zmiany; użyj formatu RRRR-MM-DD.
  • unikaj następujących symboli w nazwach plików:”/\:*? ” < > & $. Mają one określone znaczenie w niektórych systemach operacyjnych komputerów, a zatem mogą prowadzić do błędnego odczytania lub nawet usunięcia pliku.
  • nie używaj spacji do oddzielania terminów, zamiast tego używaj podkreślników (_).
  • spróbuj nazwać foldery w sposób opisowy, aby było jasne, co one zawierają, i zachowaj nazwy krótkie (maksymalnie 15-20 znaków.)
  • staraj się również, aby nazwy plików były krótkie i opisowe (<25 znaków)
  • jeśli nie używasz oprogramowania do automatycznego wersjonowania, Dołącz numery wersji na końcu nazwy pliku (np..) i zmieniaj go za każdym razem, gdy plik jest zapisywany (patrz również sekcja bazy wiedzy na temat wersjonowania). Jest to szczególnie ważne, jeśli nad plikami pracuje kilka osób, dzięki czemu można śledzić zmiany.
  • w wersji ostatecznej użyj słowa FINAL zamiast numeru wersji. Jest to szczególnie przydatne i ważne, jeśli udostępniasz swoje pliki!
  • nazwy plików powinny zawierać tylko jeden okres przed rozszerzeniem pliku, np. project_name_date.doc NOT project.name.date.doc lub project_name_date..doc)
  • jeśli nazwałeś już wiele plików, możesz szybko zmienić ich nazwy za pomocą aplikacji do zmiany nazwy plików, takiej jak Bulk Rename Utility (Windows), ReNamer (Mac OS X) lub PSRenamer (Mac OS X, Windows, Unix, Linux) i Zamzar (Konwertuj pliki online).

aplikacja internetowa DataWiz pomaga w organizacji danych badawczych, oferując wstępnie zdefiniowaną strukturę i schemat dokumentacji dla projektu badawczego.

inne zasoby

  • SQL jest językiem programowania specjalizującym się w zarządzaniu danymi w relacyjnych systemach zarządzania bazami danych.
  • XML jest interoperacyjnym językiem znaczników czytelnym dla człowieka i maszyny i jest szeroko stosowany w zarządzaniu danymi badawczymi ze względu na swoją prostotę i ogólną użyteczność.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

lg