Organisation von Datensätzen

Die Wahl eines durchdachten Systems zur Datenorganisation kann Ihnen helfen, mit Ihren Daten Schritt zu halten, wenn es mehrere Versionen von Datensätzen oder Änderungen an Datensätzen gibt. Dies gilt insbesondere in größeren Teams. Um mit Ihrer Datenorganisation zu beginnen, müssen Sie die Struktur Ihrer Forschungsdaten definieren. Die wichtigsten Strukturtypen sind unten dargestellt:

 Mögliche Methoden zum Organisieren von Daten
Mögliche Methoden zum Organisieren von Daten. A: Rechteckige Organisation von nicht hierarchischen Daten. B: Daten mit zwei Hierarchieebenen (Subjekt und Messanlass) im „Wide“-Format. C: Daten mit zwei Hierarchieebenen im „langen“ Format. D: Muster für eine hierarchisch strukturierte Datendatei. E: Relationale Datenbankstruktur.
  • Flache rechteckige Dateien oder tabellarische Daten sind eine klassische und immer noch häufig verwendete Datenstruktur, die von allen Statistik- und Tabellenkalkulationsprogrammen gelesen werden kann.
    • Eine gängige Methode zur Strukturierung rechteckiger Dateien ist das Wide Format (Tabelle A im Bild oben): spalten repräsentieren verschiedene Variablen, während Linien verschiedene Beobachtungen darstellen (z. B. Probanden). Probleme im Großformat ergeben sich jedoch, wenn Daten hierarchisch strukturiert sind, z. B. bei Designs mit wiederholten Messungen (siehe Tabelle B in der Abbildung oben). Wenn die Anzahl der Messanlässe zwischen den Beobachtungen unterschiedlich ist, bleiben viele Zellen standardmäßig leer.
    • Eine Lösung kann darin bestehen, das lange Format für den Datensatz zu verwenden (siehe Tabelle C in der Abbildung oben). Im Langformat zeigt jede Zeile eine Beobachtungseinheit (z. b. ein Messanlass für eine bestimmte Person) und eine Variable kennzeichnet den Messanlass (z.B. Tag 1, Vortest etc.). Dieses Format erlaubt die Darstellung hierarchischer Daten in einer klassischen rechteckigen Datei. Dateien im Langformat enthalten einige Redundanzen, da Merkmale der Beobachtungseinheiten höherer Ordnung in jeder Zeile wiederholt werden (z. B. zeitinvariante Variablen wie Geschlecht oder Geburtsjahr des Subjekts). Da Funktionen in Statistikpaketen normalerweise nur mit einem dieser Formate arbeiten, sind Transformationen zwischen Großformat und Langformat eine häufige Aufgabe und entsprechende Funktionen vorhanden (z. B. die Reshape-Funktion und das reshape2-Paket in R).
  • Hierarchische Dateien können verwendet werden, um Redundanzen zu vermeiden, die bei der Verwendung von rechteckigen Dateien auftreten (siehe Tabelle E in der Abbildung oben). XML-Dateien erfüllen diese Anforderung und ermöglichen es, Daten und Metadaten in einer einzigen Datei zu speichern. Trotz dieser Vorteile werden XML-Dateien in der Psychologie nicht häufig verwendet, und statistische Software erfordert häufig tabellarische Daten als Eingabe.
  • Relationale Datenbanken organisieren Daten verschiedener Hierarchieebenen in separaten rechteckigen Tabellen, während die verschiedenen Tabellen durch definierte Assoziationen verbunden sind. Einzelne Tabellen können statistisch ausgewertet oder zu neuen Tabellen verknüpft werden. Relationale Datenbanken können komplexe Zusammenhänge auf elegante Weise darstellen, benötigen jedoch mehr Administration und Kenntnisse in Datenbanksprachen (z. B. SQL).

Organisation von Forschungsdaten

Da es weder Best Practices noch Namenskonventionen gibt, die explizit auf psychologische Forschungsdaten verweisen, empfehlen wir die im Projekt TIER: Teaching Integrity in Empirical Research entwickelte Anleitung als Ausgangspunkt für die Ordner- und Aktenorganisation in empirischen Forschungsprojekten.

Darüber hinaus kann die allgemeine Anleitung zur Gestaltung von Namenskonventionen für Boston University Libraries (n.d.) hilfreich sein:

  • Die von Ihnen gewählte Dateibenennung sollte in allen Dateien konsistent verwendet werden (immer dieselben Informationen in derselben Reihenfolge enthalten)

Überlegen Sie, wie Ihre Dateien aus zukünftiger Sicht organisiert werden sollen, z. B. project_instrument_location_date_time_version .

  • Sie sollten immer Datumsangaben in Ihre Dateinamen aufnehmen, damit Änderungen nachvollzogen werden können; Verwenden Sie das Format JJJJ-MM-TT.
  • Vermeiden Sie die folgenden Symbole in Ihren Dateinamen: „/ \ : * ? “ < > & $. Sie haben bestimmte Bedeutungen in einigen Computerbetriebssystemen und können daher zu Fehllesungen oder sogar zum Löschen der Datei führen.
  • Verwenden Sie keine Leerzeichen, um Begriffe zu trennen, sondern Unterstriche (_).
  • Versuchen Sie, Ordner beschreibend zu benennen, damit klar ist, was darin enthalten ist, und halten Sie die Namen kurz (maximal 15-20 Zeichen).)
  • Versuchen Sie auch, Dateinamen kurz und beschreibend zu halten (<25 Zeichen)
  • Wenn Sie keine automatische Versionierungssoftware verwenden, geben Sie am Ende des Dateinamens Versionsnummern an (z. B. v01, v02,..) und ändern Sie sie jedes Mal, wenn die Datei gespeichert wird (siehe auch den Abschnitt Versionierung in der Knowledge Base). Dies ist besonders wichtig, wenn mehrere Personen gemeinsam an den Dateien arbeiten, damit Änderungen nachverfolgt werden können.
  • Verwenden Sie für Ihre endgültige Version das Wort FINAL anstelle einer Versionsnummer. Dies ist besonders nützlich und wichtig, wenn Sie Ihre Dateien freigeben!
  • Dateinamen sollten nur einen Punkt vor der Dateierweiterung enthalten, z. B. project_name_date.doc NICHT project.name.date.doc ODER project_name_date..doc)
  • Wenn Sie bereits viele Ihrer Dateien benannt haben, können Sie sie schnell umbenennen, indem Sie eine Anwendung zum Umbenennen von Dateien verwenden, z. B. Bulk Rename Utility (Windows), ReNamer (Mac OS X) oder PSRenamer (Mac OS X, Windows, Unix, Linux) und Zamzar (Dateien online konvertieren).

Die Webanwendung DataWiz unterstützt Sie bei der Organisation Ihrer Forschungsdaten, indem Sie eine vordefinierte Struktur und ein Dokumentationsschema für Ihr Forschungsprojekt anbietet.

Weitere Ressourcen

  • SQL ist eine Programmiersprache, die auf die Verwaltung von Daten in relationalen Datenbankmanagementsystemen spezialisiert ist.
  • XML ist eine interoperable menschen- und maschinenlesbare Auszeichnungssprache und wird aufgrund seiner Einfachheit und generischen Verwendbarkeit häufig im Forschungsdatenmanagement verwendet.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

lg