Organización de conjuntos de datos

Elegir un sistema bien concebido de organización de datos puede ayudar a mantener el seguimiento de sus datos si hay varias versiones de conjuntos de datos o cambios en los conjuntos de datos. Esto es válido especialmente en equipos más grandes. Para comenzar con su organización de datos, debe definir la estructura de los datos de su investigación. Los tipos de estructura más importantes se muestran a continuación:

Formas posibles de organizar los datos
Formas posibles de organizar los datos. R: Organización rectangular de datos no jerárquicos. B: Datos con dos niveles jerárquicos (sujeto y ocasión de medición) en formato» ancho». C: Datos con dos niveles jerárquicos en formato «largo». D: Patrón para un archivo de datos jerárquicamente estructurado. E: Estructura de la base de datos relacional.
  • Los archivos rectangulares planos o datos tabulares son una estructura de datos clásica y aún utilizada a menudo que puede ser leída por todos los programas estadísticos y de hojas de cálculo.
    • Una forma común de estructurar archivos rectangulares es el formato ancho (tabla A en la imagen de arriba): las columnas representan diferentes variables, mientras que las líneas representan diferentes observaciones (por ejemplo, sujetos). Sin embargo, los problemas de formato amplio surgen cuando los datos están estructurados jerárquicamente, por ejemplo, en diseños con medidas repetidas (véase la tabla B en la imagen de arriba). Si el número de ocasiones de medición difiere entre las observaciones, muchas celdas se dejarán vacías por diseño.
    • Una solución puede ser utilizar el formato largo para el conjunto de datos (consulte la tabla C en la imagen de arriba). En formato largo, cada línea representa una unidad de observación (p.ej. una ocasión de medición para una persona específica) y una variable caracteriza la ocasión de medición (por ejemplo, día 1, prueba previa, etc.). Este formato permite la representación de datos jerárquicos en un archivo rectangular clásico. Los archivos en formato largo contendrán algunas redundancias, porque las características de las unidades de observación de orden superior se repiten en cada línea (por ejemplo, variables invariantes en el tiempo como el género del sujeto o el año de nacimiento). Como las funciones dentro de paquetes estadísticos generalmente funcionan con uno de estos formatos solamente, las transformaciones entre formato ancho y largo son una tarea frecuente y existen funciones correspondientes (por ejemplo, la función reshape y el paquete reshape2 en R).
  • Los archivos jerárquicos se pueden emplear para evitar redundancias, que ocurren, cuando se usan archivos rectangulares (ver tabla E en la imagen de arriba). Los archivos XML cumplen este requisito y permiten guardar datos y metadatos en un solo archivo. Sin embargo, a pesar de estas ventajas, los archivos XML no se usan comúnmente en psicología y el software estadístico a menudo requiere datos tabulares como entrada.
  • Las bases de datos relacionales organizan datos de diferentes niveles jerárquicos en tablas rectangulares separadas, mientras que las diferentes tablas están conectadas a través de asociaciones definidas. Las tablas individuales se pueden analizar estadísticamente o vincular para formar tablas nuevas. Las bases de datos relacionales pueden representar asociaciones complejas de una manera elegante, pero necesitan más administración y conocimiento de los lenguajes de base de datos (por ejemplo, SQL).

Organización de los Datos de Investigación

Como no existen buenas prácticas ni convenciones de nomenclatura que se refieran explícitamente a los datos de investigación psicológica, recomendamos la guía desarrollada en el NIVEL de Proyecto: Integridad de la Enseñanza en la Investigación Empírica como punto de partida para la organización de carpetas y archivos en proyectos de investigación empírica.

Además, la guía general sobre el diseño de convenciones de nomenclatura de las Bibliotecas de la Universidad de Boston (s. d.) puede ser útil:

  • El nombre de archivo que elija debe usarse de manera consistente en todos sus archivos (incluya siempre la misma información, en el mismo orden)

Considere cómo, desde un punto de vista futuro, deben organizarse sus archivos, por ejemplo, project_instrument_location_date_time_version.

  • Siempre debe incluir fechas en los nombres de los archivos para que se puedan rastrear los cambios; utilice el formato AAAA-MM-DD.
  • Evite los siguientes símbolos en sus nombres de archivo:»/\:*? » < > & $. Tienen significados específicos en algunos sistemas operativos de computadoras y, por lo tanto, pueden resultar en lecturas erróneas o incluso en la eliminación del archivo.
  • No use espacios para separar términos, en su lugar use guiones bajos (_).
  • Intente nombrar las carpetas de manera descriptiva, para que quede claro qué contiene, y mantenga los nombres cortos (15-20 caracteres como máximo.)
  • También intente mantener los nombres de archivo cortos y descriptivos (< 25 caracteres)
  • Si no utiliza un software de control de versiones automático, incluya números de versión al final del nombre del archivo (por ejemplo, v01, v02,..) y cámbielo cada vez que se guarde el archivo (consulte también la sección de control de versiones de la base de conocimientos). Esto es especialmente importante si hay varias personas trabajando juntas en los archivos, para que se puedan rastrear los cambios.
  • Para su versión final, use la palabra FINAL en lugar de un número de versión. Esto es especialmente útil e importante si comparte sus archivos.
  • Los nombres de archivo solo deben contener un punto antes de la extensión del archivo, por ejemplo, nombre_proyecto.doc NO project.name.date.doc O fecha de nombre_proyecto..doc)
  • Si ya ha nombrado muchos de sus archivos, puede cambiarles el nombre rápidamente mediante una aplicación de cambio de nombre de archivos, como la Utilidad de cambio de nombre masivo (Windows), el renombrador (Mac OS X) o PSRenamer (Mac OS X, Windows, Unix, Linux) y Zamzar (convertir archivos en línea).

La aplicación web DataWiz le ayuda a organizar sus datos de investigación ofreciendo una estructura predefinida y un esquema de documentación para su proyecto de investigación.

Más recursos

  • SQL es un lenguaje de programación especializado en la gestión de datos en sistemas de gestión de bases de datos relacionales.
  • XML es un lenguaje de marcado interoperable legible por personas y máquinas y se usa ampliamente en la gestión de datos de investigación debido a su simplicidad y facilidad de uso genérica.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

lg