Organização de Conjuntos de dados

Escolha uma bem concebida sistema de organização de dados pode ajudar a manter na pista com seus dados, se houver várias versões de conjuntos de dados ou alterações nos conjuntos de dados. Isto se mantém especialmente em equipes maiores. Para começar com sua organização de dados, você tem que definir a estrutura de seus dados de pesquisa. Os tipos de estrutura mais importantes são mostrados abaixo:

formas possíveis de organizar dados
formas possíveis de organizar dados. A: organização Rectangular de dados não hierárquicos. B: Dados com dois níveis hierárquicos (assunto e ocasião de medição) em formato “amplo”. C: dados com dois níveis hierárquicos em formato “longo”. D: Padrão para um arquivo de dados hierarquicamente estruturado. E: estrutura da base de dados relacional.
  • arquivos retangulares planos ou dados tabulares é uma estrutura de dados clássica e ainda frequentemente usada que pode ser lida por todos os programas estatísticos e planilhas.
    • uma forma comum de estruturar arquivos retangulares é o formato largo(tabela A na imagem acima): as colunas representam variáveis diferentes, enquanto as linhas representam observações diferentes (por exemplo, assuntos). No entanto, surgem problemas em formato amplo quando os dados estão hierarquicamente estruturados, por exemplo, em desenhos com medidas repetidas (ver quadro B na imagem acima). Se o número de ocasiões de medição difere entre observações, muitas células serão deixadas vazias por projeto.
    • uma solução pode ser usar o formato longo para o conjunto de dados (Ver Tabela C na imagem acima). Em formato longo, cada linha representa uma unidade observacional (e.g. uma ocasião de medição para uma pessoa específica) e uma variável caracteriza a ocasião de medição (por exemplo, dia 1, Pré-ensaio, etc.). Este formato permite a representação de dados hierárquicos num ficheiro rectangular clássico. Os arquivos em formato longo conterão algumas redundâncias, porque as características das unidades de observação de ordem superior são repetidas em cada linha (por exemplo, variáveis invariantes de tempo como o sexo do sujeito ou ano de nascimento). Como as funções dentro de pacotes estatísticos normalmente funcionam apenas com um desses formatos, as transformações entre o formato largo e o formato longo são uma tarefa frequente e as funções correspondentes existem (por exemplo, a função de remodelação e o pacote reshape2 em R).
  • arquivos hierárquicos podem ser empregados para evitar redundâncias, que ocorrem, ao usar arquivos retangulares (ver tabela E na imagem acima). Os arquivos XML cumprem este requisito e permitem salvar dados e metadados em um único arquivo. No entanto, apesar destas vantagens, arquivos XML não são comumente usados em Psicologia e software estatístico muitas vezes requer dados tabulares como entrada.
  • bases de dados relacionais organizam dados de diferentes níveis hierárquicos em tabelas retangulares separadas, enquanto as diferentes tabelas são conectadas através de associações definidas. As tabelas individuais podem ser estatisticamente analisadas ou ligadas a novas tabelas. As bases de dados relacionais podem descrever associações complexas de uma forma elegante, mas necessitam de mais Administração e conhecimento das línguas de base de dados (p.ex. SQL).

Organização de dados de investigação

como não existem melhores práticas nem Convenções de nomeação que se referem explicitamente a dados de investigação psicológica, recomendamos a orientação desenvolvida no nível do projecto: a integridade do ensino na investigação empírica como ponto de partida para a organização de pastas e ficheiros em projectos de investigação empírica.

além disso, a orientação geral sobre a concepção de Convenções de nomenclatura das Bibliotecas da Universidade de Boston (n. d.) pode ser útil.:

  • A nomeação de arquivo que você escolher deve ser usado de forma consistente, ao longo de seus arquivos (sempre incluir a mesma informação, na mesma ordem)

Considere como, a partir de um futuro ponto de vista, os arquivos devem ser organizados, por exemplo project_instrument_location_date_time_version.

  • deve sempre incluir datas nos nomes dos seus ficheiros para que as alterações possam ser corrigidas; use o formato AAAA-MM-DD.
  • evite os seguintes símbolos nos seus nomes de ficheiros:”/ \:*? ” < > & $. Eles têm significados específicos em alguns sistemas operacionais de computador e, portanto, pode resultar em erros de leitura ou até mesmo exclusão do arquivo.
  • não use espaços para separar termos, em vez disso use sublinhados (_).
  • tente nomear pastas de uma forma descritiva, para que seja claro o que ele contém, e manter os nomes curtos (15-20 caracteres no máximo.)
  • Also try to keep file names short and descriptive (< 25 characters)
  • If you do not use an automatic versioning software, include version numbers at the end of the file name (e.g. v01, v02,..) e alterá-lo cada vez que o arquivo é salvo (também, consulte a seção da base de conhecimento sobre versioning). Isto é especialmente importante se houver várias pessoas trabalhando em conjunto nos arquivos, para que as mudanças possam ser rastreadas.
  • para a sua versão final, use a palavra FINAL em vez de um número de versão. Isto é especialmente útil e importante se você compartilhar seus arquivos!
  • os nomes dos ficheiros só devem conter um período antes da extensão do ficheiro, por exemplo, project_ name_date.doc NOT project.name.date.doc ou project_ nome_ data..doc)
  • se você já nomeou muitos de seus arquivos, você pode renomeá-los rapidamente usando uma aplicação de renomeação de arquivos, como o Utilitário de renomeação em massa (Windows), renomeador (Mac OS X) ou PSRenamer (Mac OS X, Windows, Unix, Linux), e Zamzar (converter arquivos online).

a aplicação web DataWiz ajuda – o a organizar os seus dados de investigação, oferecendo uma estrutura predefinida e um esquema de documentação para o seu projecto de investigação.

recursos adicionais

  • SQL é uma linguagem de programação especializada na gestão de dados em sistemas de gerenciamento de bases de dados relacionais.
  • XML é uma linguagem de marcação interoperável humana e legível por máquina e é amplamente utilizada na gestão de dados de pesquisa devido à sua simplicidade e usabilidade genérica.

Deixe uma resposta

O seu endereço de email não será publicado.

lg