Antes de podermos trabalhar com os nossos dados, precisamos ter certeza de que é válido, preciso e confiável. Na era dos grandes dados, as empresas podem gastar tanto ou mais na manutenção da saúde e na limpeza dos seus dados como gastam na sua recolha ou aquisição em primeiro lugar. Considere as questões que podem resultar de valores em falta ou errados, duplicados e erros tipográficos. A validade, precisão e confiabilidade de seus cálculos dependem de sua capacidade de manter seus dados atualizados. Muitas estimativas mostram que cerca de 30% dos seus dados pode tornar-se imprecisa, ao longo do tempo (JD Supra, 2019; Estratégico DB, 2019) e até mesmo pequenos conjuntos de dados, pode ser caro para limpar, deixar sozinho arquivos que são dezenas ou centenas de milhares de registros de profundidade – ou muito mais se você estiver usando bancos de dados de grande escala.

existem muitas soluções de limpeza de dados por aí para uma ampla gama de formatos de arquivos, volumes de dados, ou orçamentos. No entanto, existem muitas coisas que podemos realizar usando funções e recursos do Excel para que você possa processar nossos dados de forma rápida e eficaz. Em vez de comprar uma aplicação, atribuindo a limpeza de dados a um empregado, ou contratar um serviço para esfregar seus dados, para registros sob um milhão por folha, o Excel pode salvar-lhe uma grande quantidade de tempo e fundos usando uma variedade de funções e recursos. A tabela 10.1 mostra algumas funções importantes que podem ajudá-lo a limpar seus dados.

CLEAN remove todos os caracteres não-imprimíveis do texto.
TRIM remove todos os espaços do texto, excepto para espaços simples entre palavras.
CONCATENATE Join two or more text strings into one string.
LEFT Devolve um texto contendo um número especificado de caracteres do lado esquerdo de um texto.
RIGHT Devolve um texto contendo um número especificado de caracteres do lado direito de um texto.
MID Devolve um número específico de caracteres de uma cadeia de texto.
SEARCH SEARCH devolve o número do carácter no qual um carácter específico ou texto é encontrado pela primeira vez.
FINDB Locate one text string within a second text string.
UPPER converte o texto para maiúsculas.
converte o texto para minúsculas.
PROPER capitaliza a primeira letra em uma cadeia de texto e quaisquer outras letras em texto que seguem qualquer caráter que não seja uma letra. Converte todas as outras letras em letras minúsculas.
TEXT Change the way a number appears by applying formatting to it with format codes.
o valor Converte uma cadeia de texto que representa um número para um número.

tabela 10.1 uma amostra de funções de limpeza de texto e dados no Excel.

as seguintes secções mostram as funções acima em acção. O Ch10_ Data_file contém quatro folhas. A folha de documentação regista as fontes dos nossos dados. Text_FUNC folha apresenta uma variedade de erros comuns que você pode ver em um conjunto de dados, incluindo quebras de linha no lugar errado, espaços extras ou sem espaços entre as palavras, caracteres não-imprimíveis, indevidamente letras maiúsculas ou todas as letras maiúsculas, minúsculas texto mal-formatado valores de dados. A folha de DataGen_Companies contém um conjunto de dados “fictícios” (plausíveis, mas não reais) sobre as empresas geradas em https://www.generatedata.com/ que o autor deste capítulo intencionalmente injetado com erros comuns vistos nos dados, a fim de desdobrá-lo e processá-lo em nome da prática de funções Excel para a seção de prática do Capítulo. The Mockaroo_Cars sheet is a “dummy” dataset about consumers and their addresses generated at https://mockaroo.com/, this data set will be used for the Mail Merge section. Ambos os conjuntos de dados” fictícios ” são arquivados aqui para fins educacionais.

figura 10.1.1 abaixo mostra a folha Text_FUNC com uma variedade de erros comuns vistos nos dados que importa de outras fontes. O intervalo CONCATENATO & TRIM é um exemplo de como uma única linha de texto pode ser criada a partir do conteúdo de três linhas, nidificando duas funções do Excel. CONCATENATE on its own will merge the three cells into one, but alone, it does nothing about the extra spaces we see in the text. O TRIM irá remover todos os espaços, o que significa que precisamos adicionar “” para que o Excel adicione as células em branco necessárias entre palavras.

figura 10.1.1 a folha Text_FUNC com conteúdo original e limpo lado a lado.

a margem esquerda, direita, média nas colunas A: C ilustram outro conjunto comum de funções utilizadas para processar dados. Muitas vezes, os dados vêm em grandes blocos Unidos. Enquanto podemos usar os dados > texto para colunas recurso com delimitadores para dizer ao Excel onde queremos que os nossos dados sejam divididos, as funções esquerda, direita e média processarão os dados de certas direções dependendo de onde na string está o texto ou número que desejamos extrair. B9 e B10 mostram um número de parte que podemos extrair porções de usar a função MID Em C9, C10. B12 e B13 mostram números de curso que podemos extrair porções de usar as funções direita e esquerda em C12, C13.

a figura 10.1.2 apresenta as fórmulas nas colunas A:C para ilustrar a combinação de CONCATENATO e guarnição aninhada em uma variedade de maneiras de encontrar a melhor configuração para sair da maneira que queremos que nosso texto apareça com a sintaxe para esquerda, direita, e meio mostrando por baixo.

Figura 10.1.2 O Text_FUNC folha com o Show de “Fórmulas” opção habilitada para colunas:C.

Figura 10.1.3 abaixo mostra as fórmulas em colunas F:H para ilustrar a diferença entre ENCONTRAR e PESQUISA, bem como mostrar a parte SUPERIOR, INFERIOR, ADEQUADA, o VALOR e as funções de TEXTO usado para produzir o conteúdo para os dados nesses intervalos.

figura 10.1.3 o Text_FUNC com a opção” Mostrar fórmulas ” activa para as colunas F: H.

visite o site oficial da Microsoft para uma lista de funções de texto comum no Excel.

Observe a variedade de tarefas que você pode alcançar usando fórmulas relativamente simples e alternativas aninhadas.

“Nota: Embora você possa usar a função de texto para mudar a formatação, não é a única maneira. Poderá alterar o formato sem uma fórmula se carregar em CTRL+1 (ou imagem do ícone do botão de comando MAC +1 no Mac), escolhendo depois o formato que deseja na janela de formatos > Número (Código).”

considere possíveis usos destas funções, a fim de limpar seus dados. Revisitaremos essas funções e o uso de Delimitadores na prática do Capítulo.

ATRIBUIÇÃO

Capítulo por Emese Felvégi. CC BY-NC-SA 3.0. Conjuntos de dados fictícios de https://www.generatedata.com/ e https://mockaroo.com arquivados aqui para fins educativos.

Mídia Atribuições

  • Figure_10-1
  • Figure_10-2
  • Figure_10-3

Deixe uma resposta

O seu endereço de email não será publicado.

lg