Antes de poder trabajar con nuestros datos, debemos asegurarnos de que sean válidos, precisos y confiables. En la era del Big Data, las empresas pueden gastar tanto o más en mantener la salud y limpiar sus datos como en recopilarlos o comprarlos en primer lugar. Considere los problemas que pueden derivarse de valores faltantes o incorrectos, duplicados y errores tipográficos. La validez, precisión y fiabilidad de sus cálculos dependen de su capacidad para mantener sus datos actualizados. Muchas estimaciones muestran que aproximadamente el 30% de sus datos pueden volverse inexactos con el tiempo (JD Supra, 2019; Base de datos estratégica, 2019) e incluso los conjuntos de datos pequeños pueden ser costosos de limpiar, y mucho menos los archivos que tienen decenas o cientos de miles de registros profundos, o mucho más si está utilizando bases de datos a gran escala.

Existen muchas soluciones de limpieza de datos para una amplia gama de formatos de archivo, volúmenes de datos o presupuestos. Sin embargo, hay muchas cosas que podemos lograr utilizando las funciones y características de Excel para que pueda procesar nuestros datos de manera rápida y efectiva. En lugar de comprar una aplicación, asignar la limpieza de datos a un empleado o contratar un servicio para limpiar sus datos, para registros de menos de un millón por hoja, Excel puede ahorrarle una gran cantidad de tiempo y fondos utilizando una variedad de funciones y características. La Tabla 10.1 muestra algunas funciones importantes que pueden ayudarlo a limpiar sus datos.

LIMPIAR Elimina todos los caracteres no imprimibles del texto.
TRIM Elimina todos los espacios del texto, excepto los espacios individuales entre palabras.
CONCATENAR Unir dos o más cadenas de texto en una cadena.
LEFT Devuelve una cadena que contiene un número especificado de caracteres del lado izquierdo de una cadena.
RIGHT Devuelve una cadena que contiene un número especificado de caracteres del lado derecho de una cadena.
MID Devuelve un número específico de caracteres de una cadena de texto.
SEARCH SEARCH devuelve el número del carácter en el que se encuentra por primera vez un carácter específico o cadena de texto.
FIND y FINDB Localizan una cadena de texto dentro de una segunda cadena de texto.
SUPERIOR Convierte el texto a mayúsculas.
LOWER Convierte texto a minúsculas.
PROPIAMENTE Pone en mayúscula la primera letra de una cadena de texto y cualquier otra letra del texto que siga a cualquier carácter que no sea una letra. Convierte todas las demás letras en letras minúsculas.
TEXTO Cambie la forma en que aparece un número aplicándole formato con códigos de formato.
VALOR Convierte una cadena de texto que representa un número a número.

Tabla 10.1 Una muestra de funciones de limpieza de texto y datos en Excel.

Las siguientes secciones muestran las funciones anteriores en acción. El archivo ch10_data_ contiene cuatro hojas. La hoja de documentación señala las fuentes de nuestros datos. La hoja Text_FUNC presenta una variedad de errores comunes que puede ver en un conjunto de datos, incluidos saltos de línea en el lugar equivocado, espacios adicionales o sin espacios entre palabras, caracteres que no se imprimen, mayúsculas incorrectas o todo el texto en mayúsculas, todo el texto en minúsculas, valores de datos mal formateados. La hoja DataGen_Companies contiene un conjunto de datos» ficticios » (plausibles, pero no reales) sobre empresas generadas en https://www.generatedata.com/ que el autor de este capítulo inyectó intencionalmente con errores comunes vistos en los datos para desplegarlos y procesarlos con el fin de practicar funciones de Excel para la sección Práctica del Capítulo. La hoja Mockaroo_Cars es un conjunto de datos» ficticio » sobre los consumidores y sus direcciones generadas en https://mockaroo.com/, este conjunto de datos se utilizará para la sección de combinación de correspondencia. Ambos conjuntos de datos» ficticios » se archivan aquí con fines educativos.

La figura 10.1.1 a continuación muestra la hoja Text_FUNC con una variedad de errores comunes que se ven en los datos que importa de otras fuentes. El rango de recorte CONCATENAR & es un ejemplo de cómo se puede crear una sola línea de texto a partir del contenido de tres filas anidando dos funciones de Excel. CONCATENAR por sí solo fusionará las tres celdas en una, pero por sí solo, no hace nada con los espacios adicionales que vemos en el texto. TRIM eliminará todos los espacios, lo que significa que necesitamos agregar «» para que Excel agregue las celdas en blanco necesarias entre palabras.

Figura 10.1.1 La hoja Text_FUNC con contenido original y limpio uno al lado del otro.

El rango IZQUIERDO, DERECHO y MEDIO en las columnas A:C ilustra otro conjunto común de funciones utilizadas para procesar datos. A menudo, los datos vienen en grandes trozos combinados. Si bien podemos usar la función Data > Texto a columnas con delimitadores para decirle a Excel dónde queremos que se dividan nuestros datos, las funciones IZQUIERDA, DERECHA y MEDIA procesarán los datos desde ciertas direcciones dependiendo de dónde en la cadena esté el texto o el número que deseamos extraer. B9 y B10 muestran un número de pieza que podemos extraer porciones del uso de la función MID en C9, C10. B12 y B13 muestran números de curso podemos extraer porciones del uso de las funciones DERECHA e IZQUIERDA en C12, C13.

La figura 10.1.2 muestra las fórmulas en las columnas A:C para ilustrar la combinación de CONCATENAR y RECORTAR anidados en una variedad de formas para encontrar la mejor configuración para generar la forma en que queremos que aparezca nuestro texto con la sintaxis para mostrar a la IZQUIERDA, a la DERECHA y a la MITAD debajo.

Figura 10.1.2 La hoja Text_FUNC con la opción» Mostrar fórmulas » habilitada para las columnas A:C.

La Figura 10.1.3 a continuación muestra las fórmulas en las columnas F:H para ilustrar la diferencia entre BUSCAR y BUSCAR, así como mostrar las funciones SUPERIOR, INFERIOR, ADECUADA, de VALOR y de TEXTO utilizadas para producir el contenido de los datos en esos rangos.

Figura 10.1.3 El Text_FUNC con la opción» Mostrar fórmulas » habilitada para las columnas F: H.

Visite el sitio oficial de Microsoft para obtener una lista de funciones de texto comunes en Excel.

Observe la variedad de tareas que puede lograr utilizando fórmulas relativamente simples y alternativas anidadas.

«Nota: Aunque puede usar la función TEXTO para cambiar el formato, no es la única manera. Puede cambiar el formato sin fórmula presionando CTRL+1 (o Imagen del icono del botón de comando de MAC +1 en Mac), luego elija el formato que desee del cuadro de diálogo Formato de celdas > Número (Fuente).»

Considere los posibles usos de estas funciones para limpiar sus datos. Revisaremos estas funciones y el uso de delimitadores en la Práctica del Capítulo.

ATRIBUCIÓN

Capítulo de Emese Felvégi. CC BY-NC-SA 3.0. Conjuntos de datos ficticios de https://www.generatedata.com/ y de https://mockaroo.com archivados aquí con fines educativos.

Medios De Comunicación Atribuciones

  • Figure_10-1
  • Figure_10-2
  • Figure_10-3

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

lg