El modelado de datos es a menudo el núcleo de la ciencia de datos. Sin embargo, la ciencia de datos no se limita solo al modelado. El modelado de datos es solo el 20% de la canalización completa de ciencia de datos. Para extraer cualquier «valor» de los datos, debe recopilarse, eliminarse y explorarse, con motivación (para resolver un problema del mundo real) y conocimiento del dominio del negocio que sirva de guía para un científico de datos.

Metafóricamente, la ciencia de datos es como magia (predecir) y deducción (comparar e interpretar). Como aspirante a científico de datos, te gustaría tener la capacidad de predecir resultados de forma automática e identificar tendencias y patrones previamente desconocidos en tus datos.

Aquí es donde entra en juego una canalización de ciencia de datos.

Comprender «cómo funciona la canalización de ciencia de datos» es el primer paso para resolver un problema del mundo real.

Aquí en esta publicación, discutiremos los pasos involucrados en una canalización de ciencia de datos que debe seguir para crear un producto, listo para ser utilizado por los usuarios finales.

  1. Entendiendo el problema

Ya sea que tenga un problema o necesite definir una declaración de problema incluso antes de comenzar a usar la ciencia de datos. Primero necesitas definir y entender el problema que estás tratando de resolver. Una visión procesable o un producto solo puede ser tan bueno como su comprensión del problema.

Se requiere una comprensión profunda del dominio o negocio para diseccionar el problema.

El modelo que pretenda construir al final de la canalización de ciencia de datos dependerá completamente del problema en cuestión. Para diferentes requisitos y objetivos, tendría que ajustar sus algoritmos. Un enfoque único para todos no funciona.

Escenario de ejemplo: Considere, por ejemplo, que está creando un motor de recomendaciones para un portal de comercio electrónico. El objetivo es recomendar productos a todos los nuevos visitantes de la plataforma. El objetivo de negocio es conseguir que un visitante primerizo pase el máximo tiempo en la plataforma y realice su primer pedido. Pero si construyes un sistema para visitantes nuevos y recurrentes, no sirve de nada. Y si el motor de recomendaciones no logra identificar patrones en la forma en que los nuevos visitantes exploran diferentes productos y realizan su primer pedido, no proporcionará ningún valor a la organización empresarial. Esta es la razón por la que comprender el problema y el dominio es crucial para construir un producto útil de ciencia de datos.

2. Recopilación de datos

Los datos se recopilan en función de su comprensión del problema. La recopilación de datos es un proceso tedioso y lento. Exige paciencia, energía y tiempo.

Con más datos, es posible construir modelos más robustos.

Es primordial trabajar en datos precisos para construir modelos confiables. Si hay demasiados valores atípicos de puntos de datos, incluso los modelos más refinados están destinados a fallar.

Escenario de ejemplo: Recopilará conjuntos de datos pertenecientes a visitantes primerizos, así como eventos y acciones clave. Por ejemplo, rastreará dónde hacen clic o cómo exploran varios productos en la plataforma. Si utilizas datos de visitantes que regresan, estarás agregando ruido a los datos.

Habilidades requeridas:

Consulta de bases de datos relacionales y no relacionales: MySQL, PostgresSQL, MongoDB

Almacenamiento distribuido: Hadoop, Apache Spark

Recuperación de datos no estructurados: texto, imágenes, videos, archivos de audio, documentos, excel, etc

3. Limpieza de datos

Esta fase de la canalización de ciencia de datos generalmente requiere la mayor cantidad de tiempo y esfuerzo. Los resultados y la salida de un modelo de ciencia de datos son tan buenos como los datos que usted pone en él. Para la limpieza de datos se utilizan lenguajes de scripting como Python y R.

Los datos recopilados se examinan, depuran y almacenan de forma estructurada. El objetivo clave es eliminar la mayor cantidad de ruido posible durante esta fase; el conocimiento del dominio y la comprensión del problema empresarial ayudan a identificar y eliminar valores atípicos.

Los datos así limpiados se utilizarán para el análisis de datos exploratorios y el modelado en los próximos pasos.

Escenario de ejemplo: Todos los datos, que agregan ruido y no están vinculados a las necesidades del negocio, relacionados con el problema en cuestión deben eliminarse. Al examinar los datos, debe identificar registros corruptos, errores y valores faltantes. Durante el borrado, los conjuntos de datos con errores o valores faltantes se desechan, reemplazan o rellenan .

Habilidades Requeridas:

lenguaje de secuencias de comandos: Python o R

Datos Forcejeo Herramientas: Python Pandas, R

4. Análisis exploratorio de datos

Ahora que tiene datos limpios disponibles, ¡es hora de explorarlos!

Durante esta fase, el objetivo es extraer información e identificar patrones ocultos de los datos y asignarlos al negocio y al problema específico que debe resolverse.

Como en los pasos anteriores, una buena comprensión del dominio ayuda a dirigir el análisis de datos en direcciones en las que es más probable que descubra información útil y conocimientos relacionados con los datos.

Escenario de ejemplo: En el ejemplo del Paso 1, basado en su comprensión de las tendencias estacionales en el mercado de comercio electrónico, puede descubrir que la mitad de los visitantes del sitio web por primera vez durante el período de verano pasaron más de tres minutos revisando refrigeradores.

Prácticamente necesita desarrollar un sentido para detectar patrones/tendencias extraños o interesantes durante el análisis exploratorio de datos.

Las herramientas de visualización son útiles para extraer patrones a través de gráficos y visualizaciones; los métodos de prueba estadísticos son útiles para extraer características y respaldar hallazgos con gráficos y análisis.

En base a los análisis, se pueden crear nuevas funciones en esta etapa, si es necesario.

Habilidades requeridas:

Algunas bibliotecas de visualización populares utilizadas para el análisis de datos exploratorios incluyen Matplotlib, Seaborn, Numpy, Pandas, Scipy en Python y GGplot2 en R

5. Modelado de datos

Ahora es el momento de resolver el problema mediante el uso de algoritmos de Aprendizaje Automático y Aprendizaje Profundo. Esta es la fase más emocionante de todo el proceso de ciencia de datos.

Se prueban diferentes métodos / algoritmos. Se selecciona el método que ofrece el mejor rendimiento (en términos de análisis predictivo). El modelo es refinado y evaluado muchas veces.

La potencia predictiva de su modelo dependerá de la calidad de las funciones que utilice.

Escenario de ejemplo: Su modelo de datos para el motor de recomendaciones puede predecir que es probable que un visitante por primera vez compre al menos un artículo de una combinación de ciertos electrodomésticos de cocina, comestibles y productos de aseo personal.

Las bibliotecas Scikit-learn (Python) y CARET (R) se pueden utilizar para crear modelos de aprendizaje automático. Entre los diversos marcos de aprendizaje profundo disponibles en la actualidad, Keras / TensorFlow se puede usar para crear modelos de aprendizaje profundo. Compare marcos en varios aspectos antes de elegir uno.

6. Implementación

Ahora que el modelo está listo, es el momento de hacerlo accesible para los usuarios finales.

El modelo debe ser escalable. Cuando se dispone de nuevos datos, el modelo puede reevaluarse y actualizarse.

Palabras finales

Es importante que su canalización de ciencia de datos sea sólida de principio a fin. Cada paso es importante.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

lg