modelagem de Dados é, muitas vezes, o núcleo de ciência de dados. Mas a ciência dos dados não se limita a ser modelo sozinha. Modelagem de dados é apenas 20% do pipeline completo de ciência de dados. A fim de extrair qualquer “valor” dos dados, ele precisa ser reunido, esfregado, e explorado, com motivação (para resolver um problema do mundo real) e conhecimento do domínio de negócios servindo como forças orientadoras para um cientista de dados.Metaforicamente, a ciência dos dados é como a magia (para prever) e a dedução (para comparar e interpretar). Como um aspirante a cientista de dados, você gostaria de ter a capacidade de auto-magicamente prever resultados e identificar tendências e padrões anteriormente desconhecidos em seus dados.

é aqui que um oleoduto de dados científicos entra em jogo.

compreender “como funciona o oleoduto da ciência dos dados” é o primeiro passo para a resolução de um problema do mundo real.

aqui neste post, vamos discutir os passos envolvidos em um pipeline de ciência de dados que você precisa seguir para construir um produto, pronto para uso pelos usuários finais.

  1. compreendendo o problema

ou você tem um problema ou você precisa definir uma declaração de problema antes mesmo de começar a usar a ciência dos dados. Você precisa primeiro definir e entender o problema que você está tentando resolver. Um insight praticável ou um produto só pode ser tão bom quanto a sua compreensão do problema.

uma compreensão completa do domínio ou negócio é necessária para dissecar o problema.

o modelo que pretende construir até o final do oleoduto de dados científicos dependerá completamente do problema em mãos. Para diferentes requisitos e objetivos, Você teria que ajustar seus algoritmos. Uma abordagem de tamanho único não funciona.Exemplo: considere, por exemplo, que está construindo um motor de recomendação para um portal de comércio eletrônico. O objetivo é recomendar produtos a todos os novos visitantes na plataforma. O objetivo do negócio é obter um visitante pela primeira vez para passar o tempo máximo na plataforma e colocar seu primeiro pedido. Mas se você construir um sistema para visitantes novos e retornando, é inútil. E se o motor de recomendação não identificar padrões em como os novos visitantes explorar diferentes produtos e colocar a sua primeira ordem, ele não vai fornecer nenhum valor para a organização de negócios. É por isso que a compreensão do problema e do domínio é crucial para a construção de um produto de ciência dos dados útil.

2. Recolha de dados

os dados são recolhidos com base na sua compreensão do problema. A coleta de dados é um processo tedioso e demorado. Exige paciência, energia e tempo.Com mais dados, é possível construir modelos mais robustos.

é fundamental trabalhar em dados precisos, a fim de construir modelos confiáveis. Se houver demasiados dados-pontos anómalos, mesmo os modelos mais refinados estão destinados a falhar.

cenário de exemplo: irá recolher conjuntos de dados relativos aos visitantes da primeira vez, bem como eventos e acções-chave. Por exemplo, você vai rastrear onde eles clicam ou como eles exploram vários produtos na plataforma. Se você usar dados de retorno de visitantes, Você estaria adicionando ruído aos dados.

Habilidades Requeridas:

Consulta relacionais e não-relacionais de banco de dados: MySQL, Postgresql, MongoDB

Armazenamento Distribuído: Hadoop, o Apache Faísca

Recuperação de Dados não estruturados: texto, imagens, vídeos, arquivos de áudio, documentos, excel, etc

3. Limpeza de dados

esta fase do oleoduto de dados científicos geralmente requer mais tempo e esforço. Os resultados e resultados de um modelo de ciência de dados são tão bons quanto os dados que você coloca nele. Linguagens de script como Python e R são usadas para limpeza de dados.

os dados recolhidos são examinados, lavados e armazenados de forma estruturada. O principal objectivo é eliminar o máximo de ruído possível durante esta fase; o conhecimento do domínio e a compreensão do problema empresarial ajudam a identificar e a eliminar os casos anómalos.

os dados assim limpos serão usados para análise de dados exploratórios e modelagem nas próximas etapas.

cenário de exemplo: todos os dados, que adicionam ruído e não estão ligados às necessidades do negócio, relacionados com o problema em mãos, precisam ser removidos. Ao examinar os dados, você precisa identificar registros corruptos, erros e valores em falta. Durante a depuração, conjuntos de dados com erros ou valores em falta são jogados fora, substituídos ou preenchidos .

Habilidades Requeridas:

linguagem de Script: Python ou R

Dados Discutindo Ferramentas: Python Pandas, R

4. Análise de dados exploratórios

agora que você tem dados limpos disponíveis, é hora de explorá-los!

Durante esta fase, o objetivo é extrair insights e identificar padrões ocultos de dados e mapeá-las para o negócio e o problema específico que precisa ser resolvido.

como nos passos anteriores, uma boa compreensão do domínio ajuda a orientar a análise de dados em direções onde você é mais provável de descobrir informações úteis e insights relacionados com os dados.

Cenário De Exemplo: No exemplo discutido na Etapa 1, com base na sua compreensão das tendências sazonais no mercado de comércio eletrônico, você pode descobrir que metade dos visitantes do site pela primeira vez durante o período de verão passou mais de três minutos verificando frigoríficos.

é praticamente necessário desenvolver um sentido para detectar padrões/tendências estranhos ou interessantes durante a análise de dados exploratórios.

as ferramentas de visualização são úteis na extração de padrões através de gráficos e visualizações; métodos de testes estatísticos são úteis na extração de recursos e backup de achados com gráficos e análises.

com base nas análises, novas funcionalidades podem ser criadas nesta fase, se necessário.Algumas bibliotecas populares de visualização usadas para análise de dados exploratória incluem Matplotlib, Seaborn, Numpy, Pandas, Scipy em Python e GGplot2 em R

5. Data Modeling

Now, it is time to solve the problem by using Machine Learning and Deep Learning algorithms. Esta é a fase mais emocionante de todo o oleoduto de ciência dos dados.

diferentes métodos/algoritmos são testados. O método que oferece o melhor desempenho (em termos de análise preditiva) é selecionado. O modelo é refinado e avaliado muitas vezes.

o poder preditivo do seu modelo dependerá da qualidade das características que utiliza.Cenário de exemplo: o seu modelo de dados para o motor de recomendação pode prever que pelo menos um item de uma combinação de certos aparelhos de cozinha, artigos de mercearia e produtos de limpeza é provável que seja comprado por um visitante pela primeira vez.

as bibliotecas Scikit-learn (Python) e CARET (R) podem ser usadas para construir modelos de aprendizagem mecânica. Entre os vários frameworks de aprendizagem profunda disponíveis hoje em dia, Keras/TensorFlow pode ser usado para construir modelos de aprendizagem profunda. Compare frameworks em vários aspectos antes de escolher um.

6. Implantação

agora que o modelo está pronto, é hora de torná-lo acessível aos usuários finais.

o modelo deve ser escalável. Quando novos dados estão disponíveis, o modelo pode ser reavaliado e atualizado.

Palavras Finais

é importante que o seu oleoduto de dados científicos seja sólido do início ao fim. Cada passo é importante.

Deixe uma resposta

O seu endereço de email não será publicado.

lg