La modellazione dei dati è spesso il nucleo della scienza dei dati. Ma la scienza dei dati non si limita alla sola modellazione. La modellazione dei dati è solo il 20% della pipeline completa di data science. Per estrarre qualsiasi “valore” dai dati, deve essere raccolto, rimosso ed esplorato, con motivazione (per risolvere un problema del mondo reale) e conoscenza del dominio aziendale che funge da forza guida per un data scientist.

Metaforicamente, la scienza dei dati è come la magia (per prevedere) e la deduzione (per confrontare e interpretare). Come aspirante data scientist, vorresti avere la capacità di prevedere automaticamente magicamente i risultati e identificare tendenze e modelli precedentemente sconosciuti nei tuoi dati.

È qui che entra in gioco una pipeline di scienza dei dati.

Capire “come funziona la pipeline della scienza dei dati” è il primo passo verso la soluzione di un problema del mondo reale.

Qui in questo post, discuteremo i passaggi coinvolti in una pipeline di data science che è necessario seguire per costruire un prodotto, pronto per l’uso da parte degli utenti finali.

  1. Comprensione del problema

Hai un problema o devi definire un’istruzione problema prima ancora di iniziare a utilizzare data science. Devi prima definire e capire il problema che stai cercando di risolvere. Una comprensione attuabile o un prodotto può essere solo buono come la vostra comprensione del problema.

È necessaria una conoscenza approfondita del dominio o dell’attività per sezionare il problema.

Il modello che intendi costruire entro la fine della pipeline di data science dipenderà completamente dal problema in questione. Per diversi requisiti e obiettivi, dovresti regolare i tuoi algoritmi. Un approccio one-size-fits-all non funziona.

Scenario di esempio: si consideri, ad esempio, che si sta creando un motore di raccomandazione per un portale di e-commerce. L’obiettivo è quello di consigliare i prodotti a tutti i nuovi visitatori sulla piattaforma. L’obiettivo aziendale è quello di ottenere un visitatore per la prima volta per trascorrere il massimo tempo sulla piattaforma e inserire il suo primo ordine. Ma se costruisci un sistema sia per i visitatori nuovi che per quelli di ritorno, non serve a nulla. E se il motore di raccomandazione non riesce a identificare i modelli nel modo in cui i nuovi visitatori esplorano prodotti diversi e piazzano il loro primo ordine, non fornirà alcun valore all’organizzazione aziendale. Questo è il motivo per cui la comprensione del problema e del dominio è fondamentale per la costruzione di un prodotto di scienza dei dati utile.

2. Raccolta dati

I dati vengono raccolti in base alla comprensione del problema. La raccolta dei dati è un processo noioso e dispendioso in termini di tempo. Richiede pazienza, energia e tempo.

Con più dati, è possibile costruire modelli più robusti.

È fondamentale lavorare su dati accurati per costruire modelli affidabili. Se ci sono troppi valori anomali dei dati, anche i modelli più raffinati sono destinati a fallire.

Scenario di esempio: raccoglierai set di dati relativi ai visitatori per la prima volta, nonché eventi e azioni chiave. Ad esempio, traccerai dove fanno clic o come esplorano vari prodotti sulla piattaforma. Se si utilizzano i dati dei visitatori di ritorno, si aggiungerebbe rumore ai dati.

Competenze richieste:

Interrogazione di database relazionali e non relazionali: MySQL, PostgresSQL, MongoDB

Archiviazione distribuita: Hadoop, Apache Spark

Recupero di dati non strutturati: testo, immagini, video, file audio, documenti, excel ecc

3. Pulizia dei dati

Questa fase della pipeline di data science richiede generalmente la maggior parte del tempo e degli sforzi. I risultati e l’output di un modello di scienza dei dati sono buoni solo come i dati che ci metti dentro. Linguaggi di scripting come Python e R vengono utilizzati per la pulizia dei dati.

I dati raccolti vengono esaminati, rimossi e archiviati in una forma strutturata. L’obiettivo principale è quello di rimuovere quanto più rumore possibile durante questa fase; conoscenza del dominio e la comprensione del problema di business aiutano a identificare e rimuovere valori anomali.

I dati così puliti saranno utilizzati per l’analisi esplorativa dei dati e la modellazione nelle fasi successive.

Scenario di esempio: tutti i dati, che aggiungono rumore e non sono legati alle esigenze aziendali, relativi al problema in questione devono essere rimossi. Quando si esaminano i dati, è necessario identificare record corrotti, errori e valori mancanti. Durante il lavaggio, i set di dati con errori o valori mancanti vengono eliminati, sostituiti o riempiti .

Competenze richieste:

Linguaggio di scripting: Python o R

Strumenti di wrangling dei dati: Python Panda, R

4. Exploratory Data Analysis

Ora che hai dati puliti disponibili, è il momento di esplorarlo!

Durante questa fase, l’obiettivo è quello di estrarre insights e identificare i modelli nascosti dai dati e mapparli al business e al problema specifico che deve essere risolto.

Come nei passaggi precedenti, una buona comprensione del dominio aiuta a orientare l’analisi dei dati in direzioni in cui è più probabile scoprire informazioni utili e approfondimenti relativi ai dati.

Scenario di esempio: Nell’esempio discusso nel passaggio 1, in base alla comprensione delle tendenze stagionali nel mercato dell’e-commerce, potresti scoprire che la metà dei visitatori del sito Web per la prima volta durante il periodo estivo ha trascorso più di tre minuti a controllare i frigoriferi.

È praticamente necessario sviluppare un senso per individuare modelli/tendenze strani o interessanti durante l’analisi dei dati esplorativi.

Gli strumenti di visualizzazione sono utili per estrarre modelli attraverso grafici e visualizzazioni; i metodi di test statistici sono utili per estrarre funzionalità e eseguire il backup dei risultati con grafici e analisi.

In base alle analisi, è possibile creare nuove funzionalità in questa fase, se necessario.

Competenze richieste:

Alcune popolari librerie di visualizzazione utilizzate per l’analisi esplorativa dei dati includono Matplotlib, Seaborn, Numpy, Panda, Scipy in Python e GGplot2 in R

5. Modellazione dei dati

Ora, è il momento di risolvere il problema utilizzando algoritmi di apprendimento automatico e Deep Learning. Questa è la fase più eccitante dell’intera pipeline di data science.

Vengono testati diversi metodi/algoritmi. Viene selezionato il metodo che offre le migliori prestazioni (in termini di analisi predittiva). Il modello viene perfezionato e valutato più volte.

La potenza predittiva del modello dipende dalla qualità delle funzionalità utilizzate.

Scenario di esempio: il modello di dati per il motore di raccomandazione può prevedere che almeno un articolo da una combinazione di determinati elettrodomestici da cucina, generi alimentari e prodotti per la toelettatura possa essere acquistato da un visitatore per la prima volta.

Le librerie Scikit-learn (Python) e CARET (R) possono essere utilizzate per creare modelli di apprendimento automatico. Tra i vari framework di Deep Learning disponibili al giorno d’oggi, Keras/TensorFlow può essere utilizzato per la creazione di modelli di Deep Learning. Confronta i framework in vari aspetti prima di sceglierne uno.

6. Distribuzione

Ora che il modello è pronto, è il momento di renderlo accessibile agli utenti finali.

Il modello dovrebbe essere scalabile. Quando sono disponibili nuovi dati, il modello può essere rivalutato e aggiornato.

Parole finali

È importante che la pipeline di data science sia solida dall’inizio alla fine. Ogni passo è importante.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

lg