
La modellazione dei dati è spesso il nucleo della scienza dei dati. Ma la scienza dei dati non si limita alla sola modellazione. La modellazione dei dati è solo il 20% della pipeline completa di data science. Per estrarre qualsiasi “valore” dai dati, deve essere raccolto, rimosso ed esplorato, con motivazione (per risolvere un problema del mondo reale) e conoscenza del dominio aziendale che funge da forza guida per un data scientist.
Metaforicamente, la scienza dei dati è come la magia (per prevedere) e la deduzione (per confrontare e interpretare). Come aspirante data scientist, vorresti avere la capacità di prevedere automaticamente magicamente i risultati e identificare tendenze e modelli precedentemente sconosciuti nei tuoi dati.
È qui che entra in gioco una pipeline di scienza dei dati.
Capire “come funziona la pipeline della scienza dei dati” è il primo passo verso la soluzione di un problema del mondo reale.
Qui in questo post, discuteremo i passaggi coinvolti in una pipeline di data science che è necessario seguire per costruire un prodotto, pronto per l’uso da parte degli utenti finali.
- Comprensione del problema
Hai un problema o devi definire un’istruzione problema prima ancora di iniziare a utilizzare data science. Devi prima definire e capire il problema che stai cercando di risolvere. Una comprensione attuabile o un prodotto può essere solo buono come la vostra comprensione del problema.
È necessaria una conoscenza approfondita del dominio o dell’attività per sezionare il problema.
Il modello che intendi costruire entro la fine della pipeline di data science dipenderà completamente dal problema in questione. Per diversi requisiti e obiettivi, dovresti regolare i tuoi algoritmi. Un approccio one-size-fits-all non funziona.
Scenario di esempio: si consideri, ad esempio, che si sta creando un motore di raccomandazione per un portale di e-commerce. L’obiettivo è quello di consigliare i prodotti a tutti i nuovi visitatori sulla piattaforma. L’obiettivo aziendale è quello di ottenere un visitatore per la prima volta per trascorrere il massimo tempo sulla piattaforma e inserire il suo primo ordine. Ma se costruisci un sistema sia per i visitatori nuovi che per quelli di ritorno, non serve a nulla. E se il motore di raccomandazione non riesce a identificare i modelli nel modo in cui i nuovi visitatori esplorano prodotti diversi e piazzano il loro primo ordine, non fornirà alcun valore all’organizzazione aziendale. Questo è il motivo per cui la comprensione del problema e del dominio è fondamentale per la costruzione di un prodotto di scienza dei dati utile.
2. Raccolta dati
I dati vengono raccolti in base alla comprensione del problema. La raccolta dei dati è un processo noioso e dispendioso in termini di tempo. Richiede pazienza, energia e tempo.
Con più dati, è possibile costruire modelli più robusti.
È fondamentale lavorare su dati accurati per costruire modelli affidabili. Se ci sono troppi valori anomali dei dati, anche i modelli più raffinati sono destinati a fallire.
Scenario di esempio: raccoglierai set di dati relativi ai visitatori per la prima volta, nonché eventi e azioni chiave. Ad esempio, traccerai dove fanno clic o come esplorano vari prodotti sulla piattaforma. Se si utilizzano i dati dei visitatori di ritorno, si aggiungerebbe rumore ai dati.
Competenze richieste:
Interrogazione di database relazionali e non relazionali: MySQL, PostgresSQL, MongoDB
Archiviazione distribuita: Hadoop, Apache Spark
Recupero di dati non strutturati: testo, immagini, video, file audio, documenti, excel ecc
3. Pulizia dei dati
Questa fase della pipeline di data science richiede generalmente la maggior parte del tempo e degli sforzi. I risultati e l’output di un modello di scienza dei dati sono buoni solo come i dati che ci metti dentro. Linguaggi di scripting come Python e R vengono utilizzati per la pulizia dei dati.
I dati raccolti vengono esaminati, rimossi e archiviati in una forma strutturata. L’obiettivo principale è quello di rimuovere quanto più rumore possibile durante questa fase; conoscenza del dominio e la comprensione del problema di business aiutano a identificare e rimuovere valori anomali.
I dati così puliti saranno utilizzati per l’analisi esplorativa dei dati e la modellazione nelle fasi successive.
Scenario di esempio: tutti i dati, che aggiungono rumore e non sono legati alle esigenze aziendali, relativi al problema in questione devono essere rimossi. Quando si esaminano i dati, è necessario identificare record corrotti, errori e valori mancanti. Durante il lavaggio, i set di dati con errori o valori mancanti vengono eliminati, sostituiti o riempiti .
Competenze richieste:
Linguaggio di scripting: Python o R
Strumenti di wrangling dei dati: Python Panda, R
4. Exploratory Data Analysis
Ora che hai dati puliti disponibili, è il momento di esplorarlo!
Durante questa fase, l’obiettivo è quello di estrarre insights e identificare i modelli nascosti dai dati e mapparli al business e al problema specifico che deve essere risolto.
Come nei passaggi precedenti, una buona comprensione del dominio aiuta a orientare l’analisi dei dati in direzioni in cui è più probabile scoprire informazioni utili e approfondimenti relativi ai dati.
Scenario di esempio: Nell’esempio discusso nel passaggio 1, in base alla comprensione delle tendenze stagionali nel mercato dell’e-commerce, potresti scoprire che la metà dei visitatori del sito Web per la prima volta durante il periodo estivo ha trascorso più di tre minuti a controllare i frigoriferi.
È praticamente necessario sviluppare un senso per individuare modelli/tendenze strani o interessanti durante l’analisi dei dati esplorativi.
Gli strumenti di visualizzazione sono utili per estrarre modelli attraverso grafici e visualizzazioni; i metodi di test statistici sono utili per estrarre funzionalità e eseguire il backup dei risultati con grafici e analisi.
In base alle analisi, è possibile creare nuove funzionalità in questa fase, se necessario.
Competenze richieste:
Alcune popolari librerie di visualizzazione utilizzate per l’analisi esplorativa dei dati includono Matplotlib, Seaborn, Numpy, Panda, Scipy in Python e GGplot2 in R
5. Modellazione dei dati
Ora, è il momento di risolvere il problema utilizzando algoritmi di apprendimento automatico e Deep Learning. Questa è la fase più eccitante dell’intera pipeline di data science.
Vengono testati diversi metodi/algoritmi. Viene selezionato il metodo che offre le migliori prestazioni (in termini di analisi predittiva). Il modello viene perfezionato e valutato più volte.
La potenza predittiva del modello dipende dalla qualità delle funzionalità utilizzate.
Scenario di esempio: il modello di dati per il motore di raccomandazione può prevedere che almeno un articolo da una combinazione di determinati elettrodomestici da cucina, generi alimentari e prodotti per la toelettatura possa essere acquistato da un visitatore per la prima volta.
Le librerie Scikit-learn (Python) e CARET (R) possono essere utilizzate per creare modelli di apprendimento automatico. Tra i vari framework di Deep Learning disponibili al giorno d’oggi, Keras/TensorFlow può essere utilizzato per la creazione di modelli di Deep Learning. Confronta i framework in vari aspetti prima di sceglierne uno.
6. Distribuzione
Ora che il modello è pronto, è il momento di renderlo accessibile agli utenti finali.
Il modello dovrebbe essere scalabile. Quando sono disponibili nuovi dati, il modello può essere rivalutato e aggiornato.
Parole finali
È importante che la pipeline di data science sia solida dall’inizio alla fine. Ogni passo è importante.