Foto di Ivo Rainha su Unsplash

penso che non discutere con me, quando sono stato dati che la scienza sta diventando uno dei più popolari campi da lavorare, soprattutto in considerazione che la Harvard Business Review denominato “data scientist” la più sexy del lavoro del 21 ° secolo. Nel campo, abbiamo fatto molta strada, dai tempi in cui termini come la scienza dei dati e l’apprendimento automatico erano ancora sconosciuti e tutto era raccolto sotto l’ombrello delle statistiche. Tuttavia, siamo lontani dalla fine del viaggio.

Questo può anche essere un aspetto divisivo della scienza dei dati — il campo si sta sviluppando così rapidamente che può essere difficile persino seguire tutti i nuovi algoritmi, tecniche e approcci. Quindi lavorare nella scienza dei dati, in modo simile all’ingegneria del software, spesso richiede apprendimento e sviluppo costanti. Non fraintendetemi, alcune persone (me compreso) piace molto. Altri preferiscono imparare per alcuni anni e poi basta tagliare i tagliandi da quella conoscenza. Entrambi gli approcci sono perfettamente bene-è una preferenza personale.

Come ho detto, lavorare nella scienza dei dati può essere un viaggio. Ecco perché in questo articolo, voglio condividere le mie 10 risorse scientifiche di dati preferite (quelle online), che uso spesso per imparare e cercare di tenere il passo con gli attuali sviluppi. Questo elenco si concentrerà sulle risorse online (blog, video, podcast) e non coprirà MOOC o libri, in quanto vi è più che sufficiente contenuto lì per un articolo separato. Cominciamo!

Fonte: https://towardsdatascience.com/

Questo non dovrebbe sorprendere, dato che stai leggendo questo articolo pubblicato su Towards Data Science. TDS è la più grande pubblicazione di Medium che copre tutti gli argomenti relativi alla scienza dei dati. Cosa puoi trovare qui:

  • tutorial per principianti con codice (nelle lingue più popolari come Python, R, Julia, SQL e altro),
  • descrizioni approfondite di particolari algoritmi o tecniche ML,
  • riassunti di documenti influenti,
  • descrizioni di progetti personali per animali domestici,
  • le ultime notizie dal campo,
  • e molto altro ancora!

TDS crea una comunità davvero bella in cui tutti sono incoraggiati a condividere e partecipare. Inoltre, consiglio vivamente di partecipare alla newsletter e seguire TDS su Twitter per tenere il passo con gli articoli più recenti e più popolari.

Infine, posso anche raccomandare il podcast Towards Data Science, che può essere particolarmente utile per le persone che si chiedono come entrare nella scienza dei dati e trovare il loro ruolo perfetto.

PyData (conferenza + video)

Fonte

PyData è il programma educativo di NumFOCUS — senza scopo di lucro, la carità, la promozione di aprire pratiche di ricerca, i dati e calcolo scientifico. Organizzano conferenze in tutto il mondo incoraggiando ricercatori e professionisti a condividere le loro intuizioni dal loro lavoro. Nei colloqui puoi trovare un mix di best practice generali di Python, esempi di casi reali su cui i data scientist hanno lavorato (ad esempio, come modellano il churn o quali strumenti usano per generare un sollevamento nelle loro campagne di marketing) e introduzioni ad alcune nuove librerie.

Parlando per esperienza, è molto divertente partecipare alla conferenza di persona, poiché puoi partecipare attivamente alle presentazioni, porre domande e fare rete con persone che condividono i tuoi interessi. Tuttavia, poiché questo non è sempre possibile e semplicemente ci sono troppe conferenze a cui partecipare, puoi trovare tutte le registrazioni sul loro canale YouTube. Normalmente, le registrazioni vengono pubblicate pochi mesi dopo ogni conferenza.

I colloqui PyData sono una grande fonte di ispirazione, come si può vedere come altre aziende hanno affrontato un argomento particolare, e forse è possibile applicare un metodo simile nella vostra azienda.

Machine Learning Mastery

Il sito web/blog di Jason Brownlee è una miniera d’oro di contenuti per gli scienziati dei dati, specialmente quelli più giovani. È possibile trovare una pletora di tutorial, dai classici approcci di modellazione statistica (regressione lineare, ARIMA), alle più recenti e più grandi soluzioni di machine/deep learning. Gli articoli sono sempre molto pratici e contengono codice Python che applica il concetto particolare a un set di dati giocattolo. Ciò che è veramente grande circa il sito è che Jason spiega chiaramente i concetti e si riferisce anche a ulteriori letture per coloro che vogliono immergersi in più in profondità nel background teorico. Puoi anche filtrare tutti gli articoli per argomento, nel caso in cui tu sia interessato solo all’apprendimento squilibrato o al modo di codificare la tua prima rete LSTM.

Distill

Distill mira a fornire una spiegazione chiara e intuitiva dei concetti di apprendimento automatico. Essi sostengono che i documenti sono spesso limitati ai file PDF, che non possono sempre mostrare il quadro completo. E in tempi in cui ML guadagna sempre più impatto, è fondamentale avere una buona comprensione di come gli strumenti che stiamo usando effettivamente funzionano.

Distill utilizza visualizzazioni impressionanti e interattive per spiegare chiaramente cosa sta realmente accadendo dietro le quinte degli algoritmi di apprendimento automatico. Uno dei miei articoli preferiti ha descritto t-SNE (t-distributed stocastic neighbor embedding) e ha mostrato come i grafici generati, mentre visivamente piacevoli possono essere fuorvianti. Ha anche sottolineato il significato degli iperparametri fornendo uno strumento interattivo per vedere l’impatto in prima persona.

Se hai bisogno di ulteriori garanzie sulla qualità del contenuto, il comitato direttivo dietro Distill includeva nomi come Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

Carte con codice

Source

Papers With Code è una grande iniziativa per creare un pool di risorse gratuito e aperto contenente documenti ML, insieme al codice e alle tabelle di valutazione. È possibile sfogliare facilmente i documenti disponibili (incluso lo stato dell’arte) e cercare per argomenti, ad esempio la colorazione delle immagini all’interno del dominio computer vision.

Questo sito web è davvero utile quando si desidera sperimentare un approccio o applicarlo al set di dati, senza effettivamente scrivere tutto il codice da soli. Mentre un tale esercizio è sicuramente utile e imparerai molto, a volte devi solo hackerare un MVP per dimostrare che qualcosa funziona davvero per il tuo caso d’uso e genera valore aggiunto. Dopo aver ottenuto l’approvazione richiesta, puoi tranquillamente immergerti nel codice per comprendere tutte le sfumature di un particolare modello o architettura.

Kaggle

Kaggle è diventata la piattaforma di riferimento per le persone che desiderano partecipare a concorsi di machine/deep learning. Migliaia di persone partecipano a concorsi per formare i migliori modelli (spesso gruppi di modelli grandi e complessi) per ottenere il miglior punteggio e ottenere riconoscimenti (e premi monetari).

Tuttavia, la piattaforma stessa è molto di più. Per cominciare, Kaggle contiene migliaia di Kernel / notebook, che mostra l’implementazione pratica degli algoritmi ML. Spesso, i creatori forniscono anche una spiegazione teorica approfondita dei modelli e dei loro iperparametri. Questo notebook contiene ulteriori collegamenti a molti dei più popolari algoritmi ML/DL implementati in set di dati personalizzati nei kernel di Kaggle (sia Python che R).

Inoltre, Kaggle contiene anche molti set di dati personalizzati caricati dall’utente (al momento della scrittura, oltre 40k) che è possibile utilizzare per le proprie analisi. Puoi trovare praticamente tutto ciò che può aumentare il tuo interesse, dagli ultimi numeri riguardanti COVID-19 alle statistiche di tutti i Pokémon là fuori. Molti articoli TDS sono scritti utilizzando i set di dati di Kaggle. Quindi, se vuoi praticare le tue abilità su qualcosa di diverso dalle case Titanic o Boston, Kaggle è un ottimo punto di partenza.

R-blogger

Source

Ho iniziato il mio viaggio nella scienza dei dati con R, e anche dopo aver cambiato il mio linguaggio di programmazione principale in Python seguo ancora R-blogger. Si tratta di un aggregatore di blog (è possibile partecipare anche inviando il tuo blog) e copre una vasta gamma di argomenti. Mentre la maggior parte di essi sono correlati a R, puoi ancora imparare molto leggendo gli approcci generali alle attività di scienza dei dati.

Credo che non si dovrebbe limitarsi a un solo linguaggio di programmazione e ignorare tutto il resto. Forse leggerai di un progetto/pacchetto interessante in R e deciderai di portarlo su Python? In alternativa, puoi usare rpy2 per accedere ai pacchetti R da Python e semplificarti la vita.

Mentre Python è attualmente il linguaggio numero 1 nella scienza dei dati, ci sono ancora molti pacchetti e strumenti che non sono stati portati su Python da R. Ecco perché credo che R-blogger sia una risorsa molto preziosa e potrebbe essere una fonte di ispirazione per il porting di alcune funzionalità R su Python.

arXiv

arXiv è il repository ad accesso aperto della Cornell University di preprints elettronici di articoli scientifici in campi come l’informatica, l’apprendimento automatico e molti altri. Fondamentalmente, questo è il posto dove cercare le ultime ricerche e gli algoritmi all’avanguardia. Tuttavia, al giorno d’oggi ci sono così tanti nuovi articoli aggiunti ogni giorno che è praticamente impossibile seguire tutto. Questo è il motivo per cui Andrej Karpathy ha creato arXiv Sanity Preserver per cercare di filtrare i documenti più importanti/rilevanti. Inoltre, puoi seguire arXiv ogni giorno su Twitter per ricevere un elenco giornaliero curato degli articoli di ricerca più importanti. Avviso amichevole: il numero di tweet può essere schiacciante.

GitHub Awesome Machine Learning

Questo repository GitHub contiene un elenco curato di framework di apprendimento automatico, librerie e software in generale. Per nostra comodità, sono raggruppati per lingua. Inoltre, il repository contiene elenchi di blog, libri gratuiti, corsi online, conferenze, meetup e molto altro. Questo repository è sicuramente molto prezioso e puoi immergerti per un po ‘ di tempo esplorando tutte le informazioni disponibili. Divertiti!

Twitter

Questo può essere molto soggettivo, poiché in molti casi Twitter è usato come social network proprio come Facebook. Tuttavia, cerco di usarlo esclusivamente per seguire le persone dal campo della scienza dei dati ed evitare il contenuto di click-baity. Molti ricercatori, autori e scienziati di dati altrimenti famosi hanno account Twitter attivi e spesso condividono contenuti interessanti / pertinenti. E ‘ un ottimo modo per rimanere aggiornati con i nuovi sviluppi e “temi caldi” nella scienza dei dati.

L’elenco delle persone da seguire dipenderà molto dalla portata dei tuoi interessi, ad esempio, se ti concentri sull’apprendimento profondo utilizzato per la visione artificiale o forse la PNL. Consiglierei di iniziare con alcuni dei tuoi autori preferiti, che si tratti di libri o MOOC, e quindi la lista crescerà naturalmente, poiché sarai esposto ad altre persone interessanti tramite retweet, ecc.

Nel caso in cui sei interessato, puoi trovare le persone che seguo qui.

Altre risorse utili

L’elenco di cui sopra non è affatto esaustivo, poiché Internet è pieno di risorse molto utili sulla scienza dei dati. Qui di seguito vi elenco alcune risorse aggiuntive che non hanno fatto la mia top 10 ma sono anche grandi e li uso spesso:

  • KDnuggets
  • AWS Machine Learning Blog
  • PyImageSearch
  • ha Spiegato.ai
  • Visual Capitalista
  • Dati è Bellissima
  • Analytics Vidhya

io continuerò ad aggiornare la lista in caso di scivolata la mia mente o scopro qualcosa di nuovo 🙂

> Conclusioni

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

lg