fotografie de Ivo Rainha pe Unsplash

cred că nu vă veți certa cu mine când afirm că știința datelor devine unul dintre cele mai populare domenii în care să lucrați, mai ales având în vedere că Harvard Business Review a numit „data scientist” cea mai sexy slujbă a secolului 21. În domeniu, am parcurs un drum lung, din vremurile în care termeni precum știința datelor și învățarea automată erau încă necunoscuți și totul era adunat sub umbrela statisticilor. Cu toate acestea, suntem departe de sfârșitul călătoriei.

acesta poate fi, de asemenea, un aspect divizant al științei datelor — domeniul se dezvoltă atât de rapid încât poate fi dificil să urmăm chiar și toți noii algoritmi, tehnici și abordări. Așadar, lucrul în știința datelor, similar ingineriei software, necesită adesea învățare și dezvoltare constantă. Nu mă înțelegeți greșit, unii oameni (inclusiv eu) le place foarte mult. Alții preferă să învețe câțiva ani și apoi să taie cupoanele din aceste cunoștințe. Ambele abordări sunt perfect fine — este o preferință personală.

după cum am menționat, lucrul în știința datelor poate fi o călătorie. De aceea, în acest articol, vreau să împărtășesc cele 10 resurse preferate ale științei datelor (Cele online), pe care le folosesc frecvent pentru a învăța și a încerca să țin pasul cu evoluțiile actuale. Această listă se va concentra pe resurse online (bloguri, videoclipuri, podcast-uri) și nu va acoperi Mooc-uri sau cărți, deoarece există mai mult decât suficient conținut pentru un articol separat. Să începem!

Sursa: https://towardsdatascience.com/

acest lucru nu ar trebui să fie o surpriză, având în vedere că citiți acest articol publicat În către știința datelor. TDS este cea mai mare publicație Medium care acoperă toate subiectele legate de știința datelor. Ce puteți găsi aici:

  • tutoriale pentru începători cu cod (în cele mai populare limbi, cum ar fi Python, R, Julia, SQL și multe altele),
  • descrieri aprofundate ale anumitor algoritmi sau tehnici ML,
  • rezumate ale lucrărilor influente,
  • descrieri ale proiectelor personale pentru animale de companie,
  • cele mai recente știri din domeniu,
  • și mai mult!

TDS creează o comunitate foarte frumos în care toată lumea este încurajată să împărtășească și să participe. În plus, vă pot recomanda să vă alăturați buletinului informativ și să urmăriți TDS pe Twitter pentru a ține pasul cu cele mai recente și mai populare articole.

în cele din urmă, pot recomanda, de asemenea, podcast-ul către știința datelor, care poate fi util în special pentru persoanele care se întreabă cum să pătrundă în știința datelor și să-și găsească rolul perfect.

PyData ( conferință + video)

Sursa

PyData este programul educațional al NumFOCUS — o organizație de caritate non-profit care promovează practici deschise în cercetare, date și calcul științific. Ei organizează conferințe în întreaga lume încurajând cercetătorii și practicienii să-și împărtășească ideile din munca lor. În discuții puteți găsi o combinație de bune practici generale Python, Exemple de cazuri din viața reală la care au lucrat oamenii de știință de date (de exemplu, modul în care modelează putina sau ce instrumente folosesc pentru a genera o creștere în campaniile lor de marketing) și introduceri la unele biblioteci noi.

vorbind din experiență, este foarte distractiv să participi personal la conferință, deoarece poți participa activ la prezentări, pune întrebări și face rețea cu oameni care îți împărtășesc interesele. Cu toate acestea, deoarece acest lucru nu este întotdeauna posibil și pur și simplu există prea multe conferințe pentru a participa, puteți găsi toate înregistrările pe canalul lor YouTube. În mod normal, înregistrările sunt publicate la câteva luni după fiecare conferință.

discuțiile PyData sunt o sursă excelentă de inspirație, deoarece puteți vedea cum alte companii au abordat un anumit subiect și poate puteți aplica o metodă similară în compania dvs.

Machine Learning Mastery

site-ul/blogul lui Jason Brownlee este o mină de aur de conținut pentru oamenii de știință de date, în special pentru cei mai tineri. Puteți găsi o multitudine de tutoriale, de la abordări clasice de modelare statistică (regresie liniară, ARIMA), până la cele mai recente și mai bune soluții de învățare automată/profundă. Articolele sunt întotdeauna foarte practice și conțin cod Python care aplică conceptul particular unui set de date de jucărie. Ceea ce este cu adevărat grozav la site-ul web este că Jason explică în mod clar conceptele și se referă, de asemenea, la lecturi suplimentare pentru cei care doresc să se scufunde adânc în fundalul teoretic. De asemenea, puteți filtra toate articolele după subiect, în cazul în care sunteți interesat doar de învățarea dezechilibrată sau cum să codificați prima rețea lstm.

Distill

Distill își propune să ofere o explicație clară și intuitivă a conceptelor de învățare automată. Ei susțin că documentele sunt adesea limitate la fișierele PDF, care nu pot arăta întotdeauna imaginea completă. Și în momentele în care ML câștigă din ce în ce mai mult impact, este crucial să avem o bună înțelegere a modului în care funcționează efectiv instrumentele pe care le folosim.

Distill folosește vizualizări impresionante și interactive pentru a explica clar ce se întâmplă de fapt în culisele algoritmilor de învățare automată. Unul dintre articolele mele preferate acolo descris t-end (t-distribuit Stochastic vecin încorporarea) și a arătat modul în care graficele generate, în timp ce vizual plăcut poate fi înșelătoare. De asemenea, a subliniat semnificația hiperparametrilor oferind un instrument interactiv pentru a vedea impactul din prima mână.

dacă aveți nevoie de asigurări suplimentare cu privire la calitatea conținutului de acolo, comitetul director din spatele Distill a inclus nume precum Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

hârtii cu cod

Sursa

Papers With Code este o inițiativă excelentă de a crea un fond de resurse gratuit și deschis care conține documente ML, împreună cu tabelele de cod și evaluare. Puteți naviga cu ușurință lucrările disponibile (inclusiv cele de ultimă generație) și puteți căuta după subiecte, de exemplu, colorarea imaginilor în domeniul computer vision.

acest site vine într-adevăr la îndemână atunci când doriți să experimentați cu o anumită abordare sau se aplică la setul de date, fără a scrie de fapt tot codul-te. În timp ce un astfel de exercițiu este cu siguranță util și veți învăța multe, uneori trebuie doar să hack împreună un MVP pentru a arăta că ceva funcționează de fapt pentru cazul dvs. de utilizare și generează valoare adăugată. După obținerea aprobării necesare, vă puteți scufunda calm în cod pentru a înțelege toate nuanțele unui anumit model sau arhitectură.

Kaggle

Kaggle a devenit platforma de acces pentru persoanele care doresc să participe la competiții de învățare automată/profundă. Mii de oameni participă la concursuri pentru a instrui cele mai bune modele (adesea ansambluri mari și complexe de modele) pentru a obține cel mai bun scor și pentru a obține recunoaștere (și premii monetare).

cu toate acestea, platforma în sine este mult mai mult decât atât. Pentru început, Kaggle conține mii de kerneluri/Notebook-uri, arătând implementarea practică a algoritmilor ML. Adesea, creatorii oferă, de asemenea, o explicație teoretică aprofundată a modelelor și a hiperparametrilor acestora. Acest Notebook conține link-uri suplimentare la multe dintre cele mai populare algoritmi ML/DL implementate la seturi de date personalizate în Kaggle Kernel (atât Python și R).

mai mult, Kaggle conține, de asemenea, multe seturi de date personalizate, încărcate de utilizatori (la momentul scrierii, peste 40k) pe care le puteți utiliza pentru propriile analize. Puteți găsi aproape orice vă poate spori interesul, de la cele mai recente numere referitoare la COVID-19 până la statisticile tuturor Pokului de acolo. Multe articole TDS sunt scrise folosind seturile de date de la Kaggle. Deci, dacă doriți să vă exersați abilitățile pe altceva decât casele Titanic sau Boston, Kaggle este un loc minunat pentru a începe.

R-bloggeri

Sursa

am început călătoria mea știință de date cu R, și chiar și după trecerea limbajul meu principal de programare la Python încă mai urmăresc r-bloggeri. Este un agregator de bloguri (vă puteți alătura și prin trimiterea blogului dvs.) și acoperă o gamă largă de subiecte. În timp ce majoritatea sunt legate de R, puteți învăța destul de multe citind despre abordările generale ale sarcinilor științei datelor.

cred că nu ar trebui să se limiteze la un singur limbaj de programare și să ignore orice altceva. Poate veți citi despre un proiect/pachet interesant în R și veți decide să îl portați în Python? Alternativ, puteți utiliza rpy2 pentru a accesa pachetele R de la Python și pentru a vă ușura viața.

în timp ce Python este în prezent limbajul numărul 1 în știința datelor, există încă multe pachete și instrumente care nu au fost portate în Python de la R. De aceea cred că r-bloggerii sunt o resursă foarte valoroasă și ar putea fi o sursă de inspirație pentru portarea unor funcționalități R în Python.

arXiv

arXiv este depozitul cu acces deschis al Universității Cornell de preprinturi electronice ale lucrărilor științifice în domenii precum informatica, învățarea automată și multe altele. Practic, acesta este locul pentru a căuta cele mai recente cercetări și algoritmi de ultimă oră. Cu toate acestea, în zilele noastre există atât de multe articole noi adăugate în fiecare zi încât este practic imposibil să urmărești totul. De aceea, Andrej Karpathy a creat arXiv Sanity Preserver pentru a încerca să filtreze cele mai importante/relevante lucrări. În plus, puteți urmări zilnic arXiv pe Twitter pentru a primi o listă zilnică cu cele mai importante articole de cercetare. Avertisment prietenos: numărul de tweet-uri poate fi copleșitor.

Github awesome Machine Learning

acest repo GitHub conține o listă curată de cadre de învățare automată, Biblioteci și software în general. Pentru confortul nostru, acestea sunt grupate după limbă. În plus, repo conține liste de bloguri, cărți gratuite, cursuri online, conferințe, întâlniri și multe altele. Acest depozit este cu siguranță foarte valoros și vă puteți scufunda de ceva timp explorând toate informațiile disponibile. Bucurați-vă!

Twitter

acesta poate fi foarte subiectiv, deoarece în multe cazuri Twitter este folosit ca rețea socială la fel ca Facebook. Cu toate acestea, încerc să-l folosesc exclusiv pentru urmărirea persoanelor din domeniul științei datelor și pentru a evita conținutul de clicuri. Mulți cercetători, autori și oameni de știință de date celebri au conturi Twitter active și împărtășesc frecvent conținut interesant/relevant. Este o modalitate foarte bună de a rămâne la curent cu noile evoluții și „subiecte fierbinți” în știința datelor.

lista persoanelor de urmat va depinde în mare măsură de sfera intereselor dvs., de exemplu, dacă vă concentrați pe învățarea profundă utilizată pentru viziunea computerizată sau poate NLP. Aș recomanda să începeți cu unii dintre autorii dvs. preferați, fie că sunt cărți sau Mooc-uri, iar apoi lista va crește în mod natural, deoarece veți fi expuși altor persoane interesante prin retweets etc.

doar în cazul în care sunteți interesat, puteți găsi oamenii pe care îi urmăresc aici.

alte resurse utile

lista de mai sus nu este deloc exhaustivă, deoarece Internetul este plin de resurse foarte utile în domeniul științei datelor. Mai jos enumerez câteva resurse suplimentare care nu mi-au făcut top 10, dar sunt, de asemenea, grozave și le folosesc des:

  • KDnuggets
  • AWS mașină de învățare Blog
  • PyImageSearch
  • Explained.ai
  • Visual Capitalist
  • datele sunt frumoase
  • Analytics Vidhya

voi continua să actualizez lista în cazul în care mi-a alunecat ceva în minte sau descopăr ceva nou:)

concluzii

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg