modelarea datelor este adesea nucleul științei datelor. Dar, știința datelor nu se limitează doar la modelare. Modelarea datelor este doar 20% din conducta completă a științei datelor. Pentru a extrage orice valoare din date, aceasta trebuie colectată, curățată și explorată, cu motivație (pentru a rezolva o problemă din lumea reală) și cunoștințe din domeniul afacerilor care servesc drept forțe directoare pentru un om de știință de date.

metaforic, știința datelor este ca vrăjitoria (a prezice) și deducerea (a compara și interpreta). În calitate de om de știință aspirant la date, ați dori să aveți capacitatea de a prezice automat rezultatele și de a identifica tendințele și modelele necunoscute anterior în datele dvs.

aici intră în joc o conductă de știință a datelor.

înțelegerea modului în care funcționează conducta științei datelor este primul pas spre rezolvarea unei probleme din lumea reală.

aici, în acest post, vom discuta pașii implicați într-o conductă de știință a datelor pe care trebuie să o urmați pentru a construi un produs, gata de utilizare de către utilizatorii finali.

  1. înțelegerea problemei

fie aveți o problemă, fie trebuie să definiți o declarație de problemă înainte de a începe chiar să utilizați știința datelor. Trebuie mai întâi să definiți și să înțelegeți problema pe care încercați să o rezolvați. O înțelegere acționabilă sau un produs poate fi la fel de bună ca înțelegerea problemei.

este necesară o înțelegere aprofundată a domeniului sau a afacerii în disecția problemei.

modelul pe care intenționați să-l construiți până la sfârșitul conductei data science va depinde complet de problema la îndemână. Pentru diferite cerințe și obiective, va trebui să vă ajustați algoritmii. O abordare unică nu funcționează.

exemplu de scenariu: luați în considerare, de exemplu, că construiți un motor de recomandare pentru un portal de comerț electronic. Obiectivul este de a recomanda produse tuturor vizitatorilor noi de pe platformă. Scopul afacerii este de a determina un vizitator pentru prima dată să petreacă timp maxim pe platformă și să plaseze prima comandă. Dar dacă construiți un sistem atât pentru vizitatorii noi, cât și pentru cei care se întorc, nu este de nici un folos. Și dacă motorul de recomandare nu reușește să identifice modele în modul în care vizitatorii noi explorează diferite produse și plasează prima comandă, nu va oferi nicio valoare organizației de afaceri. Acesta este motivul pentru care înțelegerea problemei și a domeniului este crucială pentru construirea unui produs util pentru știința datelor.

2. Colectarea datelor

datele sunt colectate pe baza înțelegerii problemei. Colectarea datelor este un proces obositor și consumator de timp. Necesită răbdare, energie și timp.

cu mai multe date, este posibil să se construiască modele mai robuste.

este extrem de important să lucrăm la date exacte pentru a construi modele fiabile. Dacă există prea multe valori aberante, chiar și cele mai rafinate modele sunt destinate eșecului.

exemplu de scenariu: veți colecta seturi de date referitoare la vizitatorii pentru prima dată, precum și evenimente și acțiuni cheie. De exemplu, veți urmări unde fac clic sau cum explorează diverse produse pe platformă. Dacă utilizați datele vizitatorilor care se întorc, ați adăuga zgomot la date.

aptitudini necesare:

interogarea bazelor de date relaționale și non-relaționale: MySQL, PostgresSQL, MongoDB

stocare distribuită: Hadoop, Apache Spark

preluarea datelor nestructurate: text, imagini, videoclipuri, fișiere audio, documente, excel etc

3. Curățarea datelor

această fază a conductei data science necesită, în general, cel mai mult timp și efort. Rezultatele și rezultatele unui model de știință a datelor sunt la fel de bune ca datele pe care le puneți în el. Limbaje de Scripting precum Python și R sunt utilizate pentru curățarea datelor.

datele colectate sunt examinate, curățate și stocate într-o formă structurată. Obiectivul cheie este de a elimina cât mai mult zgomot posibil în această fază; Cunoașterea domeniului și înțelegerea problemei de afaceri ajută la identificarea și eliminarea valorilor aberante.

datele astfel curățate vor fi utilizate pentru analiza și modelarea datelor exploratorii în pașii următori.

exemplu scenariu: toate datele, care adaugă zgomot și nu este legat de nevoile de afaceri, legate de problema la îndemână trebuie să fie eliminate. Când examinați datele, trebuie să identificați înregistrările corupte, erorile și valorile lipsă. În timpul spălării, seturile de date cu erori sau valori lipsă sunt aruncate, înlocuite sau completate .

abilități necesare:

limbaj de Scripting: Python sau R

instrumente de luptă a datelor: Panda Python, R

4. Analiza datelor exploratorii

acum că aveți date curate disponibile, este timpul să le explorați!

în această fază, scopul este de a extrage informații și de a identifica tiparele ascunse din date și de a le cartografia către afacere și problema specifică care trebuie rezolvată.

ca și în etapele anterioare, o bună înțelegere a domeniului ajută la direcționarea analizei datelor în direcții în care este mai probabil să descoperiți informații utile și informații legate de date.

Exemplu De Scenariu: În exemplul discutat la Pasul 1, pe baza înțelegerii tendințelor sezoniere pe piața comerțului electronic, puteți descoperi că jumătate dintre vizitatorii site-ului pentru prima dată în perioada de vară au petrecut mai mult de trei minute verificând frigiderele.

practic trebuie să dezvolți un simț pentru a observa modele/tendințe ciudate sau interesante în timpul analizei datelor exploratorii.

instrumentele de vizualizare sunt utile în extragerea modelelor prin diagrame și vizualizări; metodele de testare statistică sunt utile în extragerea caracteristicilor și copierea de rezervă a constatărilor cu grafice și analize.

pe baza analizelor, noi caracteristici pot fi create în această etapă, dacă este necesar.

abilități necesare:

unele biblioteci populare de vizualizare utilizate pentru analiza datelor exploratorii includ Matplotlib, Seaborn, Numpy, Panda, Scipy în Python și GGplot2 în R

5. Modelarea datelor

acum, este timpul să rezolvăm problema folosind algoritmi de învățare automată și de învățare profundă. Aceasta este cea mai interesantă fază a întregii conducte de știință a datelor.

sunt testate diferite metode/algoritmi. Este selectată metoda care oferă cea mai bună performanță (în ceea ce privește analizele predictive). Modelul este rafinat și evaluat de mai multe ori.

puterea predictivă a modelului dvs. va depinde de calitatea caracteristicilor pe care le utilizați.

exemplu de scenariu: modelul dvs. de date pentru motorul de recomandare poate prezice că cel puțin un articol dintr-o combinație de anumite aparate de bucătărie, alimente și produse de îngrijire este probabil să fie achiziționat de un vizitator pentru prima dată.

bibliotecile Scikit-learn (Python) și CARET (R) pot fi utilizate pentru construirea modelelor de învățare automată. Printre diferitele cadre de învățare profundă disponibile în zilele noastre, Keras/TensorFlow poate fi utilizat pentru construirea de modele de învățare profundă. Comparați cadrele în diferite aspecte înainte de a alege unul.

6. Implementare

acum că modelul este gata, este timpul să îl facem accesibil utilizatorilor finali.

modelul trebuie să fie scalabil. Când sunt disponibile date noi, modelul poate fi reevaluat și actualizat.

cuvinte finale

este important ca conducta dvs. de știință a datelor să fie solidă de la început până la sfârșit. Fiecare pas este important.

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg