datamodellering er ofte kjernen i datavitenskap. Men datavitenskap er ikke begrenset til modellering alene. Datamodellering er bare 20% av den komplette datavitenskapsrørledningen. For å trekke ut noen ‘verdi’ fra data, må den samles, skrubbet og utforskes, med motivasjon (for å løse et reelt problem) og forretningsdomenekunnskap som tjener som styrende krefter for en datavitenskapsmann.

Metaforisk er datavitenskap som trolldom (for å forutsi) og fradrag (for å sammenligne og tolke). Som en aspirerende datavitenskapsmann vil du ha muligheten til å automatisk forutsi utfall og identifisere tidligere ukjente trender og mønstre i dataene dine.

det er her en datavitenskapsrørledning kommer inn i spill.

Å Forstå ‘hvordan data science pipeline fungerer’ er det første skrittet mot å løse et reelt problem.

her i dette innlegget vil vi diskutere trinnene som er involvert i en datavitenskapsrørledning som du må følge for å bygge et produkt, klar til bruk av sluttbrukere.

  1. Forstå Problemet

enten har du et problem, eller du må definere en problemstilling før du selv begynner å bruke datavitenskap. Du må først definere og forstå problemet du prøver å løse. En praktisk innsikt eller et produkt kan bare være så god som din forståelse av problemet.

en grundig forståelse av domenet eller virksomheten er nødvendig for å dissekere problemet.

modellen du har tenkt å bygge ved slutten av datavitenskapsrørledningen, vil helt avhenge av problemet ved hånden. For ulike krav og mål må du justere algoritmene dine. En one-size-fits-all tilnærming virker ikke.

Eksempel Scenario: Tenk for eksempel at du bygger en anbefalingsmotor for en e-handelsportal. Målet er å anbefale produkter til alle nye besøkende på plattformen. Forretningsmålet er å få en første gangs besøkende til å bruke maksimal tid på plattformen og plassere sin første bestilling. Men hvis du bygger et system for både nye og returnerende besøkende, er det ikke til nytte. Og hvis anbefalingsmotoren ikke klarer å identifisere mønstre i hvordan nye besøkende utforsker forskjellige produkter og legger sin første bestilling, vil det ikke gi noen verdi til bedriftsorganisasjonen. Det er derfor å forstå problemet og domenet er avgjørende for å bygge et nyttig datavitenskapsprodukt.

2. Datainnsamling

Data samles inn basert på din forståelse av problemet. Datainnsamling er en langtekkelig og tidkrevende prosess. Det krever tålmodighet, energi og tid.

med flere data er det mulig å bygge mer robuste modeller.

det er viktig å arbeide med nøyaktige data for å bygge pålitelige modeller. Hvis det er for mange datapunktliggere, selv de mest raffinerte modellene er bestemt til å mislykkes.

Eksempel Scenario: du vil samle datasett knyttet til første gangs besøkende samt viktige hendelser og handlinger. For eksempel vil du spore hvor de klikker eller hvordan de utforsker ulike produkter på plattformen. Hvis du bruker data fra returnerende besøkende, vil du legge til støy i dataene.

Ferdigheter Som Kreves:

Spørring relasjonelle og ikke-relasjonelle databaser: MySQL, PostgresSQL, MongoDB

Distribuert Lagring: Hadoop, Apache Spark

Hente Ustrukturerte Data: tekst, bilder, videoer, lydfiler, dokumenter, excel etc

3. Datarengjøring

denne fasen av datavitenskapsrørledningen krever vanligvis mest tid og krefter. Resultatene og resultatene av en datavitenskapsmodell er bare så gode som dataene du legger inn i den. Skriptspråk som Python og R brukes til datarensing.

de innsamlede dataene blir undersøkt, skrubbet og lagret i en strukturert form. Hovedmålet er å fjerne så mye støy som mulig i denne fasen; domenekunnskap og forståelse av forretningsproblemet bidrar til å identifisere og fjerne utestengere.

dataene som dermed rengjøres, vil bli brukt til utforskende dataanalyse og modellering i de neste trinnene.

Eksempel Scenario: Alle data, som legger til støy og ikke er knyttet til forretningsbehovene, relatert til problemet ved hånden, må fjernes. Når du undersøker dataene, må du identifisere korrupte poster, feil og manglende verdier. Under skrubbing kastes datasett med feil eller manglende verdier, erstattes eller fylles .

Ferdigheter Som Kreves:

Skriptspråk: Python eller R

Data Wrangling Verktøy: Python Pandas, R

4. Utforskende Dataanalyse

Nå som du har rene data tilgjengelig, er det på tide å utforske det!

i denne fasen er målet å trekke ut innsikt og identifisere skjulte mønstre fra dataene og kartlegge dem til virksomheten og det spesifikke problemet som må løses.

som i de foregående trinnene, bidrar en god forståelse av domenet til å styre dataanalyse i retninger der du er mer sannsynlig å oppdage nyttig informasjon og innsikt relatert til dataene.

Eksempel Scenario: I eksemplet diskutert I Trinn 1, basert på din forståelse av sesongmessige trender i e-handel markedet, du kan oppdage at halvparten av første gang besøkende i sommer brukte mer enn tre minutter sjekke kjøleskap.

du trenger praktisk talt å utvikle en følelse for å oppdage rare eller interessante mønstre / trender under utforskende dataanalyse.

Visualiseringsverktøy er nyttige for å trekke ut mønstre gjennom diagrammer og visualiseringer; statistiske testmetoder er nyttige for å trekke ut funksjoner og sikkerhetskopiere funn med grafer og analyser.

basert på analysene kan nye funksjoner opprettes på dette stadiet, om nødvendig.

Ferdigheter Som Kreves:

noen populære visualiseringsbiblioteker som brukes til utforskende dataanalyse, inkluderer Matplotlib, Seaborn, Numpy, Pandas, Scipy i Python og GGplot2 I R

5. Datamodellering

nå er det på tide å løse problemet ved Å bruke Maskinlæring og Dype Læringsalgoritmer. Dette er den mest spennende fasen av hele datavitenskapsrørledningen.

Ulike metoder / algoritmer testes. Metoden som gir best ytelse (når det gjelder prediktiv analyse) er valgt. Modellen er raffinert og evaluert mange ganger over.

modellens prediktive effekt vil avhenge av kvaliteten på funksjonene du bruker.

Eksempel: datamodellen din for anbefalingsmotoren kan forutsi at minst ett element fra en kombinasjon av visse kjøkkenapparater, dagligvarer og pleieprodukter sannsynligvis vil bli kjøpt av en første gangs besøkende.

Scikit-learn (Python) og CARET (R) biblioteker kan brukes til å bygge Maskinlæringsmodeller. Blant De Ulike Dype Læringsrammer som er tilgjengelige i dag, Kan Keras / TensorFlow brukes til å bygge Dype læringsmodeller. Sammenlign rammer i ulike aspekter før du velger en.

6. Distribusjon

nå som modellen er klar, er det på tide å gjøre den tilgjengelig for sluttbrukere.

modellen skal være skalerbar. Når nye data er tilgjengelige, kan modellen revurderes og oppdateres.

Siste Ord

det er viktig at datavitenskapsrørledningen din er solid fra start til slutt. Hvert trinn er viktig.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.

lg