datamodellering er ofte kernen i datalogi. Men datalogi er ikke begrænset til modellering alene. Datamodellering er kun 20% af den komplette datavidenskabelige pipeline. For at udtrække enhver ‘værdi’ fra data skal den indsamles, skrubbes og udforskes med motivation (for at løse et problem i den virkelige verden) og viden om forretningsdomæne, der tjener som vejledende kræfter for en dataforsker.

metaforisk er datavidenskab som troldmand (at forudsige) og deduktion (at sammenligne og fortolke). Som en håbefuld dataforsker vil du gerne have evnen til automatisk at forudsige resultater og identificere tidligere ukendte tendenser og mønstre i dine data.

det er her en datavidenskabelig pipeline kommer i spil.

at forstå ‘hvordan data science pipeline fungerer’ er det første skridt mod at løse et problem i den virkelige verden.

her i dette indlæg vil vi diskutere de trin, der er involveret i en datavidenskabelig pipeline, som du skal følge for at opbygge et produkt, klar til brug af slutbrugere.

  1. forståelse af problemet

enten har du et problem, eller du skal definere en problemstilling, før du selv begynder at bruge datavidenskab. Du skal først definere og forstå det problem, du forsøger at løse. En handlingsmæssig indsigt eller et produkt kan kun være så godt som din forståelse af problemet.

en grundig forståelse af domænet eller virksomheden er nødvendig for at dissekere problemet.

den model, du har til hensigt at bygge ved udgangen af data science pipeline, afhænger helt af det aktuelle problem. For forskellige krav og mål skal du justere dine algoritmer. En tilgang, der passer til alle, fungerer ikke.

eksempel Scenario: Overvej for eksempel at du bygger en anbefalingsmotor til en e-handelsportal. Målet er at anbefale produkter til alle nye besøgende på platformen. Forretningsmålet er at få en første gangs besøgende til at bruge maksimal tid på platformen og placere sin første ordre. Men hvis du bygger et system til både nye og tilbagevendende besøgende, er det til ingen nytte. Og hvis anbefalingsmotoren ikke identificerer mønstre i, hvordan nye besøgende udforsker forskellige produkter og placerer deres første ordre, giver det ingen værdi for forretningsorganisationen. Dette er grunden til at forstå problemet og domænet er afgørende for at opbygge et nyttigt datavidenskabeligt produkt.

2. Dataindsamling

Data indsamles ud fra din forståelse af problemet. Dataindsamling er en kedelig og tidskrævende proces. Det kræver tålmodighed, energi og tid.

med flere data er det muligt at bygge mere robuste modeller.

det er afgørende at arbejde på nøjagtige data for at opbygge pålidelige modeller. Hvis der er for mange data-point outliers, er selv de mest raffinerede modeller bestemt til at mislykkes.

eksempel Scenario: du vil indsamle datasæt vedrørende førstegangsbesøgende samt vigtige begivenheder og handlinger. For eksempel vil du spore, hvor de klikker, eller hvordan de udforsker forskellige produkter på platformen. Hvis du bruger data for tilbagevendende besøgende, vil du tilføje støj til dataene.

nødvendige færdigheder:

forespørgsel på relationelle og ikke-relationelle databaser: MongoDB

distribueret opbevaring: Hadoop, Apache Spark

hentning af ustrukturerede Data: tekst, billeder, videoer, lydfiler, dokumenter, udmærke osv

3. Data Rengøring

denne fase af data science pipeline kræver generelt mest tid og kræfter. Resultaterne og output af en datavidenskabsmodel er kun så gode som de data, du lægger i den. Scripting sprog som Python og R bruges til data rengøring.

de indsamlede data undersøges, skrubbes og opbevares i en struktureret form. Hovedformålet er at fjerne så meget støj som muligt i denne fase; domænekendskab og forståelse af forretningsproblemet hjælper med at identificere og fjerne outliers.

de således rensede data vil blive brugt til sonderende dataanalyse og modellering i de næste trin.

Eksempelscenarie: alle data, der tilføjer støj og ikke er bundet til forretningsbehovene, relateret til det aktuelle problem skal fjernes. Når du undersøger dataene, skal du identificere korrupte poster, fejl og manglende værdier. Under skrubning smides datasæt med fejl eller manglende værdier væk, udskiftes eller udfyldes .

færdigheder, der kræves:

Scripting sprog: Python eller R

data tovtrækkeri værktøjer: Python pandaer, R

4. Sonderende dataanalyse

nu hvor du har rene data tilgængelige, er det tid til at udforske det!

i denne fase er målet at udtrække indsigt og identificere skjulte mønstre fra dataene og kortlægge dem til virksomheden og det specifikke problem, der skal løses.

som i de foregående trin hjælper en god forståelse af domænet med at styre dataanalyse i retninger, hvor du er mere tilbøjelige til at opdage nyttige oplysninger og indsigter relateret til dataene.

Eksempel Scenario: I eksemplet diskuteret i Trin 1, baseret på din forståelse af årstidens tendenser i e-handels-markedet, du kan opdage, at halvdelen af de første gang besøgende i sommerperioden brugt mere end tre minutter kontrol køleskabe.

du har praktisk talt brug for at udvikle en sans for at få øje på underlige eller interessante mønstre/tendenser under sonderende dataanalyse.

visualiseringsværktøjer er nyttige til at udtrække mønstre gennem diagrammer og visualiseringer; statistiske testmetoder er nyttige til at udtrække funktioner og sikkerhedskopiere fund med grafer og analyser.

baseret på analyserne kan der oprettes nye funktioner på dette stadium, hvis det kræves.

nødvendige færdigheder:

nogle populære visualiseringsbiblioteker, der bruges til sonderende dataanalyse, inkluderer Matplotlib, Seaborn, Numpy, Pandas, Scipy i Python og GGplot2 i R

5. Datamodellering

nu er det tid til at løse problemet ved hjælp af maskinlæring og dyb læringsalgoritmer. Dette er den mest spændende fase af hele data science pipeline.

forskellige metoder/algoritmer testes. Den metode, der leverer den bedste ydelse (med hensyn til forudsigelig analyse) er valgt. Modellen er raffineret og evalueret mange gange.

din models forudsigelige effekt afhænger af kvaliteten af de funktioner, du bruger.

eksempel Scenario: din datamodel for anbefalingsmotoren kan forudsige, at mindst en vare fra en kombination af visse køkkenapparater, dagligvarer og plejeprodukter sandsynligvis vil blive købt af en førstegangsbesøgende.

Scikit-learn (Python) og CARET (R) biblioteker kan bruges til at bygge Machine Learning modeller. Blandt de forskellige dybe Læringsrammer, der er tilgængelige i dag, kan Keras/Tensorstrøm bruges til at opbygge dybe læringsmodeller. Sammenlign rammer i forskellige aspekter, før du vælger en.

6. Implementering

nu hvor modellen er klar, er det tid til at gøre den tilgængelig for slutbrugere.

modellen skal være skalerbar. Når nye data er tilgængelige, kan Modellen revurderes og opdateres.

afsluttende ord

det er vigtigt, at din datavidenskabelige pipeline er solid fra start til slut. Hvert trin er vigtigt.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

lg