datamodellering är ofta kärnan i datavetenskap. Men datavetenskap är inte begränsat till modellering ensam. Datamodellering är bara 20% av den kompletta datavetenskap pipeline. För att extrahera något ’värde’ från data måste det samlas in, skrubbas och utforskas, med motivation (för att lösa ett verkligt problem) och kunskap om affärsdomän som fungerar som vägledande krafter för en datavetenskapare.

metaforiskt är datavetenskap som trolldom (att förutsäga) och avdrag (att jämföra och tolka). Som en blivande datavetare vill du ha förmågan att automatiskt förutsäga resultat och identifiera tidigare okända trender och mönster i dina data.

det är här en datavetenskapspipeline spelar in.

förstå ’hur data science pipeline fungerar’ är det första steget mot att lösa ett verkligt problem.

här i det här inlägget kommer vi att diskutera stegen i en datavetenskapspipeline som du måste följa för att bygga en produkt, redo att användas av slutanvändare.

  1. förstå problemet

antingen har du ett problem eller du måste definiera ett problem uttalande innan du ens börja använda data science. Du måste först definiera och förstå problemet som du försöker lösa. En handlingsbar insikt eller en produkt kan bara vara så bra som din förståelse av problemet.

en grundlig förståelse av domänen eller verksamheten krävs för att dissekera problemet.

den modell du tänker bygga i slutet av data science pipeline beror helt på det aktuella problemet. För olika krav och mål måste du justera dina algoritmer. En one-size-fits-all-strategi fungerar inte.

Exempelscenario: Tänk till exempel på att du bygger en rekommendationsmotor för en e-handelsportal. Målet är att rekommendera produkter till alla nya besökare på plattformen. Affärsmålet är att få en första gången besökare att spendera maximal tid på plattformen och placera sin första beställning. Men om du bygger ett system för både nya och återkommande besökare, det är till ingen nytta. Och om rekommendationsmotorn inte identifierar mönster i hur nya besökare utforskar olika produkter och lägger sin första order, ger det inget värde för företagsorganisationen. Det är därför att förstå problemet och domänen är avgörande för att bygga en användbar datavetenskapsprodukt.

2. Datainsamling

Data samlas in baserat på din förståelse av problemet. Datainsamling är en tråkig och tidskrävande process. Det kräver tålamod, energi och tid.

med mer data är det möjligt att bygga mer robusta modeller.

det är viktigt att arbeta med exakta data för att bygga pålitliga modeller. Om det finns för många datapunkter, är även de mest raffinerade modellerna avsedda att misslyckas.

exempel Scenario: du kommer att samla in datamängder som hänför sig till första gången besökare samt viktiga händelser och åtgärder. Till exempel kommer du att spåra var de klickar eller hur de utforskar olika produkter på plattformen. Om du använder data från återkommande besökare lägger du till brus i data.

färdigheter som krävs:

fråga Relations-och icke-relationsdatabaser: MySQL, PostgresSQL, MongoDB

distribuerad lagring: Hadoop, Apache Spark

hämta ostrukturerade Data: text, bilder, videor, ljudfiler, dokument, excel etc

3. Data rengöring

denna fas av data science pipeline kräver i allmänhet mest tid och ansträngning. Resultaten och produktionen av en datavetenskapsmodell är bara lika bra som de data du lägger in i den. Skriptspråk som Python och R används för datarengöring.

de insamlade uppgifterna undersöks, skrubbas och lagras i en strukturerad form. Huvudmålet är att ta bort så mycket buller som möjligt under denna fas; domänkunskap och förståelse för affärsproblemet hjälper till att identifiera och ta bort avvikare.

de sålunda rengjorda data kommer att användas för utforskande dataanalys och modellering i nästa steg.

Exempelscenario: Alla data, som lägger till brus och inte är knutna till affärsbehoven, relaterade till det aktuella problemet måste tas bort. När du undersöker data måste du identifiera korrupta poster, fel och saknade värden. Under skrubbning kastas datauppsättningar med fel eller saknade värden, ersätts eller fylls .

färdigheter som krävs:

skriptspråk: Python eller R

Data Wrangling verktyg: Python pandor, R

4. Exploratory data Analysis

nu när du har rena data tillgängliga är det dags att utforska det!

under denna fas är målet att extrahera insikter och identifiera dolda mönster från data och kartlägga dem till verksamheten och det specifika problemet som behöver lösas.

som i föregående steg hjälper en god förståelse av domänen att styra dataanalys i riktningar där du är mer benägna att upptäcka användbar information och insikter relaterade till data.

Exempel Scenario: I det exempel som diskuteras i steg 1, baserat på din förståelse av säsongsbetonade trender på e-handelsmarknaden, kan du upptäcka att hälften av första gången webbplatsbesökare under sommarperioden spenderade mer än tre minuter på att kontrollera kylskåp.

du behöver praktiskt taget utveckla en känsla för att upptäcka konstiga eller intressanta mönster/trender under utforskande dataanalys.

visualiseringsverktyg är användbara för att extrahera mönster genom diagram och visualiseringar; statistiska testmetoder är praktiska för att extrahera funktioner och säkerhetskopiera resultat med grafer och analyser.

baserat på analyserna kan nya funktioner skapas i detta skede, om det behövs.

färdigheter som krävs:

några populära visualiseringsbibliotek som används för utforskande dataanalys inkluderar Matplotlib, Seaborn, Numpy, Pandas, Scipy i Python och GGplot2 i R

5. Datamodellering

nu är det dags att lösa problemet med hjälp av maskininlärning och djupa inlärningsalgoritmer. Detta är den mest spännande fasen av hela Data science pipeline.

olika metoder / algoritmer testas. Den metod som ger bästa prestanda (när det gäller prediktiv analys) väljs. Modellen förfinas och utvärderas många gånger.

din modell prediktiva kraft kommer att bero på kvaliteten på de funktioner som du använder.

Exempelscenario: din datamodell för rekommendationsmotorn kan förutsäga att minst ett objekt från en kombination av vissa köksapparater, matvaror och groomingprodukter sannolikt kommer att köpas av en förstagångsbesökare.

Scikit-learn (Python) och CARET (r) bibliotek kan användas för att bygga maskininlärningsmodeller. Bland de olika Djupinlärningsramarna som finns idag kan Keras/TensorFlow användas för att bygga djupa inlärningsmodeller. Jämför ramar i olika aspekter innan du väljer en.

6. Distribution

nu när modellen är klar är det dags att göra den tillgänglig för slutanvändare.

modellen ska vara skalbar. När nya data finns tillgängliga kan modellen omvärderas och uppdateras.

Slutord

det är viktigt att din datavetenskap pipeline är solid från början till slut. Varje steg är viktigt.

Lämna ett svar

Din e-postadress kommer inte publiceras.

lg