datamodellering is vaak de kern van data science. Maar data science is niet beperkt tot modelleren alleen. Datamodellering is slechts 20% van de volledige data science pijplijn. Om elke ‘waarde’ uit data te halen, moet het worden verzameld, geschrobd en onderzocht, met motivatie (om een real-world probleem op te lossen) en business domain knowledge dienen als leidende krachten voor een data scientist.Metaforisch is datawetenschap als tovenarij (voorspellen) en deductie (vergelijken en interpreteren). Als een aspirant Data scientist, je zou willen de mogelijkheid om auto-magisch te voorspellen resultaten en eerder onbekende trends en patronen in uw gegevens te identificeren.

Dit is waar een data science pipeline in het spel komt.

begrijpen hoe de data science pipeline werkt is de eerste stap naar het oplossen van een reëel probleem.

hier in dit bericht zullen we de stappen bespreken die betrokken zijn bij een data science pipeline die u moet volgen om een product te bouwen dat klaar is voor gebruik door eindgebruikers.

  1. het probleem begrijpen

u hebt een probleem of u moet een probleemstelling definiëren voordat u data science gaat gebruiken. Je moet eerst het probleem definiëren en begrijpen dat je probeert op te lossen. Een bruikbaar inzicht of een product kan slechts zo goed zijn als uw begrip van het probleem.

een grondige kennis van het domein of bedrijf is vereist om het probleem te ontleden.

het model dat u wilt bouwen aan het einde van de data science pijplijn zal volledig afhangen van het probleem. Voor verschillende vereisten en doelstellingen moet je je algoritmen aanpassen. Een one-size-fits-all aanpak werkt niet.

voorbeeld Scenario: bedenk bijvoorbeeld dat u een aanbevelingsengine aan het bouwen bent voor een e-commerce portal. Het doel is om producten aan te bevelen aan alle nieuwe bezoekers op het platform. Het zakelijke doel is om een eerste bezoeker te krijgen om maximale tijd door te brengen op het platform en plaats haar eerste bestelling. Maar als je een systeem bouwt voor zowel nieuwe als terugkerende bezoekers, heeft het geen zin. En als de recommendation engine er niet in slaagt om patronen te identificeren in hoe nieuwe bezoekers verschillende producten verkennen en hun eerste bestelling plaatsen, zal het geen waarde bieden aan de bedrijfsorganisatie. Dit is de reden waarom het begrijpen van het probleem en het domein is cruciaal voor het bouwen van een nuttig data science product.

2. Gegevensverzameling

gegevens worden verzameld op basis van uw begrip van het probleem. Het verzamelen van gegevens is een vervelend en tijdrovend proces. Het vraagt geduld, energie en tijd.

met meer gegevens is het mogelijk om robuustere modellen te bouwen.

het is van het grootste belang om te werken aan nauwkeurige gegevens om betrouwbare modellen te bouwen. Als er te veel data-point uitschieters, zelfs de meest verfijnde modellen zijn voorbestemd om te mislukken.

voorbeeld Scenario: U zult datasets verzamelen met betrekking tot bezoekers die voor het eerst komen en belangrijke gebeurtenissen en acties. Bijvoorbeeld, u zult bijhouden waar ze klikken of hoe ze verkennen verschillende producten op het platform. Als u gegevens van terugkerende bezoekers gebruikt, voegt u ruis toe aan de gegevens.

vereiste vaardigheden:

relationele en niet-relationele databases opvragen: MySQL, PostgresSQL, MongoDB

gedistribueerde opslag: Hadoop, Apache Spark

ongestructureerde gegevens ophalen: tekst, afbeeldingen, video ‘ s, audiobestanden, documenten, excel etc

3. Gegevensreiniging

deze fase van de data science-pijplijn vergt over het algemeen de meeste tijd en moeite. De resultaten en output van een data science model zijn slechts zo goed als de data die je erin stopt. Scripttalen zoals Python en R worden gebruikt voor het opschonen van gegevens.

de verzamelde gegevens worden in een gestructureerde vorm onderzocht, gewist en opgeslagen. De belangrijkste doelstelling is om in deze fase zoveel mogelijk lawaai te verwijderen; domeinkennis en inzicht in het bedrijfsprobleem helpen bij het identificeren en verwijderen van uitschieters.

de aldus opgeschoond gegevens zullen worden gebruikt voor verkennende gegevensanalyse en modellering in de volgende stappen.

voorbeeld Scenario: alle gegevens, die ruis toevoegen en niet gebonden zijn aan de zakelijke behoeften, gerelateerd aan het probleem bij de hand, moeten worden verwijderd. Wanneer u de gegevens onderzoekt, moet u corrupte records, fouten en ontbrekende waarden identificeren. Tijdens het scrubben worden datasets met fouten of ontbrekende waarden weggegooid, vervangen of gevuld .

vereiste vaardigheden:

scripttaal: Python of R

hulpmiddelen voor gegevensbeheer: Python Panda ‘ S, R

4. Verkennende Data analyse

Nu u schone data beschikbaar hebt, is het tijd om het te verkennen!

tijdens deze fase is het doel inzichten uit de gegevens te halen en verborgen patronen te identificeren en deze in kaart te brengen met het bedrijf en het specifieke probleem dat moet worden opgelost.

net als in de vorige stappen helpt een goed begrip van het domein de gegevensanalyse te sturen in richtingen waar u meer kans hebt om nuttige informatie en inzichten met betrekking tot de gegevens te ontdekken.

Voorbeeldscenario: In het voorbeeld besproken in Stap 1, op basis van uw begrip van seizoensgebonden trends in de e-commerce markt, kunt u ontdekken dat de helft van de eerste bezoekers van de website tijdens de zomerperiode besteed meer dan drie minuten het controleren van koelkasten.

u moet praktisch een gevoel ontwikkelen om vreemde of interessante patronen/trends te herkennen tijdens verkennende data-analyse.

visualisatietools zijn nuttig bij het extraheren van patronen via grafieken en visualisaties; statistische testmethoden zijn handig bij het extraheren van functies en het back-uppen van bevindingen met grafieken en analyses.

op basis van de analyses kunnen in dit stadium, indien nodig, nieuwe functies worden gecreëerd.

vereiste vaardigheden:

enkele populaire visualisatiebibliotheken die gebruikt worden voor verkennende gegevensanalyse zijn Matplotlib, Seaborn, Numpy, Panda ‘ s, Scipy in Python en GGplot2 in R

5. Data Modeling

nu is het tijd om het probleem op te lossen met behulp van machine Learning en Deep Learning algoritmen. Dit is de meest opwindende fase van de hele data science pijplijn.

verschillende methoden / algoritmen worden getest. De methode die de beste prestaties levert (in termen van predictive analytics) wordt geselecteerd. Het model wordt vele malen verfijnd en geëvalueerd.

het voorspellende vermogen van uw model hangt af van de kwaliteit van de functies die u gebruikt.

voorbeeld Scenario: uw datamodel voor de aanbevelingsmotor kan voorspellen dat ten minste één item uit een combinatie van bepaalde keukenapparatuur, boodschappen en verzorgingsproducten waarschijnlijk wordt gekocht door een eerste bezoeker.

scikit-learn (Python) en CARET (R) bibliotheken kunnen worden gebruikt voor het bouwen van Machine Learning modellen. Onder de verschillende Deep Learning frameworks die tegenwoordig beschikbaar zijn, kan Keras/TensorFlow worden gebruikt voor het bouwen van Deep Learning modellen. Vergelijk frameworks in verschillende aspecten voordat je er een kiest.

6. Implementatie

nu het model klaar is, is het tijd om het toegankelijk te maken voor eindgebruikers.

het model moet schaalbaar zijn. Wanneer nieuwe gegevens beschikbaar zijn, kan het model opnieuw worden geëvalueerd en bijgewerkt.

Laatste Woorden

het is belangrijk dat uw data science pijplijn solide is van begin tot eind. Elke stap is belangrijk.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

lg