Datamallinnus on usein datatieteen ydintä. Mutta, data science ei rajoitu mallinnus yksin. Data mallinnus on vain 20% koko data science putki. Jotta voidaan poimia mitään ”arvo” datasta, se on kerättävä, kuurata, ja tutkia, motivaatiota (ratkaista reaalimaailman ongelma) ja liiketoiminta-alueen tuntemus toimii ohjaavina voimina data scientist.

metaforisesti datatiede on kuin taikuus (ennustaminen) ja deduktio (vertailu ja tulkinta). Koska pyrkivä data scientist, haluat olla kyky automaattisesti maagisesti ennustaa tuloksia ja tunnistaa aiemmin tuntemattomia suuntauksia ja malleja tietosi.

tähän astuu datatieteen putki.

”how the data science pipeline works” – teoksen ymmärtäminen on ensimmäinen askel kohti reaalimaailman ongelman ratkaisemista.

tässä viestissä käsitellään vaiheita, jotka liittyvät datatiedeputkeen, jota sinun on noudatettava rakentaaksesi tuotteen, joka on valmis loppukäyttäjien käyttöön.

  1. ongelman ymmärtäminen

joko sinulla on ongelma tai sinun täytyy määritellä ongelmalauseke ennen kuin edes aloitat datatieteen käytön. Sinun täytyy ensin määritellä ja ymmärtää ongelma, että olet yrittää ratkaista. Toimiva oivallus tai tuote voi olla vain yhtä hyvä kuin ymmärryksesi ongelmasta.

ongelman purkamisessa vaaditaan perusteellista perehtymistä toimialaan tai liiketoimintaan.

malli, jonka aiotte rakentaa datatiedeputken loppuun mennessä, riippuu täysin käsillä olevasta ongelmasta. Erilaisia vaatimuksia ja tavoitteita varten, sinun täytyy säätää algoritmeja. Yhden koon lähestymistapa ei toimi.

Esimerkkiskenaario: harkitse esimerkiksi, että rakennat suositusmoottoria verkkokauppaportaaliin. Tavoitteena on suositella tuotteita kaikille alustan uusille kävijöille. Liiketoiminnan tavoitteena on saada Ensikertalainen viettämään mahdollisimman paljon aikaa lavalla ja tekemään ensimmäinen tilaus. Mutta jos rakennat järjestelmän sekä uusille että palaaville kävijöille, siitä ei ole mitään hyötyä. Ja jos suositusmoottori ei tunnista malleja siitä, miten uudet kävijät tutkivat eri tuotteita ja tekevät ensimmäisen tilauksen, se ei anna mitään arvoa yrityksen organisaatiolle. Siksi ongelman ja verkkotunnuksen ymmärtäminen on ratkaisevan tärkeää hyödyllisen datatieteellisen tuotteen rakentamisessa.

2. Tiedonkeruu

tietoja kerätään sen mukaan, miten itse ymmärtää ongelman. Tiedonkeruu on työläs ja aikaa vievä prosessi. Se vaatii kärsivällisyyttä, energiaa ja aikaa.

suuremmilla tiedoilla on mahdollista rakentaa järeämpiä malleja.

on ensiarvoisen tärkeää työstää tarkkoja tietoja luotettavien mallien rakentamiseksi. Jos datapisteitä on liikaa, hienostuneimmatkin mallit kaatuvat.

Esimerkkiskenaario: keräämme ensikertalaisia sekä avaintapahtumia ja-toimia koskevia tietoja. Voit esimerkiksi seurata, missä he klikkaavat tai miten he tutkivat erilaisia tuotteita alustalla. Jos käytät tietoja palaavista kävijöistä, lisäät melua tietoihin.

vaadittavat taidot:

relaatio-ja ei-relaatiotietokannat: MySQL, PostgresSQL, MongoDB

hajautettu tallennustila: Hadoop, Apache Spark

jäsentämättömien tietojen haku: Teksti, Kuvat, videot, äänitiedostot, asiakirjat, excel jne

3. Tietojen puhdistus

tämä datatieteen putken vaihe vaatii yleensä eniten aikaa ja vaivaa. Datatieteellisen mallin tulokset ja tuotos ovat vain yhtä hyviä kuin siihen laitettu data. Skriptauskieliä, kuten Pythonia ja R: ää käytetään tietojen puhdistamiseen.

kerätyt tiedot tutkitaan, hankataan ja tallennetaan jäsenneltyyn muotoon. Keskeisenä tavoitteena on poistaa mahdollisimman paljon melua tämän vaiheen aikana; toimialueen tuntemus ja ymmärrys liiketoiminnan ongelmasta auttavat tunnistamaan ja poistamaan poikkeavia tekijöitä.

näin puhdistettua dataa käytetään seuraavissa vaiheissa eksploratiiviseen data-analyysiin ja mallinnukseen.

Esimerkkiskenaario: kaikki käsillä olevaan ongelmaan liittyvä data, joka lisää melua eikä ole sidottu liiketoiminnan tarpeisiin, on poistettava. Kun tutkit tietoja, sinun täytyy tunnistaa korruptoituneet tietueet, virheet ja puuttuvat arvot. Pesun aikana tietokokonaisuudet, joissa on virheitä tai puuttuvia arvoja, heitetään pois, vaihdetaan tai täytetään .

vaadittavat taidot:

skriptauskieli: Python tai R

tietojen Vääntelytyökalut: Python Pandas, R

4. Eksploratiivinen Data-analyysi

nyt kun puhdasta dataa on saatavilla, on aika tutkia sitä!

tämän vaiheen aikana tavoitteena on poimia tiedoista oivalluksia ja tunnistaa piilotetut kuviot sekä kartoittaa ne liiketoimintaan ja ratkaistavaan erityisongelmaan.

kuten edellisissäkin vaiheissa, toimialueen hyvä tuntemus auttaa ohjaamaan data-analyysiä suuntiin, joissa on todennäköisempää löytää aineistoon liittyvää hyödyllistä tietoa ja oivalluksia.

Esimerkkiskenaario: Vaiheessa 1 käsitellyssä esimerkissä, joka perustuu ymmärrykseesi verkkokauppamarkkinoiden kausittaisista trendeistä, saatat huomata, että puolet ensikertalaisista verkkosivustojen kävijöistä vietti kesäkaudella yli kolme minuuttia jääkaappien tarkistamiseen.

eksploratiivisessa data-analyysissä täytyy käytännössä kehittää aistia, jotta voi havaita outoja tai mielenkiintoisia kuvioita/trendejä.

visualisointityökalut ovat hyödyllisiä kaavioiden erottamisessa kaavioiden ja visualisointien avulla; tilastolliset testausmenetelmät ovat käteviä ominaisuuksien erottamisessa ja löydösten varmuuskopioinnissa graafien ja analyysien avulla.

analyysien perusteella voidaan tässä vaiheessa tarvittaessa luoda uusia ominaisuuksia.

vaadittavat taidot:

joitakin suosittuja eksploratiiviseen tiedon analysointiin käytettyjä visualisointikirjastoja ovat Matplotlib, Seaborn, Numpy, Pandas, Scipy Pythonissa ja GGplot2 R

5. Data Modeling

nyt on aika ratkaista ongelma koneoppimisen ja syväoppimisen algoritmien avulla. Tämä on koko datatieteen putken jännittävin vaihe.

testataan erilaisia menetelmiä/algoritmeja. Valitaan menetelmä, joka tuottaa parhaan suorituskyvyn (ennakoivan analytiikan kannalta). Mallia hiotaan ja arvioidaan moneen kertaan.

mallisi ennustevoima riippuu käyttämiesi ominaisuuksien laadusta.

Esimerkkiskenaario: suositusmoottorin tietomallisi voi ennustaa, että Ensikertalainen todennäköisesti ostaa ainakin yhden tuotteen tiettyjen keittiölaitteiden, päivittäistavaroiden ja hoitotuotteiden yhdistelmästä.

Scikit-learn (Python) – ja CARET (R) – kirjastoja voidaan käyttää Koneoppimismallien rakentamiseen. Nykyisin käytettävissä olevista syväoppimisen puitteista Keras/TensorFlow: ta voidaan käyttää syväoppimisen mallien rakentamiseen. Vertaa puitteita eri osa-alueilla ennen kuin valitset yhden.

6. Käyttöönotto

nyt kun malli on valmis, on aika saattaa se loppukäyttäjien käyttöön.

mallin tulee olla skaalautuva. Kun uutta tietoa on saatavilla, Malli voidaan arvioida uudelleen ja päivittää.

Loppusanat

on tärkeää, että datatiedeputkesi on vankka alusta loppuun. Jokainen askel on tärkeä.

Vastaa

Sähköpostiosoitettasi ei julkaista.

lg