az adatmodellezés gyakran az Adattudomány magja. De az Adattudomány nem korlátozódik csupán a modellezésre. Az adatmodellezés a teljes adattudományi csővezeték mindössze 20% – át teszi ki. Annak érdekében, hogy bármilyen értéket kinyerjünk az adatokból, össze kell gyűjteni, át kell súrolni és fel kell tárni, motivációval (egy valós probléma megoldására) és üzleti domain ismeretekkel, amelyek irányító erőként szolgálnak az adattudósok számára.

átvitt értelemben az Adattudomány olyan, mint a varázslás (jóslás) és a dedukció (összehasonlítás és értelmezés). Mint törekvő adattudós, azt szeretné, hogy képes legyen automatikusan megjósolni az eredményeket, és azonosítani a korábban ismeretlen trendeket és mintákat az adatokban.

itt jön létre az adattudományi csővezeték.

a data science pipeline működésének megértése az első lépés egy valós probléma megoldása felé.

itt ebben a bejegyzésben megvitatjuk az adattudományi csővezeték lépéseit, amelyeket követnie kell egy termék felépítéséhez, készen áll a végfelhasználók számára.

  1. a probléma megértése

vagy problémája van, vagy meg kell határoznia egy problémamegállapítást, mielőtt elkezdené használni az adattudományt. Először meg kell határoznia és meg kell értenie azt a problémát, amelyet meg akar oldani. A cselekvésre képes betekintés vagy egy termék csak annyira jó lehet, mint a probléma megértése.

a probléma boncolásához alaposan meg kell érteni a domaint vagy az üzletet.

az a modell, amelyet az adattudományi csővezeték végére meg kíván építeni, teljes mértékben az adott problémától függ. A különböző követelményekhez és célokhoz módosítani kell az algoritmusokat. Egy kaptafára minden megközelítés nem működik.

példa forgatókönyv: fontolja meg például, hogy egy e-kereskedelmi portál ajánlómotorját építi. A cél az, hogy termékeket ajánljon a platform minden új látogatójának. Az üzleti cél az, hogy az első látogató maximális időt töltsön a platformon, és tegye meg első rendelését. De ha épít egy rendszert mind az új, mind a visszatérő látogatók számára, akkor nincs értelme. És ha az ajánlómotor nem képes azonosítani a mintákat abban, hogy az új látogatók hogyan fedezik fel a különböző termékeket és adják le első rendelésüket, akkor az nem jelent értéket az üzleti szervezet számára. Ez az oka annak, hogy a probléma és a domain megértése elengedhetetlen egy hasznos adattudományi termék felépítéséhez.

2. Adatgyűjtés

az adatok gyűjtése a probléma megértése alapján történik. Az adatgyűjtés fárasztó és időigényes folyamat. Türelmet, energiát és időt igényel.

több adattal robusztusabb modellek készíthetők.

rendkívül fontos, hogy pontos adatokkal dolgozzunk a megbízható modellek felépítése érdekében. Ha túl sok adatpont-kiugró érték van, akkor még a legkifinomultabb modellek is kudarcot vallanak.

példa forgatókönyv: az első látogatókra vonatkozó adatkészleteket, valamint a legfontosabb eseményeket és tevékenységeket gyűjti. Például nyomon követheti, hogy hol kattintanak, vagy hogyan fedezik fel a platformon található különféle termékeket. Ha a visszatérő látogatók adatait használja, akkor zajt ad hozzá az adatokhoz.

szükséges készségek:

relációs és nem relációs adatbázisok lekérdezése: MySQL, PostgresSQL, MongoDB

elosztott Tárolás: Hadoop, Apache Spark

strukturálatlan adatok lekérése: szöveg, képek, videók, hangfájlok, dokumentumok, excel stb

3. Adattisztítás

az adattudományi csővezeték ezen fázisa általában a legtöbb időt és erőfeszítést igényli. Egy adattudományi modell eredményei és kimenetele csak annyira jó, mint a benne lévő adatok. Script nyelvek, mint a Python és R használják adatok tisztítására.

az összegyűjtött adatokat megvizsgálják, átmosják és strukturált formában tárolják. A legfontosabb cél a lehető legtöbb zaj eltávolítása ebben a szakaszban; a domain ismerete és az üzleti probléma megértése segít a kiugró értékek azonosításában és eltávolításában.

az így megtisztított adatokat feltáró adatelemzésre és modellezésre használjuk a következő lépésekben.

példa forgatókönyv: minden olyan adatot el kell távolítani, amely zajt ad, és nem kapcsolódik az üzleti igényekhez. Az adatok vizsgálatakor meg kell határoznia a sérült rekordokat, hibákat és hiányzó értékeket. A súrolás során a hibás vagy hiányzó értékekkel rendelkező adatkészleteket eldobják, kicserélik vagy kitöltik .

szükséges készségek:

szkriptnyelv: Python vagy R

Adatharcoló eszközök: Python pandák, R

4. Feltáró Adatelemzés

most, hogy már tiszta adatok állnak rendelkezésre, itt az ideje, hogy vizsgálja meg!

ebben a szakaszban a cél az, hogy betekintést nyerjen és azonosítsa a rejtett mintákat az adatokból, és feltérképezze őket az üzlethez és a megoldandó konkrét problémához.

az előző lépésekhez hasonlóan a tartomány megfelelő megértése segít az adatelemzés irányításában, ahol nagyobb valószínűséggel talál hasznos információkat és betekintést az adatokkal kapcsolatban.

Példa Forgatókönyv: Az 1. lépésben tárgyalt példában, az e-kereskedelmi piac szezonális trendjeinek megértése alapján, felfedezheti, hogy a nyári időszakban az első webhely-látogatók fele több mint három percet töltött hűtőszekrények ellenőrzésével.

gyakorlatilag ki kell fejlesztenie a furcsa vagy érdekes minták/trendek észlelését a feltáró Adatelemzés során.

a vizualizációs eszközök hasznosak a minták diagramokon és vizualizációkon keresztüli kinyerésében; a statisztikai tesztelési módszerek hasznosak a funkciók kibontásában és a megállapítások grafikonokkal és elemzésekkel történő biztonsági mentésében.

az elemzések alapján ebben a szakaszban szükség esetén új funkciók hozhatók létre.

szükséges készségek:

a feltáró adatok elemzéséhez használt népszerű vizualizációs könyvtárak közé tartozik a Matplotlib, A Seaborn, a Numpy, a Pandas, a Scipy a Pythonban és a GGplot2 az R

5. Adatmodellezés

most itt az ideje, hogy megoldja a problémát Gépi tanulás és mély tanulási algoritmusok használatával. Ez a teljes adattudományi csővezeték legizgalmasabb szakasza.

különböző módszereket/algoritmusokat tesztelnek. A legjobb teljesítményt nyújtó módszer (a prediktív elemzés szempontjából) kerül kiválasztásra. A modellt sokszor finomítják és értékelik.

a modell prediktív teljesítménye a használt funkciók minőségétől függ.

példa: az ajánlómotor adatmodellje megjósolhatja, hogy bizonyos konyhai eszközök, élelmiszerek és ápolószerek kombinációjából legalább egy elemet valószínűleg első látogató vásárol.

a Scikit-learn (Python) és a CARET (R) könyvtárak gépi tanulási modellek építéséhez használhatók. A manapság elérhető különböző mély tanulási keretrendszerek közül a Keras/TensorFlow használható mély tanulási modellek építésére. Hasonlítsa össze a kereteket különböző szempontokból, mielőtt kiválasztana egyet.

6. Telepítés

most, hogy a modell készen áll, itt az ideje, hogy hozzáférhetővé tegye a végfelhasználók számára.

a modellnek méretezhetőnek kell lennie. Ha új adatok állnak rendelkezésre, a modell újraértékelhető és frissíthető.

utolsó szavak

fontos, hogy az adattudományi csővezeték szilárd legyen az elejétől a végéig. Minden lépés fontos.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.

lg