Datové modelování je často jádro data science. Věda o datech se však neomezuje pouze na modelování. Datové modelování je jen 20% kompletního datového vědeckého potrubí. Za účelem získání nějaké „hodnoty“ z údajů, musí být shromažďovány, vymývané, a prozkoumal, s motivací (k řešení reálného světa problému) a obchodní znalosti domény sloužící jako vůdčí síly pro datový vědec.

metaforicky je datová věda jako čarodějnictví (předpovídat) a dedukce(porovnávat a interpretovat). Jako ctižádostivý datový vědec byste chtěli mít schopnost automaticky magicky předpovídat výsledky a identifikovat dříve neznámé trendy a vzorce ve vašich datech.

to je místo, kde Data science potrubí přichází do hry.

pochopení „jak Data science pipeline funguje“ je prvním krokem k řešení problému v reálném světě.

Tady v tomto příspěvku, budeme diskutovat o kroky v data science potrubí, které je třeba dodržovat, aby vytvořit produkt, připravený pro použití koncovými uživateli.

  1. Pochopení Problému

Buď máte nějaký problém, nebo je třeba definovat problém prohlášení ještě předtím, než začnete používat data science. Musíte nejprve definovat a pochopit problém, který se snažíte vyřešit. Žalovatelný vhled nebo produkt může být jen tak dobrý jako vaše pochopení problému.

při rozebírání problému je nutné důkladné pochopení domény nebo firmy.

model, který chcete vytvořit do konce potrubí pro vědu o datech, bude zcela záviset na daném problému. Pro různé požadavky a cíle, budete muset upravit své algoritmy. Univerzální přístup nefunguje.

příklad scénáře: zvažte například, že vytváříte motor doporučení pro Portál elektronického obchodu. Cílem je doporučit produkty všem novým návštěvníkům platformy. Obchodním cílem je přimět prvního návštěvníka, aby strávil maximální čas na platformě a zadal svou první objednávku. Ale pokud postavíte systém pro nové i vracející se návštěvníky, je to k ničemu. A pokud doporučení motor nedokáže identifikovat vzory v tom, jak nové návštěvníky prozkoumat různé produkty a místa jejich první pořadí, bude poskytovat žádnou hodnotu k podnikání organizace. Proto je pochopení problému a domény zásadní pro vytvoření užitečného produktu pro vědu o datech.

2. Sběr dat

Data jsou shromažďována na základě vašeho pochopení problému. Sběr dat je zdlouhavý a časově náročný proces. Vyžaduje trpělivost, energii a čas.

s více daty je možné vytvořit robustnější modely.

je nejdůležitější pracovat na přesných datech, aby bylo možné vytvořit spolehlivé modely. Pokud je příliš mnoho odlehlých hodnot údajů, i ty nejjemnější modely jsou předurčeny k selhání.

příklad scénáře: budete shromažďovat datové soubory týkající se prvních návštěvníků, stejně jako klíčové události a akce. Například budete sledovat, kde kliknou nebo jak prozkoumají různé produkty na platformě. Pokud používáte data vracejících se návštěvníků, přidali byste k datům šum.

Požadované Dovednosti:

Dotazování relační a non-relační databáze: MySQL, Postgresql, MongoDB

Distribuované Úložiště: Hadoop, Apache Spark

Načítání Nestrukturovaných Dat: text, obrázky, videa, audio soubory, dokumenty, excel atd.

3. Čištění dat

tato fáze datového vědeckého potrubí obecně vyžaduje nejvíce času a úsilí. Výsledky a výstup modelu datové vědy jsou pouze tak dobré jako data, která do něj vložíte. Pro čištění dat se používají skriptovací jazyky jako Python a R.

shromážděná data jsou zkoumána, drhnuta a uložena ve strukturované podobě. Klíčovým cílem je odstranit co nejvíce šumu během této fáze; znalosti domény a porozumění obchodnímu problému pomáhají při identifikaci a odstraňování odlehlých hodnot.

takto vyčištěná data budou použita pro průzkumnou analýzu dat a modelování v dalších krocích.

Příklad Scénáře: Všechna data, která přidává hluk a není vázána na obchodní potřeby, vztahující se k problému musí být odstraněny. Při kontrole dat je třeba identifikovat poškozené záznamy, chyby a chybějící hodnoty. Během drhnutí jsou datové sady s chybami nebo chybějícími hodnotami vyhozeny, nahrazeny nebo vyplněny .

Požadované Dovednosti:

Skriptovací jazyk: Python nebo R

Data Hádky Nástroje: Python Pandas, R

4. Průzkumná Analýza dat

Nyní, když máte k dispozici čistá data, je čas to prozkoumat!

během této fáze je cílem získat poznatky a identifikovat skryté vzory z dat a zmapovat je do podnikání a konkrétního problému, který je třeba vyřešit.

stejně jako v předchozích krocích, dobré porozumění doméně pomáhá řídit analýzu dat ve směrech, kde je větší pravděpodobnost, že objevíte užitečné informace a poznatky týkající se dat.

Příklad Scénáře: V příkladu diskutovány v Kroku 1, na základě vašeho pochopení sezónní trendy v oblasti e-commerce trhu, můžete zjistit, že polovina první-time návštěvníků webových stránek během letních období strávil více než tři minuty kontrolu ledničky.

během průzkumné analýzy dat prakticky potřebujete vyvinout smysl pro zjištění podivných nebo zajímavých vzorců / trendů.

Vizualizační nástroje jsou užitečné při vytváření vzorců pomocí grafů a vizualizace; statistické testování metody hodit při získávání funkcí a zálohování zjištění s grafy a analýzy.

na základě analýz lze v této fázi v případě potřeby vytvořit nové funkce.

Požadované Dovednosti:

Některé populární vizualizace knihovny používané pro průzkumné analýzy dat patří Matplotlib, Seaborne, Numpy, Pandas, Scipy v Pythonu a GGplot2 v R

5. Datové modelování

nyní je čas vyřešit problém pomocí algoritmů strojového učení a hlubokého učení. Toto je nejzajímavější fáze celého potrubí pro vědu o datech.

jsou testovány různé metody / algoritmy. Je vybrána metoda, která poskytuje nejlepší výkon (z hlediska prediktivní analýzy). Model je mnohokrát vylepšen a vyhodnocen.

prediktivní výkon vašeho modelu bude záviset na kvalitě použitých funkcí.

příklad scénáře: váš datový model pro motor doporučení může předpovědět, že alespoň jedna položka z kombinace určitých kuchyňských spotřebičů, potravin a produktů pro péči bude pravděpodobně zakoupena prvním návštěvníkem.

Scikit-learn (Python) a CARET (R) knihovny mohou být použity pro vytváření modelů strojového učení. Mezi různými rámce hlubokého učení, které jsou v současné době keras / TensorFlow k dispozici, lze použít pro vytváření modelů hlubokého učení. Porovnejte rámce v různých aspektech, než si vyberete jeden.

6. Nasazení

Nyní, když je model připraven, je čas zpřístupnit jej koncovým uživatelům.

model by měl být škálovatelný. Když jsou k dispozici nová data, model lze přehodnotit a aktualizovat.

závěrečná slova

je důležité, aby vaše data science potrubí je solidní od začátku do konce. Každý krok je důležitý.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

lg