není pochyb o Tom, že věda údaje témata a oblasti jsou některé z nejžhavějších obchodních místech dnes.

cílem nejen datových analytiků a specialistů na business intelligence je rozvíjet své datové dovednosti a znalosti, ale také obchodníky, manažery na úrovni C, finančníky atd.
Data world je široká oblast, která pokrývá matematická a statistická témata pro vědu o datech a dolování dat, strojové učení, umělou inteligenci, neuronové sítě atd.

na této stránce jsme shromáždili několik základních a pokročilých témat v oblasti vědy o datech, abychom vám poskytli nápady, kde zvládnout své dovednosti.

navíc jsou to horké předměty, které můžete použít jako pokyny k přípravě na otázky týkající se pohovoru o vědě o datech.

 Data Science témata-infographic

1. Jádro procesu dolování dat

Toto je příklad širokého tématu datové vědy.

co je to?

dolování dat je iterativní proces, který zahrnuje objevování vzorů ve velkých datových sadách. Zahrnuje metody a techniky, jako je strojové učení, statistika, databázové systémy atd.

dva hlavní cíle dolování dat jsou zjistit vzorce a stanovit trendy a vztahy v datovém souboru za účelem řešení problémů.

obecné fáze procesu dolování dat jsou: definice problému, průzkum dat, příprava dat, modelování, hodnocení a nasazení.

základní pojmy týkající se dolování dat jsou klasifikace, předpovědi, asociační pravidla, redukce dat, průzkum dat, učení pod dohledem a bez dozoru, organizace datových souborů, vzorkování z datových souborů, budování modelu atd.

2. Vizualizace dat

co to je?

vizualizace dat je prezentace dat v grafickém formátu.

umožňuje tvůrcům rozhodnutí na všech úrovních vidět data a analytiku prezentovanou vizuálně, aby mohli identifikovat cenné vzory nebo trendy.

vizualizace Dat je další široké téma, které zahrnuje pochopení a použití, základní typy grafů (například linka grafy, sloupcové grafy, bodový grafy, histogramy, box a chlup spiknutí, heatmaps.

bez těchto grafů nemůžete jít. Kromě toho se zde musíte dozvědět o vícerozměrných proměnných s přidáním proměnných a pomocí barev, velikosti, tvarů, animací.

zde také hraje roli manipulace. Měli byste být schopni rascal, zoom, filtr, agregovat data.

použití některých specializovaných vizualizací, jako jsou mapové mapy a stromové mapy, je také horkou dovedností.

3. Metody a techniky redukce rozměrů

co to je?

proces redukce rozměrů zahrnuje převod datové sady s obrovskými rozměry na datovou sadu s menšími rozměry, která zajišťuje, že ve zkratce poskytuje podobné informace.

jinými slovy, redukce dimenzionality sestává z řady technik a metod ve strojovém učení a statistice ke snížení počtu náhodných proměnných.

existuje tolik metod a technik pro provedení redukce rozměrů.

nejpopulárnější z nich jsou Chybějící Hodnoty, Nízký Rozptyl, Rozhodovací Stromy, Náhodný Les, Vysoká Korelace, faktorová Analýza, Analýza Hlavních Komponent, Dozadu Funkce Eliminace.

4. Klasifikace

co to je?

klasifikace je základní technika dolování dat pro přiřazení kategorií k sadě dat.

účelem je podpořit shromažďování přesných analýz a předpovědí z dat.

klasifikace je jednou z klíčových metod pro efektivní analýzu velkého množství datových souborů.

klasifikace je také jedním z nejžhavějších témat datové vědy. Datový vědec by měl vědět, jak používat klasifikační algoritmy k řešení různých obchodních problémů.

To zahrnuje, vědět, jak definovat klasifikační problém, prozkoumat dat pomocí jednorozměrných a bivariační vizualizace, extrakt a připravit data, vybudovat klasifikace modelů, vyhodnocení modelů, a atd. Lineární a nelineární klasifikátory jsou některé z klíčových pojmů zde.

5. Jednoduchá a vícenásobná lineární regrese

co to je?

Lineární regresní modely patří mezi základní statistické modely pro studium vztahů mezi nezávislou proměnnou X a Y závislé proměnné.

To je matematické modelování, které umožňuje, aby se předpovědi a prognózy pro hodnotu Y v závislosti na různých hodnot X.

Existují dva hlavní typy lineární regrese: jednoduchá lineární regrese a vícenásobné lineární regresní modely.

klíčové body zde jsou pojmy jako korelační koeficient, regresní přímka, zbytkový graf, lineární regresní rovnice atd. Pro začátek, viz několik jednoduchých příkladů lineární regrese.

6. K-nejbližší soused (k-NN)

co je to?

N-nearest-neighbor je algoritmus klasifikace dat, který vyhodnocuje pravděpodobnost, že datový bod bude členem jedné skupiny. Záleží na tom, jak blízko je datový bod k této skupině.

Jako jeden z klíčových neparametrické metody použité pro regresi a klasifikaci, k-NN může být klasifikován jako jeden z nejlepších vědeckých dat témat vůbec.

určení sousedů pomocí klasifikačních pravidel, výběr k je několik dovedností, které by měl mít datový vědec. K-nejbližší soused je také jedním z klíčových algoritmů pro dolování textu a detekci anomálií.

7. Naivní Bayes

co je to?

naivní Bayes je soubor klasifikačních algoritmů, které jsou založeny na tzv. Bayesově větě.

široce používaný ve strojovém učení, Naive Bayes má některé zásadní aplikace, jako je detekce spamu a klasifikace dokumentů.

existují různé naivní Bayesovy variace. Nejoblíbenější z nich jsou multinomiální naivní Bayes, Bernoulli naivní Bayes a Binarizované multinomiální naivní Bayes.

8. Klasifikační a regresní stromy (CART)

co to je?

pokud jde o algoritmy pro prediktivní modelování strojového učení, algoritmy rozhodovacích stromů mají zásadní roli.

rozhodovací strom je jedním z nejvíce populární prediktivní modelování přístupy používané v data miningu, statistiky a strojového učení, které navazuje klasifikační nebo regresní modely ve tvaru stromu (to je důvod, proč oni jsou také známé jako regresní a klasifikační stromy).

pracují jak pro kategorická data, tak pro kontinuální data.

Některé termíny a témata byste měli zvládnout v této oblasti zahrnují VOZÍK rozhodovací strom metodiky, klasifikační stromy, regresní stromy, interaktivní dihotomiser, C4.5, C5.5, rozhodnutí pařez, podmíněné rozhodnutí strom, M5, atd.

9. Logistická regrese

co to je?

logistická regrese je jedním z nejstarších témat a oblastí vědy o datech a jako lineární regrese studuje vztah mezi spolehlivou a nezávislou proměnnou.

používáme však logistickou regresní analýzu, kde závislá proměnná je dichotomická (binární).

Budete čelit pojmy jako sigmoidní funkce, S-tvaru křivky, vícenásobné logistické regrese s kategoriální vysvětlující proměnné, více binární logistické regrese s kombinace kategoriální a kontinuální prediktory a atd.

10. Neuronové sítě

co to je?

neuronové sítě dnes působí jako naprostý hit ve strojovém učení. Neuronové sítě (také známé jako umělé neuronové sítě) jsou systémy hardwaru a/nebo softwaru, které napodobují provoz neuronů lidského mozku.

hlavním cílem vytvoření systému umělé neurony je získat systémy, které mohou být trénoval se učit nějaká data, vzorce a provádět funkce, jako je klasifikace, regrese, predikce a atd.
neuronové sítě jsou druh technologií hlubokého učení používaných pro řešení komplexních problémů zpracování signálu a rozpoznávání vzorů. Klíčové pojmy se zde týkají pojmu a struktury neuronových sítí, perceptronu, zpětného šíření, Hopfieldovy sítě.

výše uvedené byly některé ze základních témat vědy o datech. Zde je seznam zajímavějších a pokročilejších témat:

11. Diskriminační analýza

12. Pravidla asociace

13. Shluková analýza

14. Časové řady

15. Prognóza založená na regresi

16. Vyhlazovací metody

17. Časová razítka a finanční modelování

18. Odhalování podvodů

19. Datové inženýrství-Hadoop, MapReduce, Pregel.

20. GIS a prostorová data

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

lg