modelowanie danych jest często podstawą nauki o danych. Ale nauka o danych nie ogranicza się tylko do modelowania. Modelowanie danych stanowi zaledwie 20% całego potoku Data science. Aby wydobyć jakąkolwiek „wartość” z danych, należy je zebrać, wyczyścić i zbadać, z motywacją (do rozwiązania rzeczywistego problemu) i wiedzą z dziedziny biznesu służącą jako siły przewodnie dla analityka danych.

metaforycznie, nauka o danych jest jak czarodziej (przewidywać) i dedukcja (porównywać i interpretować). Jako początkujący analityk danych chciałbyś mieć możliwość automatycznego przewidywania wyników i identyfikowania nieznanych wcześniej trendów i wzorców w swoich danych.

w tym miejscu pojawia się potok danych.

zrozumienie „jak działa potok Data science pipeline” to pierwszy krok w kierunku rozwiązania rzeczywistego problemu.

w tym poście omówimy kroki związane z rurociągiem danych, które należy wykonać, aby zbudować produkt gotowy do użycia przez użytkowników końcowych.

  1. zrozumienie problemu

albo masz problem, albo musisz zdefiniować Oświadczenie o problemie, zanim zaczniesz korzystać z analizy danych. Najpierw musisz zdefiniować i zrozumieć problem, który próbujesz rozwiązać. Praktyczny wgląd lub produkt może być tylko tak dobry, jak zrozumienie problemu.

dogłębne zrozumienie domeny lub firmy jest wymagane w rozwinięciu problemu.

model, który zamierzasz zbudować pod koniec potoku Data science, będzie całkowicie zależał od problemu. Dla różnych wymagań i celów, trzeba dostosować swoje algorytmy. Uniwersalne podejście nie działa.

przykładowy scenariusz: rozważ na przykład, że budujesz silnik rekomendacji dla portalu e-commerce. Celem jest polecanie produktów wszystkim nowym użytkownikom platformy. Celem biznesowym jest zachęcenie pierwszego odwiedzającego do spędzenia maksymalnego czasu na platformie i złożenia pierwszego zamówienia. Ale jeśli zbudujesz system zarówno dla nowych, jak i powracających gości, nie będzie to przydatne. A jeśli silnik rekomendacji Nie zidentyfikuje wzorców w sposobie, w jaki nowi odwiedzający odkrywają różne produkty i składają pierwsze zamówienie, nie przyniesie to żadnej wartości organizacji biznesowej. Dlatego zrozumienie problemu i dziedziny ma kluczowe znaczenie dla stworzenia użytecznego produktu do analizy danych.

2. Zbieranie danych

dane są zbierane na podstawie twojego zrozumienia problemu. Gromadzenie danych jest żmudnym i czasochłonnym procesem. Wymaga cierpliwości, energii i czasu.

dzięki większej ilości danych możliwe jest zbudowanie bardziej wytrzymałych modeli.

najważniejsze jest, aby pracować nad dokładnymi danymi, aby zbudować niezawodne modele. Jeśli istnieje zbyt wiele wartości odstających od punktów danych, nawet najbardziej wyrafinowane modele są skazane na niepowodzenie.

przykładowy scenariusz: zbierzesz zbiory danych dotyczące odwiedzających po raz pierwszy, a także kluczowe wydarzenia i działania. Na przykład będziesz śledzić, gdzie klikają lub jak odkrywają różne produkty na platformie. Jeśli korzystasz z danych powracających gości, dodajesz szum do danych.

wymagane umiejętności:

odpytywanie relacyjnych i nierelacyjnych baz danych: MySQL, PostgresSQL, MongoDB

rozproszona Pamięć Masowa: Hadoop, Apache Spark

pobieranie nieustrukturyzowanych danych: tekstu, obrazów, filmów, plików audio, dokumentów, Excela itp

3. Czyszczenie danych

ta faza potoku Data science wymaga zazwyczaj najwięcej czasu i wysiłku. Wyniki i wyniki Modelu analityki danych są tak dobre, jak dane, które w nim umieszczasz. Do czyszczenia danych używane są języki skryptowe, takie jak Python i R.

zebrane dane są analizowane, szorowane i przechowywane w ustrukturyzowanej formie. Głównym celem jest usunięcie jak największej ilości hałasu podczas tej fazy; znajomość dziedziny i zrozumienie problemu biznesowego pomagają w identyfikacji i usuwaniu odstających.

tak oczyszczone dane zostaną wykorzystane do eksploracyjnej analizy danych i modelowania w kolejnych krokach.

przykładowy scenariusz: wszystkie dane, które dodają szum i nie są powiązane z potrzebami biznesowymi, związane z danym problemem, muszą zostać usunięte. Podczas badania danych należy zidentyfikować uszkodzone rekordy, błędy i brakujące wartości. Podczas szorowania zbiory danych z błędami lub brakującymi wartościami są wyrzucane, zastępowane lub wypełniane .

wymagane umiejętności:

język skryptowy: Python lub R

narzędzia do zarządzania danymi: Python, R

4. Eksploracyjna Analiza danych

teraz, gdy masz już czyste DANE, nadszedł czas, aby je zbadać!

w tej fazie celem jest wyodrębnienie spostrzeżeń i zidentyfikowanie ukrytych wzorców z danych i mapowanie ich do firmy i konkretnego problemu, który należy rozwiązać.

podobnie jak w poprzednich krokach, dobre zrozumienie domeny pomaga ukierunkować analizę danych w kierunkach, w których istnieje większe prawdopodobieństwo znalezienia przydatnych informacji i spostrzeżeń związanych z danymi.

Przykładowy Scenariusz: W przykładzie omówionym w Kroku 1, w oparciu o Twoje zrozumienie sezonowych trendów na rynku eCommerce, możesz odkryć, że połowa odwiedzających po raz pierwszy witrynę w okresie letnim spędziła ponad trzy minuty na sprawdzaniu lodówek.

praktycznie musisz rozwinąć zmysł, aby dostrzec dziwne lub interesujące wzorce / trendy podczas eksploracyjnej analizy danych.

narzędzia do wizualizacji są pomocne w wyodrębnianiu wzorców za pomocą wykresów i wizualizacji; metody testowania statystycznego przydają się do wyodrębniania funkcji i tworzenia kopii zapasowych wyników za pomocą wykresów i analiz.

na podstawie analiz, w razie potrzeby można tworzyć nowe funkcje na tym etapie.

wymagane umiejętności:

niektóre popularne biblioteki wizualizacji używane do eksploracyjnej analizy danych to Matplotlib, Seaborn, Numpy, Pandy, Scipy w Pythonie i GGplot2 w R

5. Modelowanie danych

teraz nadszedł czas, aby rozwiązać problem przy użyciu algorytmów uczenia maszynowego i głębokiego uczenia. Jest to najbardziej ekscytująca Faza całego potoku Data science.

testowane są różne metody/algorytmy. Wybrano metodę, która zapewnia najlepszą wydajność (pod względem analizy predykcyjnej). Model jest wielokrotnie udoskonalany i oceniany.

moc predykcyjna Twojego modelu zależy od jakości używanych funkcji.

przykładowy scenariusz: twój model danych dla silnika rekomendacji może przewidywać, że co najmniej jeden produkt z kombinacji niektórych urządzeń kuchennych, artykułów spożywczych i produktów pielęgnacyjnych prawdopodobnie zostanie zakupiony przez pierwszego odwiedzającego.

Biblioteki Scikit-learn (Python) i CARET (r) mogą być używane do budowania modeli uczenia maszynowego. Spośród różnych dostępnych obecnie frameworków Deep Learning, Keras / TensorFlow mogą być wykorzystywane do budowania modeli Deep Learning. Porównaj struktury w różnych aspektach, zanim je wybierzesz.

6. Wdrożenie

teraz, gdy model jest gotowy, nadszedł czas, aby udostępnić go użytkownikom końcowym.

model powinien być skalowalny. Gdy dostępne są nowe dane, model można ponownie ocenić i zaktualizować.

Ostatnie słowa

ważne jest, aby potok danych był solidny od początku do końca. Każdy krok jest ważny.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

lg