Datenmodellierung ist oft der Kern von Data Science. Data Science beschränkt sich jedoch nicht nur auf die Modellierung. Die Datenmodellierung macht nur 20% der gesamten Data-Science-Pipeline aus. Um irgendeinen ‚Wert‘ aus Daten zu extrahieren, müssen sie gesammelt, geschrubbt und erforscht werden, wobei Motivation (um ein reales Problem zu lösen) und Geschäftsbereichswissen als Leitkräfte für einen Datenwissenschaftler dienen.

Metaphorisch ist Data Science wie Zauberei (Vorhersagen) und Deduktion (Vergleichen und interpretieren). Als aufstrebender Data Scientist möchten Sie in der Lage sein, Ergebnisse automatisch vorherzusagen und bisher unbekannte Trends und Muster in Ihren Daten zu identifizieren.

Hier kommt eine Data Science Pipeline ins Spiel.

Das Verständnis der Funktionsweise der Data Science Pipeline ist der erste Schritt zur Lösung eines realen Problems.

Hier in diesem Beitrag werden wir die Schritte einer Data-Science-Pipeline besprechen, die Sie befolgen müssen, um ein Produkt zu erstellen, das für Endbenutzer einsatzbereit ist.

  1. Das Problem verstehen

Entweder haben Sie ein Problem oder Sie müssen eine Problemstellung definieren, bevor Sie überhaupt mit Data Science beginnen. Sie müssen zuerst das Problem definieren und verstehen, das Sie lösen möchten. Ein umsetzbarer Einblick oder ein Produkt kann nur so gut sein wie Ihr Verständnis des Problems.

Ein gründliches Verständnis der Domäne oder des Geschäfts ist erforderlich, um das Problem zu analysieren.

Das Modell, das Sie bis zum Ende der Data-Science-Pipeline erstellen möchten, hängt vollständig vom jeweiligen Problem ab. Für unterschiedliche Anforderungen und Ziele müssten Sie Ihre Algorithmen anpassen. Ein One-Size-fits-all-Ansatz funktioniert nicht.

Beispielszenario: Stellen Sie sich zum Beispiel vor, dass Sie eine Empfehlungsmaschine für ein E-Commerce-Portal erstellen. Ziel ist es, allen neuen Besuchern auf der Plattform Produkte zu empfehlen. Das Geschäftsziel ist es, einen Erstbesucher dazu zu bringen, maximale Zeit auf der Plattform zu verbringen und seine erste Bestellung aufzugeben. Wenn Sie jedoch ein System für neue und wiederkehrende Besucher erstellen, nützt es nichts. Und wenn die Empfehlungs-Engine keine Muster darin erkennt, wie neue Besucher verschiedene Produkte erkunden und ihre erste Bestellung aufgeben, bietet sie der Unternehmensorganisation keinen Wert. Aus diesem Grund ist das Verständnis des Problems und der Domäne entscheidend für den Aufbau eines nützlichen Data Science-Produkts.

2. Datenerfassung

Die Datenerfassung basiert auf Ihrem Verständnis des Problems. Die Datenerfassung ist ein mühsamer und zeitaufwendiger Prozess. Es erfordert Geduld, Energie und Zeit.

Mit mehr Daten ist es möglich, robustere Modelle zu erstellen.

Es ist von größter Bedeutung, an genauen Daten zu arbeiten, um zuverlässige Modelle zu erstellen. Wenn es zu viele Datenpunktausreißer gibt, sind selbst die raffiniertesten Modelle zum Scheitern verurteilt.

Beispielszenario: Sie erfassen Datensätze zu Erstbesuchern sowie wichtige Ereignisse und Aktionen. Sie verfolgen beispielsweise, wo sie klicken oder wie sie verschiedene Produkte auf der Plattform erkunden. Wenn Sie Daten von wiederkehrenden Besuchern verwenden, fügen Sie den Daten Rauschen hinzu.

Erforderliche Fähigkeiten:

Abfragen relationaler und nicht relationaler Datenbanken: MySQL, PostgresSQL, MongoDB

Verteilter Speicher: Hadoop, Apache Spark

Abrufen Unstrukturierter Daten: Text, Bilder, Videos, Audiodateien, Dokumente, Excel usw

3. Datenbereinigung

Diese Phase der Datenwissenschaftspipeline erfordert im Allgemeinen den größten Zeit- und Arbeitsaufwand. Die Ergebnisse und der Output eines Data-Science-Modells sind nur so gut wie die Daten, die Sie hineinlegen. Skriptsprachen wie Python und R werden für die Datenbereinigung verwendet.

Die gesammelten Daten werden untersucht, bereinigt und in strukturierter Form gespeichert. Das Hauptziel besteht darin, in dieser Phase so viel Rauschen wie möglich zu entfernen; Domänenwissen und Verständnis des Geschäftsproblems helfen bei der Identifizierung und Beseitigung von Ausreißern.

Die so bereinigten Daten werden in den nächsten Schritten für die explorative Datenanalyse und Modellierung verwendet.

Beispielszenario: Alle Daten, die Rauschen hinzufügen und nicht an die Geschäftsanforderungen gebunden sind, müssen im Zusammenhang mit dem vorliegenden Problem entfernt werden. Wenn Sie die Daten untersuchen, müssen Sie beschädigte Datensätze, Fehler und fehlende Werte identifizieren. Beim Scrubbing werden Datensätze mit Fehlern oder fehlenden Werten weggeworfen, ersetzt oder gefüllt .

Erforderliche Fähigkeiten:

Skriptsprache: Python oder R

Data Wrangling Tools: Python Pandas, R

4. Explorative Datenanalyse

Nun, da Sie saubere Daten zur Verfügung haben, ist es Zeit, sie zu erkunden!

In dieser Phase besteht das Ziel darin, Erkenntnisse zu gewinnen und verborgene Muster aus den Daten zu identifizieren und sie dem Unternehmen und dem spezifischen Problem zuzuordnen, das gelöst werden muss.

Wie in den vorherigen Schritten hilft ein gutes Verständnis der Domäne, die Datenanalyse in Richtungen zu lenken, in denen Sie eher nützliche Informationen und Erkenntnisse in Bezug auf die Daten finden.

Beispielszenario: In dem in Schritt 1 beschriebenen Beispiel stellen Sie möglicherweise anhand Ihres Verständnisses der saisonalen Trends auf dem E-Commerce-Markt fest, dass die Hälfte der erstmaligen Website-Besucher im Sommer mehr als drei Minuten damit verbracht hat, Kühlschränke zu überprüfen.

Sie müssen praktisch ein Gespür entwickeln, um seltsame oder interessante Muster / Trends während der explorativen Datenanalyse zu erkennen.

Visualisierungstools sind hilfreich beim Extrahieren von Mustern durch Diagramme und Visualisierungen; Statistische Testmethoden sind nützlich beim Extrahieren von Features und beim Sichern von Ergebnissen mit Grafiken und Analysen.

Basierend auf den Analysen können in dieser Phase bei Bedarf neue Features erstellt werden.

Erforderliche Fähigkeiten:

Einige beliebte Visualisierungsbibliotheken, die für die explorative Datenanalyse verwendet werden, umfassen Matplotlib, Seaborn, Numpy, Pandas, Scipy in Python und GGplot2 in R

5. Datenmodellierung

Jetzt ist es an der Zeit, das Problem mithilfe von Algorithmen für maschinelles Lernen und Deep Learning zu lösen. Dies ist die aufregendste Phase der gesamten Data-Science-Pipeline.

Es werden verschiedene Methoden/Algorithmen getestet. Die Methode, die die beste Leistung (in Bezug auf Predictive Analytics) liefert, wird ausgewählt. Das Modell wird um ein Vielfaches verfeinert und bewertet.

Die Vorhersagekraft Ihres Modells hängt von der Qualität der verwendeten Features ab.

Beispielszenario: Ihr Datenmodell für die Empfehlungs-Engine kann vorhersagen, dass mindestens ein Artikel aus einer Kombination bestimmter Küchengeräte, Lebensmittel und Pflegeprodukte wahrscheinlich von einem Erstbesucher gekauft wird.

Scikit-learn (Python) – und CARET (R) -Bibliotheken können zum Erstellen von Modellen für maschinelles Lernen verwendet werden. Unter den verschiedenen Deep-Learning-Frameworks, die heutzutage verfügbar sind, kann Keras / TensorFlow zum Erstellen von Deep-Learning-Modellen verwendet werden. Vergleichen Sie Frameworks in verschiedenen Aspekten, bevor Sie sich für eines entscheiden.

6. Bereitstellung

Nun, da das Modell fertig ist, ist es an der Zeit, es für Endbenutzer zugänglich zu machen.

Das Modell sollte skalierbar sein. Wenn neue Daten verfügbar sind, kann das Modell neu bewertet und aktualisiert werden.

Abschließende Worte

Es ist wichtig, dass Ihre Data-Science-Pipeline von Anfang bis Ende solide ist. Jeder Schritt ist wichtig.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

lg