Foto von Ivo Rainha auf Unsplash

Ich denke, Sie werden nicht mit mir streiten, wenn ich feststelle, dass die Datenwissenschaft zu einem der beliebtesten Arbeitsbereiche wird Harvard Business Review nannte „Data Scientist“ den sexiesten Job des 21. In diesem Bereich haben wir einen langen Weg zurückgelegt, aus der Zeit, als Begriffe wie Data Science und maschinelles Lernen noch unbekannt waren und alles unter dem Dach der Statistik zusammengefasst wurde. Wir sind jedoch noch lange nicht am Ende der Reise.

Das kann auch ein trennender Aspekt der Datenwissenschaft sein — das Feld entwickelt sich so schnell, dass es schwierig sein kann, all den neuen Algorithmen, Techniken und Ansätzen zu folgen. Daher erfordert die Arbeit in der Datenwissenschaft, ähnlich wie in der Softwareentwicklung, häufig ständiges Lernen und Weiterentwickeln. Versteh mich nicht falsch, manche Leute (mich eingeschlossen) mögen das sehr. Andere lernen lieber ein paar Jahre und schneiden dann einfach die Coupons aus diesem Wissen. Beide Ansätze sind vollkommen in Ordnung – es ist eine persönliche Präferenz.

Wie bereits erwähnt, kann die Arbeit in der Datenwissenschaft eine Reise sein. Aus diesem Grund möchte ich in diesem Artikel meine 10 bevorzugten Data Science-Ressourcen (Online-Ressourcen) teilen, die ich häufig zum Lernen und Versuchen verwende, mit den aktuellen Entwicklungen Schritt zu halten. Diese Liste konzentriert sich auf Online-Ressourcen (Blogs, Videos, Podcasts) und deckt keine MOOCs oder Bücher ab, da dort mehr als genug Inhalt für einen separaten Artikel vorhanden ist. Lass uns anfangen!

Quelle: https://towardsdatascience.com/

Dies sollte keine Überraschung sein, wenn Sie diesen Artikel lesen, der in Towards Data Science veröffentlicht wurde. TDS ist die größte Publikation von Medium, die alle datenwissenschaftlichen Themen abdeckt. Was Sie hier finden:

  • anfängerfreundliche Tutorials mit Code (in den gängigsten Sprachen wie Python, R, Julia, SQL und mehr),
  • ausführliche Beschreibungen bestimmter ML-Algorithmen oder -Techniken,
  • Zusammenfassungen einflussreicher Artikel,
  • Beschreibungen persönlicher Haustierprojekte,
  • die neuesten Nachrichten aus dem Bereich,
  • und mehr!

TDS schafft eine wirklich nette Community, in der jeder zum Teilen und Mitmachen ermutigt wird. Darüber hinaus kann ich wärmstens empfehlen, dem Newsletter beizutreten und TDS auf Twitter zu folgen, um über die neuesten und beliebtesten Artikel auf dem Laufenden zu bleiben.

Zu guter Letzt kann ich auch den Towards Data Science Podcast empfehlen, der besonders für Leute hilfreich sein kann, die sich fragen, wie sie in Data Science einsteigen und ihre perfekte Rolle finden können.

PyData (Konferenz + Videos)

Quelle

PyData ist das Bildungsprogramm von NumFOCUS — einer gemeinnützigen Organisation, die offene Praktiken in Forschung, Daten und wissenschaftlichem Rechnen fördert. Sie organisieren Konferenzen auf der ganzen Welt und ermutigen Forscher und Praktiker, ihre Erkenntnisse aus ihrer Arbeit auszutauschen. In den Vorträgen finden Sie eine Mischung aus allgemeinen Python-Best Practices, Beispielen aus der Praxis, an denen die Datenwissenschaftler gearbeitet haben (z. B. wie sie die Abwanderung modellieren oder welche Tools sie verwenden, um eine Steigerung ihrer Marketingkampagnen zu erzielen) und Einführungen in einige neue Bibliotheken.

Aus Erfahrung macht es viel Spaß, persönlich an der Konferenz teilzunehmen, da Sie aktiv an den Präsentationen teilnehmen, Fragen stellen und sich mit Menschen vernetzen können, die Ihre Interessen teilen. Da dies jedoch nicht immer möglich ist und einfach zu viele Konferenzen zu besuchen sind, finden Sie alle Aufzeichnungen auf ihrem YouTube-Kanal. Normalerweise werden die Aufzeichnungen einige Monate nach jeder Konferenz veröffentlicht.

Die PyData Talks sind eine großartige Inspirationsquelle, da Sie sehen können, wie andere Unternehmen an ein bestimmtes Thema herangehen, und vielleicht können Sie eine ähnliche Methode in Ihrem Unternehmen anwenden.

Beherrschung des maschinellen Lernens

Jason Brownlees Website / Blog ist eine Goldmine an Inhalten für Datenwissenschaftler, insbesondere für die jüngeren. Sie finden eine Vielzahl von Tutorials, von klassischen statistischen Modellierungsansätzen (lineare Regression, ARIMA) bis hin zu den neuesten und besten Machine / Deep Learning-Lösungen. Die Artikel sind immer sehr praktisch und enthalten Python-Code, der das jeweilige Konzept auf einen Spielzeugdatensatz anwendet. Was an der Website wirklich großartig ist, ist, dass Jason die Konzepte klar erklärt und sich auch auf weitere Lektüre für diejenigen bezieht, die besonders tief in den theoretischen Hintergrund eintauchen möchten. Sie können auch alle Artikel nach dem Thema filtern, falls Sie nur an unausgewogenem Lernen interessiert sind oder wie Sie Ihr erstes LSTM-Netzwerk codieren.

Distill

Distill zielt darauf ab, eine klare und intuitive Erklärung von Konzepten des maschinellen Lernens zu liefern. Sie argumentieren, dass Papiere oft auf PDF-Dateien beschränkt sind, die nicht immer das ganze Bild zeigen können. Und in Zeiten, in denen ML immer mehr an Bedeutung gewinnt, ist es entscheidend, ein gutes Verständnis dafür zu haben, wie die von uns verwendeten Tools tatsächlich funktionieren.

Distill erklärt mit eindrucksvollen und interaktiven Visualisierungen anschaulich, was hinter den Kulissen der Machine Learning Algorithmen tatsächlich passiert. Einer meiner Lieblingsartikel dort beschrieben t-SNE (t-distributed stochastic Neighbor Embedding) und zeigte, wie die erzeugten Graphen, während optisch ansprechend irreführend sein kann. Es wies auch auf die Bedeutung der Hyperparameter hin, indem es ein interaktives Tool zur Verfügung stellte, um die Auswirkungen aus erster Hand zu sehen.

Wenn Sie zusätzliche Zusicherungen über die Qualität des Inhalts benötigen, enthielt das Lenkungskomitee hinter Distill Namen wie Yoshua Bengio, Ian Goodfellow, Michael Nielsen und Andrej Karpathy.

Papiere mit Code

Quelle

Papers With Code ist eine großartige Initiative, um einen freien und offenen Ressourcenpool zu erstellen, der ML-Papiere zusammen mit dem Code und den Bewertungstabellen enthält. Sie können ganz einfach die verfügbaren Papiere durchsuchen (einschließlich der State-of-the-Art) und nach Themen suchen, zum Beispiel Bild Kolorierung innerhalb der Computer Vision Domain.

Diese Website ist sehr praktisch, wenn Sie mit einem Ansatz experimentieren oder ihn auf Ihren Datensatz anwenden möchten, ohne den gesamten Code selbst zu schreiben. Während eine solche Übung definitiv hilfreich ist und Sie viel lernen werden, müssen Sie manchmal nur ein MVP zusammenhacken, um zu zeigen, dass etwas tatsächlich für Ihren Anwendungsfall funktioniert und Mehrwert generiert. Nachdem Sie die erforderliche Genehmigung erhalten haben, können Sie ruhig in den Code eintauchen, um alle Nuancen eines bestimmten Modells oder einer bestimmten Architektur zu verstehen.

Kaggle

Kaggle wurde zur Anlaufstelle für Menschen, die an Machine / Deep Learning-Wettbewerben teilnehmen möchten. Tausende von Menschen nehmen an Wettbewerben teil, um die besten Modelle (oft große und komplexe Ensembles von Modellen) zu trainieren, um die beste Punktzahl zu erzielen und Anerkennung (und Geldpreise) zu erhalten.

Die Plattform selbst ist jedoch viel mehr als das. Für den Anfang enthält Kaggle Tausende von Kerneln / Notebooks, die die praktische Implementierung von ML-Algorithmen zeigen. Oft bieten die Ersteller auch eine eingehende theoretische Erklärung der Modelle und ihrer Hyperparameter. Dieses Notizbuch enthält weitere Links zu vielen der beliebtesten ML / DL-Algorithmen, die in benutzerdefinierten Datensätzen in Kaggle-Kerneln (sowohl Python als auch R) implementiert sind.

Darüber hinaus enthält Kaggle auch viele benutzerdefinierte, vom Benutzer hochgeladene Datensätze (zum Zeitpunkt des Schreibens über 40 KB), die Sie für Ihre eigenen Analysen verwenden können. Sie können so ziemlich alles finden, was Ihr Interesse wecken kann, von den neuesten Zahlen zu COVID-19 bis zu den Statistiken aller Pokémon da draußen. Viele TDS-Artikel werden mit den Datensätzen von Kaggle geschrieben. Also, wenn Sie Ihre Fähigkeiten auf etwas anderes als Titanic oder Boston Häuser üben wollen, ist Kaggle ein großartiger Ort zu starten.

R-Blogger

Quelle

Ich habe meine Data Science-Reise mit R begonnen, und selbst nachdem ich meine Hauptprogrammiersprache auf Python umgestellt habe, folge ich immer noch R-Bloggern. Es ist ein Blog-Aggregator (Sie können auch beitreten, indem Sie Ihren Blog einreichen) und deckt eine breite Palette von Themen ab. Während die meisten von ihnen R-bezogen sind, können Sie immer noch viel lernen, indem Sie über allgemeine Ansätze für datenwissenschaftliche Aufgaben lesen.

Ich glaube, dass man sich nicht auf nur eine Programmiersprache beschränken und alles andere ignorieren sollte. Vielleicht lesen Sie über ein interessantes Projekt / Paket in R und entscheiden sich, es nach Python zu portieren? Alternativ können Sie rpy2 , um von Python aus auf R-Pakete zuzugreifen und Ihr Leben zu erleichtern.

Während Python derzeit die Sprache Nummer 1 in der Datenwissenschaft ist, gibt es immer noch viele Pakete und Tools, die nicht von R nach Python portiert wurden.

arXiv

arXiv ist das Open-Access-Repository der Cornell University für elektronische Preprints wissenschaftlicher Arbeiten in Bereichen wie Informatik, maschinelles Lernen und vielen mehr. Grundsätzlich ist dies der Ort für die neueste Forschung und State-of-the-Art-Algorithmen zu suchen. Heutzutage kommen jedoch jeden Tag so viele neue Artikel hinzu, dass es im Grunde unmöglich ist, alles zu verfolgen. Aus diesem Grund hat Andrej Karpathy den arXiv Sanity Preserver erstellt, um zu versuchen, die wichtigsten / relevantesten Papiere herauszufiltern. Darüber hinaus können Sie arXiv Daily auf Twitter folgen, um eine täglich kuratierte Liste der wichtigsten Forschungsartikel zu erhalten. Freundliche Warnung: Die Anzahl der Tweets kann überwältigend sein.

GitHub Awesome Machine Learning

Dieses GitHub-Repo enthält eine kuratierte Liste von Frameworks, Bibliotheken und Software für maschinelles Lernen im Allgemeinen. Für unsere Bequemlichkeit sind sie nach Sprache gruppiert. Darüber hinaus enthält das Repo Listen mit Blogs, kostenlosen Büchern, Online-Kursen, Konferenzen, Meetups und vielem mehr. Dieses Repository ist definitiv sehr wertvoll und Sie können einige Zeit damit verbringen, alle verfügbaren Informationen zu erkunden. Viel Spaß!

Twitter

Dies kann sehr subjektiv sein, da Twitter in vielen Fällen wie Facebook als soziales Netzwerk verwendet wird. Ich versuche jedoch, es ausschließlich zu verwenden, um Personen aus dem Bereich Data Science zu folgen und Click-Baity-Inhalte zu vermeiden. Viele Forscher, Autoren und sonst berühmte Datenwissenschaftler haben aktive Twitter-Konten und teilen häufig interessante / relevante Inhalte. Es ist eine großartige Möglichkeit, über die neuen Entwicklungen und „heißen Themen“ in der Datenwissenschaft auf dem Laufenden zu bleiben.

Die Liste der zu verfolgenden Personen hängt stark vom Umfang Ihrer Interessen ab, z. B. wenn Sie sich auf Deep Learning für Computer Vision oder NLP konzentrieren. Ich würde empfehlen, mit einigen Ihrer Lieblingsautoren zu beginnen, sei es Bücher oder MOOCs, und dann wird die Liste natürlich wachsen, da Sie über Retweets usw. anderen interessanten Menschen ausgesetzt sind.

Falls Sie interessiert sind, finden Sie hier die Personen, denen ich folge.

Weitere hilfreiche Ressourcen

Die obige Liste ist keineswegs vollständig, da das Internet voller sehr nützlicher Ressourcen zur Datenwissenschaft ist. Im Folgenden liste ich einige zusätzliche Ressourcen auf, die es nicht in meine Top 10 geschafft haben, aber auch großartig sind und die ich häufig verwende:

  • KDnuggets
  • AWS-Blog für maschinelles Lernen
  • PyImageSearch
  • Explained.ai
  • Visual Capitalist
  • Daten sind schön
  • Analytics Vidhya

Ich werde die Liste weiter aktualisieren, falls mir etwas in den Sinn kommt oder ich etwas Neues entdecke 🙂

Schlussfolgerungen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

lg