Zdjęcie Ivo Rainha na Unsplash

myślę, że nie będziesz się ze mną kłócić, gdy stwierdzę, że data science staje się jedną z najpopularniejszych dziedzin do pracy, zwłaszcza biorąc pod uwagę, że Harvard Business Review nazwał „data scientist” najseksowniejszą pracą XXI wieku. W tej dziedzinie przeszliśmy długą drogę, od czasów, gdy pojęcia takie jak data science I machine learning były nadal nieznane i wszystko było gromadzone pod parasolem statystyki. Jednak daleko nam do końca podróży.

to również może być dzielący aspekt nauki o danych — dziedzina rozwija się tak szybko, że może być trudno nawet śledzić wszystkie nowe algorytmy, techniki i podejścia. Tak więc praca w data science, podobnie jak inżynieria oprogramowania, często wymaga ciągłego uczenia się i rozwoju. Nie zrozumcie mnie źle, niektórzy ludzie (w tym ja) bardzo to lubią. Inni wolą uczyć się przez kilka lat, a następnie po prostu wyciąć kupony z tej wiedzy. Oba podejścia są całkowicie w porządku-jest to osobiste preferencje.

jak już wspomniałem, praca w data science może być podróżą. Dlatego w tym artykule chcę podzielić się moimi ulubionymi zasobami data science 10 (online), które często używam do nauki i stara się nadążać za bieżącymi wydarzeniami. Ta lista będzie koncentrować się na zasobach internetowych (blogach, filmach, podcastach) i nie będzie obejmować Mooc-ów ani książek, ponieważ jest tam więcej niż wystarczająco dużo treści na osobny artykuł. Zaczynajmy!

źródło: https://towardsdatascience.com/

nie powinno to dziwić, biorąc pod uwagę, że czytasz ten artykuł opublikowany w Towards Data Science. TDS to największa Publikacja Medium obejmująca wszystkie tematy związane z nauką o danych. Co można znaleźć tutaj:

  • przyjazne dla początkujących samouczki z kodem (w najpopularniejszych językach, takich jak Python, R, Julia, SQL i innych),
  • szczegółowe opisy poszczególnych algorytmów lub technik ML,
  • streszczenia wpływowych prac,
  • opisy osobistych projektów pet,
  • najnowsze wiadomości z dziedziny,
  • i więcej!

TDS tworzy naprawdę miłą społeczność, w której wszyscy są zachęcani do dzielenia się i uczestnictwa. Dodatkowo mogę gorąco polecić dołączenie do Newslettera i śledzenie TDS na Twitterze, aby być na bieżąco z najnowszymi i najpopularniejszymi artykułami.

na koniec mogę również polecić Podcast Towards Data Science, który może być szczególnie pomocny dla osób zastanawiających się, jak włamać się do Data science i znaleźć swoją idealną rolę.

PyData (konferencja + filmy)

źródło

PyData jest programem edukacyjnym NumFOCUS-organizacji non-profit promującej otwarte praktyki w dziedzinie badań, danych i Informatyki naukowej. Organizują konferencje na całym świecie, zachęcając naukowców i praktyków do dzielenia się swoimi spostrzeżeniami z pracy. W prelekcjach można znaleźć mieszankę ogólnych najlepszych praktyk Pythona, przykłady rzeczywistych przypadków, nad którymi pracowali naukowcy zajmujący się danymi (na przykład, w jaki sposób modelują odejście lub jakich narzędzi używają do generowania podnoszenia w swoich kampaniach marketingowych) oraz wprowadzenie do niektórych nowych bibliotek.

mówiąc z doświadczenia, to jest dużo zabawy, aby faktycznie uczestniczyć w konferencji osobiście, ponieważ można aktywnie uczestniczyć w prezentacjach, zadawać pytania i nawiązywać kontakty z ludźmi, którzy podzielają twoje zainteresowania. Ponieważ jednak nie zawsze jest to możliwe i po prostu jest zbyt wiele konferencji, aby wziąć udział, wszystkie nagrania można znaleźć na ich kanale YouTube. Zwykle nagrania są publikowane kilka miesięcy po każdej konferencji.

rozmowy PyData są świetnym źródłem inspiracji, ponieważ można zobaczyć, jak inne firmy podchodziły do konkretnego tematu, a może można zastosować podobną metodę w swojej firmie.

opanowanie uczenia maszynowego

strona/blog Jasona Brownlee to kopalnia złota treści dla analityków danych, zwłaszcza tych bardziej młodszych. Możesz znaleźć mnóstwo samouczków, od klasycznych metod modelowania statystycznego (regresja liniowa, ARIMA), po najnowsze i najlepsze rozwiązania machine/deep learning. Artykuły są zawsze bardzo praktyczne i zawierają kod Pythona stosujący konkretną koncepcję do zbioru danych zabawek. To, co jest naprawdę świetne na stronie, to to, że Jason wyraźnie wyjaśnia pojęcia, a także odnosi się do dalszej lektury dla tych, którzy chcą zagłębić się w teoretyczne tło. Możesz również filtrować wszystkie artykuły według tematu, jeśli jesteś zainteresowany tylko niezrównoważoną nauką lub jak kodować swoją pierwszą sieć LSTM.

Distill

Distill ma na celu zapewnienie jasnego i intuicyjnego wyjaśnienia koncepcji uczenia maszynowego. Twierdzą, że dokumenty są często ograniczone do plików PDF, które nie zawsze mogą pokazać pełny obraz. A w czasach, gdy ML zyskuje coraz większy wpływ, ważne jest, aby dobrze zrozumieć, jak działają narzędzia, których używamy.

Distill wykorzystuje imponujące i interaktywne wizualizacje, aby jasno wyjaśnić, co dzieje się za kulisami algorytmów uczenia maszynowego. Jeden z moich ulubionych artykułów opisał tam t – Sne (t-rozproszone stochastyczne osadzanie sąsiadów) i pokazał, jak generowane wykresy, podczas gdy wizualnie mogą być mylące. Wskazała również na znaczenie hiperparametrów, dostarczając interaktywnego narzędzia, aby zobaczyć wpływ z pierwszej ręki.

jeśli potrzebujesz dodatkowej pewności co do jakości zawartości, komitet sterujący Distillem zawierał takie nazwiska jak Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

papiery z kodem

Source

Papers With Code to świetna inicjatywa, aby stworzyć darmową i otwartą pulę zasobów zawierającą dokumenty ML, wraz z kodem i tabelami oceny. Możesz łatwo przeglądać dostępne artykuły (w tym najnowocześniejsze) i wyszukiwać według tematów, na przykład koloryzacji obrazów w domenie Computer vision.

ta strona jest bardzo przydatna, gdy chcesz poeksperymentować z jakimś podejściem lub zastosować je do swojego zbioru danych, bez konieczności samodzielnego pisania całego kodu. Chociaż takie ćwiczenie jest zdecydowanie pomocne i wiele się nauczysz, czasami wystarczy zhakować MVP, aby pokazać, że coś faktycznie działa dla Twojego przypadku użycia i generuje wartość dodaną. Po uzyskaniu wymaganej zgody możesz spokojnie zanurzyć się w kodzie, aby zrozumieć wszystkie niuanse konkretnego modelu lub architektury.

Kaggle

Kaggle stał się platformą dla osób chcących wziąć udział w konkursach machine/deep learning. Tysiące osób bierze udział w konkursach, aby wyszkolić najlepsze modelki (często duże i złożone zespoły modelek), aby uzyskać najlepszy wynik i zdobyć uznanie (i nagrody pieniężne).

jednak sama platforma to znacznie więcej. Na początek, Kaggle zawiera tysiące Kerneli/notebooków, pokazujących praktyczną implementację algorytmów ML. Często twórcy dostarczają również dogłębne teoretyczne wyjaśnienie modeli i ich hiperparametrów. Ten notatnik zawiera dalsze linki do wielu najpopularniejszych algorytmów ML / DL zaimplementowanych do niestandardowych zbiorów danych w jądrach Kaggle (zarówno Python, jak i R).

co więcej, Kaggle zawiera również wiele niestandardowych, wgranych przez użytkownika zbiorów danych (w momencie pisania ponad 40k), które można wykorzystać do własnych analiz. Możesz znaleźć prawie wszystko, co może zwiększyć twoje zainteresowanie, od najnowszych numerów dotyczących COVID-19 po statystyki wszystkich Pokémonów. Wiele artykułów TDS jest pisanych przy użyciu zbiorów danych z Kaggle. Jeśli więc chcesz poćwiczyć swoje umiejętności na czymś innym niż Titanic lub Boston houses, Kaggle jest doskonałym miejscem na początek.

R-blogerzy

źródło

swoją przygodę z data science zacząłem od R, a nawet po zmianie głównego języka programowania na Python nadal śledzę R-blogerów. Jest to agregator blogów (możesz również dołączyć, przesyłając swój blog) i obejmuje szeroki zakres tematów. Chociaż większość z nich jest związana z R, nadal możesz się wiele nauczyć, czytając o ogólnych podejściach do zadań związanych z nauką danych.

uważam, że nie należy ograniczać się tylko do jednego języka programowania i ignorować wszystko inne. Może poczytasz o ciekawym projekcie / pakiecie w R i zdecydujesz się przenieść go do Pythona? Alternatywnie, możesz użyć rpy2, aby uzyskać dostęp do pakietów R z Pythona i ułatwić sobie życie.

chociaż Python jest obecnie językiem numer 1 w naukach o danych, nadal istnieje wiele pakietów i narzędzi, które nie zostały przeniesione do Pythona z R. dlatego uważam, że R-blogerzy są bardzo cennym zasobem i mogą być źródłem inspiracji do przeniesienia niektórych funkcji R do Pythona.

arXiv

arXiv jest otwartym repozytorium elektronicznych przedruków artykułów naukowych w dziedzinach takich jak informatyka, uczenie maszynowe i wiele innych. Zasadniczo jest to miejsce, w którym można szukać najnowszych badań i najnowocześniejszych algorytmów. Jednak w dzisiejszych czasach jest tak wiele nowych artykułów dodawanych każdego dnia, że w zasadzie niemożliwe jest śledzenie wszystkiego. Dlatego Andrej Karpathy stworzył arXiv Sanity Preserver, aby spróbować odfiltrować najważniejsze / istotne artykuły. Dodatkowo możesz śledzić arXiv codziennie na Twitterze, aby codziennie otrzymywać listę najważniejszych artykułów badawczych. Przyjazne Ostrzeżenie: liczba tweetów może być przytłaczająca.

GitHub niesamowite Uczenie maszynowe

ten repozytorium GitHub zawiera wyselekcjonowaną listę frameworków uczenia maszynowego, bibliotek i oprogramowania w ogóle. Dla naszej wygody są one pogrupowane według języka. Dodatkowo repo zawiera listy blogów, darmowych książek, kursów online, konferencji, spotkań i wielu innych. To repozytorium jest zdecydowanie bardzo cenne i możesz zanurzyć się w nim przez dłuższy czas, przeglądając wszystkie dostępne informacje. Smacznego!

Twitter

ten jest bardzo subiektywny, ponieważ w wielu przypadkach Twitter jest używany jako sieć społecznościowa, podobnie jak Facebook. Staram się jednak używać go wyłącznie do śledzenia osób z dziedziny data science i unikania treści typu click-baity. Wielu badaczy, autorów i innych znanych naukowców danych ma aktywne konta na Twitterze i często dzielą się interesującymi / istotnymi treściami. To świetny sposób, aby być na bieżąco z nowymi osiągnięciami i „gorącymi tematami” w naukach o danych.

lista osób do naśladowania będzie w dużym stopniu zależała od zakresu Twoich zainteresowań, na przykład, jeśli skupisz się na głębokim uczeniu wykorzystywanym do widzenia komputerowego lub może NLP. Polecam zacząć od niektórych swoich ulubionych autorów, czy to książek lub Mooc, a następnie lista będzie naturalnie rosnąć, ponieważ będziesz narażony na inne interesujące osoby za pośrednictwem retweetów itp.

jeśli jesteś zainteresowany, możesz znaleźć osoby, które śledzę tutaj.

inne przydatne zasoby

Powyższa lista nie jest bynajmniej wyczerpująca, ponieważ internet jest pełen bardzo przydatnych zasobów na temat nauki o danych. Poniżej wymieniam kilka dodatkowych zasobów, które nie znalazły się w mojej top 10, ale są również świetne i często z nich korzystam:

  • KDnuggets
  • AWS Machine Learning Blog
  • PyImageSearch
  • Explained.ai
  • Visual Capitalist
  • Data is Beautiful
  • Analytics Vidhya

będę aktualizował listę na wypadek, gdyby coś mi umknęło lub odkryłem coś nowego 🙂

wnioski

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

lg