Foto Ivo Rainha na Unsplash

myslím, že se nebudete se mnou přít, když jsem stát, že data science se stává jedním z nejpopulárnějších oborů k práci v, a to zejména vzhledem k tomu, že Harvard Business Review s názvem „data scientist“ sexy úkolem 21.století. V této oblasti jsme ušli dlouhou cestu, od dob, kdy pojmy jako datová věda a strojové učení byly stále neznámé a vše bylo shromážděno pod záštitou statistiky. Jsme však daleko od konce cesty.

To může být také dělící poměr dat vědy — obor se vyvíjí tak rychle, že to může být obtížné sledovat všechny nové algoritmy, techniky a přístupy. Takže práce v datové vědě, podobně jako softwarové inženýrství, často vyžaduje neustálé učení a rozvoj. Nechápejte mě špatně, někteří lidé (včetně mě) se to hodně líbí. Jiní raději učit na několik let a pak jen snížit kupony z těchto znalostí. Oba přístupy jsou naprosto v pořádku — je to osobní preference.

jak jsem již zmínil, práce v datové vědě může být cesta. Proto se v tomto článku chci podělit o své 10 oblíbené zdroje datové vědy (online), které často používám k učení a snaze držet krok s aktuálním vývojem. Tento seznam se zaměří na online zdroje (blogy, videa, podcasty) a nebude pokrývat MOOC ani knihy, protože tam je více než dost obsahu pro samostatný článek. Začněme!

Zdroj: https://towardsdatascience.com/

To by mělo přijít jako žádné překvapení, vzhledem k tomu, čtete tento článek publikoval v K Datové Vědy. TDS je největší publikace média pokrývající všechna témata související s datovou vědou. Co najdete zde:

  • začátečník-přátelský konzultace s kódem (v nejpopulárnější jazyky, jako je Python, R, Julia, SQL, a více),
  • in-hloubkové popisy konkrétních ML algoritmů nebo technik,
  • shrnutí vlivné papíry,
  • popisy osobních projektů,
  • nejnovější zprávy z oblasti,
  • a mnohem více!

TDS vytváří opravdu pěknou komunitu, ve které jsou všichni povzbuzováni ke sdílení a účasti. Navíc, mohu vřele doporučit vstup bulletin, a následující TDS na Twitteru, aby držet krok s nejnovější a nejvíce populárních článků.

A konečně mohu také doporučit podcast Towards Data Science, který může být obzvláště užitečný pro lidi, kteří se ptají, jak proniknout do vědy o datech a najít jejich dokonalou roli.

PyData (konference + videa)

Zdroj

PyData je vzdělávací program NumFOCUS — nezisková charitativní organizace podporující open postupů v oblasti výzkumu, dat a vědecké výpočty. Organizují konference po celém světě a povzbuzují výzkumné pracovníky a odborníky, aby se podělili o své postřehy z jejich práce. V rozhovorech můžete najít mix obecné Python osvědčených postupů, příklady z reálného života případech údaje vědci pracovali na (například, jak se model konve, nebo to, co nástroje, které používají pro generování vztlaku v jejich marketingové kampaně), a úvody do některých nových knihoven.

když už mluvíme ze zkušenosti, je to hodně legrace skutečně zúčastnit konference osobně, jak se můžete aktivně účastnit prezentací, klást otázky, a síť s lidmi, kteří sdílejí vaše zájmy. Protože to však není vždy možné a jednoduše existuje příliš mnoho konferencí, můžete najít všechny nahrávky na jejich kanálu YouTube. Obvykle jsou nahrávky publikovány několik měsíců po každé konferenci.

PyData rozhovory jsou velkým zdrojem inspirace, jak můžete vidět, jak jiné společnosti se přiblížil konkrétní téma, a možná můžete použít podobnou metodu ve vaší společnosti.

Machine Learning Mastery

web/blog Jasona Brownleeho je zlatým dolem obsahu pro datové vědce, zejména ty mladší. Najdete nepřeberné množství výukových programů, od klasických statistických modelování přístupů (lineární regrese, ARIMA), na nejnovější a největší stroj / hluboké učení řešení. Články jsou vždy velmi praktické a obsahují kód Pythonu, použití konkrétního konceptu k hračka dataset. Co je na webu opravdu skvělé, je to, že Jason jasně vysvětluje pojmy a také odkazuje na další čtení pro ty, kteří se chtějí ponořit do teoretického pozadí. Můžete také filtrovat všechny články podle tématu, v případě, že vás zajímá pouze nevyvážené učení nebo jak kódovat svou první síť LSTM.

Extrahovat

Destilovat si klade za cíl poskytnout jasné a intuitivní vysvětlení strojového učení koncepty. Tvrdí, že dokumenty jsou často omezeny na soubory PDF, které nemohou vždy zobrazit celý obrázek. A v době, kdy ML získává stále větší dopad, je zásadní mít dobré znalosti o tom, jak nástroje, které používáme, skutečně fungují.

Extrahovat používá působivé a interaktivní vizualizace jasně vysvětlit, co se vlastně děje v zákulisí algoritmů strojového učení. Jeden z mých oblíbených článků tam popsal t-SNE (t-distributed stochastic neighbor embedding) a ukázal, jak generované grafy, zatímco vizuálně příjemné může být zavádějící. Poukázal také na význam hyperparametrů poskytnutím interaktivního nástroje pro zobrazení dopadu z první ruky.

Pokud budete potřebovat jakékoliv další ujištění o kvalitě obsahu, řídící výbor za Pálit součástí jména jako Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

Papíry S Kódem

Zdroj

Papíry S Kódem, je to skvělá iniciativa na vytvoření svobodné a otevřené resource pool obsahující ML papíry, spolu s kódem a hodnotící tabulky. Můžete snadno procházet dostupné dokumenty (včetně nejmodernějších) a vyhledávat podle témat, například zbarvení obrazu v doméně počítačového vidění.

tato webová stránka je opravdu užitečná, když chcete experimentovat s nějakým přístupem nebo jej aplikovat na datovou sadu, aniž byste sami psali celý kód. I když je takové cvičení rozhodně užitečné a hodně se naučíte, někdy stačí hacknout MVP, abyste ukázali, že něco skutečně funguje pro váš případ použití a vytváří přidanou hodnotu. Po získání požadovaného schválení se můžete klidně ponořit do kódu, abyste pochopili všechny nuance konkrétního modelu nebo architektury.

Kaggle

Kaggle se stal platformou pro lidi, kteří se chtějí účastnit soutěží strojového / hlubokého učení. Tisíce lidí se účastní soutěží o výcvik nejlepších modelů (často velkých a složitých souborů modelů), aby dosáhli nejlepšího skóre a získali uznání (a peněžní ceny).

samotná platforma je však mnohem víc než to. Pro začátek obsahuje Kaggle tisíce jader / notebooků, které ukazují praktickou implementaci ml algoritmů. Tvůrci často také poskytují důkladné teoretické vysvětlení modelů a jejich hyperparametrů. Tento Notebook obsahuje další odkazy na mnoho z nejpopulárnějších ml / DL algoritmů implementovaných do vlastních datových sad v jádrech Kaggle (Python i R).

A co víc, Kaggle také obsahuje mnoho vlastních, uživatelem nahraných datových souborů (v okamžiku psaní, přes 40k), které můžete použít pro vlastní analýzy. Najdete téměř cokoli, co může zvýšit váš zájem, od nejnovějších čísel týkajících se COVID-19 až po statistiky všech pokémonů. Mnoho článků TDS je psáno pomocí datových sad od Kaggle. Takže pokud si chcete procvičit své dovednosti na něčem jiném než Titanic nebo Boston domy, Kaggle je skvělé místo, kde začít.

R-bloggerů

Zdroj

jsem začal data science cestu s R, a dokonce i po přepnutí můj hlavní programovací jazyk Python jsem stále sledovat R-bloggerů. Jedná se o agregátor blogů (můžete se také připojit odesláním svého blogu) a pokrývá širokou škálu témat. Zatímco většina z nich souvisí s R, stále se můžete hodně naučit čtením o obecných přístupech k úkolům datové vědy.

věřím, že by se člověk neměl omezovat pouze na jeden programovací jazyk a ignorovat vše ostatní. Možná si přečtete o zajímavém projektu / balíčku v R a rozhodnete se jej přenést do Pythonu? Alternativně můžete použít rpy2 pro přístup k balíčkům R z Pythonu a usnadnit vám život.

Zatímco Python je v současné době číslo 1 jazyk v data science, stále existuje mnoho balíků a nástrojů, které nebyly portovány na Python od R. to je důvod, proč jsem přesvědčen, R-bloggery je velmi cenným zdrojem informací a může být zdrojem inspirace pro portování některých R funkce pro Python.

arXiv

arXiv je open-access repozitář elektronických preprintů vědeckých prací v oblastech, jako je informatika, strojové učení a mnoho dalších. V podstatě je to místo, kde hledat nejnovější výzkum a nejmodernější algoritmy. V dnešní době je však každý den přidáváno tolik nových článků, že je v podstatě nemožné sledovat vše. Proto Andrej Karpathy vytvořil ArXiv Sanity Preserver, aby se pokusil odfiltrovat nejdůležitější / relevantní dokumenty. Kromě toho můžete sledovat arXiv denně na Twitteru dostávat denně kurátor seznam nejdůležitějších výzkumných článků. Přátelské varování: počet tweetů může být ohromující.

GitHub úžasné strojové učení

toto GitHub repo obsahuje kurátorský seznam rámců strojového učení, knihoven a softwaru obecně. Pro naše pohodlí jsou seskupeny podle jazyka. Repo navíc obsahuje seznamy blogů, knih zdarma, online kurzů, konferencí, setkání a mnoho dalšího. Toto úložiště je určitě velmi cenné a můžete se na nějakou dobu ponořit do zkoumání všech dostupných informací. Užijte si to!

Twitter

tento je může být velmi subjektivní, protože v mnoha případech je Twitter používán jako sociální síť stejně jako Facebook. Snažím se jej však používat výhradně pro sledování lidí z oblasti datové vědy a vyhýbám se obsahu kliknutí. Mnoho vědců, autorů a jinak slavných vědců v oblasti dat má aktivní účty Twitter a často sdílejí zajímavý / relevantní obsah. Je to skvělý způsob, jak zůstat v obraze s novým vývojem a „horkými tématy“ v datové vědě.

seznam lidí, kteří budou následovat, bude velmi záviset na rozsahu vašich zájmů, například pokud se soustředíte na hluboké učení používané pro počítačové vidění nebo možná NLP. Doporučil bych začít s některými z vašich oblíbených autorů, ať už jsou to knihy nebo MOOC, a pak se seznam přirozeně rozroste, protože budete vystaveni dalším zajímavým lidem prostřednictvím retweetů atd.

jen v případě, že máte zájem, můžete najít lidi, které sleduji zde.

Další užitečné zdroje

výše uvedený seznam není v žádném případě vyčerpávající, protože internet je plný velmi užitečných zdrojů na data science. Níže uvádím některé další zdroje, které neudělaly můj vrchol 10, ale jsou také skvělé a často je používám:

  • KDnuggets
  • AWS Strojového Učení Blog
  • PyImageSearch
  • Vysvětlil.ai
  • Visual Capitalist
  • Data je Krásná
  • Analytics Vidhya

budu mít na aktualizaci seznamu v případě, že něco zapomenu nebo objevím něco nového 🙂

Závěry

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

lg