fotó: Ivo Rainha az Unsplash oldalon

azt hiszem, nem fogsz vitatkozni velem, amikor kijelentem, hogy az Adattudomány az egyik legnépszerűbb terület, ahol dolgozni kell, különös tekintettel arra, hogy a Harvard Business Review “data scientist” – nek nevezte a 21.század legszexisebb munkáját. Ezen a területen hosszú utat tettünk meg, attól az időtől kezdve, amikor az olyan kifejezések, mint az Adattudomány és a gépi tanulás még ismeretlenek voltak, és mindent a statisztika égisze alatt gyűjtöttek össze. Azonban messze vagyunk az út végétől.

ez az Adattudomány megosztó aspektusa is lehet — a terület olyan gyorsan fejlődik, hogy nehéz lehet követni az összes új algoritmust, technikát és megközelítést. Tehát az adattudományban végzett munka, hasonlóan a szoftverfejlesztéshez, gyakran folyamatos tanulást és fejlődést igényel. Ne érts félre, néhány embernek (magamat is beleértve) nagyon tetszik. Mások inkább néhány évig tanulnak, majd csak kivágják a kuponokat ebből a tudásból. Mindkét megközelítés teljesen rendben van-ez személyes preferencia.

mint említettem, az adattudományban való munka Utazás lehet. Ezért ebben a cikkben szeretném megosztani a 10 kedvenc adattudományi forrásomat (online is), amelyeket gyakran használok a tanuláshoz és a jelenlegi fejleményekkel való lépéshez. Ez a lista az online forrásokra (blogok, videók, podcastok) összpontosít, és nem terjed ki a MOOC-okra vagy a könyvekre, mivel több mint elegendő tartalom van egy külön cikkhez. Kezdjük!

forrás: https://towardsdatascience.com/

ez nem lehet meglepő, mivel ezt a cikket olvasod a Towards Data Science-ben. A TDS a Medium legnagyobb kiadványa, amely az összes adattudományhoz kapcsolódó témát lefedi. Amit itt talál:

  • kezdőbarát oktatóanyagok kóddal (a legnépszerűbb nyelveken, mint például a Python, R, Julia, SQL és így tovább),
  • az egyes ML algoritmusok vagy technikák részletes leírása,
  • befolyásos papírok összefoglalói,
  • személyes kisállat projektek leírása,
  • a legfrissebb hírek a területről,
  • és több!

a TDS egy igazán szép közösséget hoz létre, amelyben mindenkit arra ösztönöznek, hogy ossza meg és vegyen részt benne. Ezenkívül nagyon ajánlom, hogy csatlakozzon a hírlevélhez és kövesse a TDS-t a Twitteren, hogy lépést tartson a legújabb és legnépszerűbb cikkekkel.

végül ajánlom a towards Data Science podcastot is, amely különösen hasznos lehet azok számára, akik azon gondolkodnak, hogyan lehet betörni az data science-be és megtalálni a tökéletes szerepüket.

PyData (konferencia + videók)

forrás

a PyData a numfocus oktatási programja — egy nonprofit jótékonysági szervezet, amely a kutatás, az adatok és a tudományos számítástechnika nyílt gyakorlatait népszerűsíti. Konferenciákat szerveznek a világ minden tájáról, arra ösztönözve a kutatókat és a szakembereket, hogy osszák meg tapasztalataikat munkájukból. A beszélgetésekben megtalálható az Általános Python bevált gyakorlatok keveréke, példák a valós esetekre, amelyeken az adattudósok dolgoztak (például hogyan modellezik a lemorzsolódást, vagy milyen eszközöket használnak a felemelkedés generálásához marketing kampányaikban), és bemutatkozások néhány új könyvtárba.

tapasztalatból kiindulva nagyon szórakoztató személyesen részt venni a konferencián, mivel aktívan részt vehet az előadásokban, kérdéseket tehet fel, és kapcsolatba léphet olyan emberekkel, akik osztják az érdeklődését. Mivel azonban ez nem mindig lehetséges, és egyszerűen túl sok konferencia van ahhoz, hogy részt vegyen, az összes felvételt megtalálhatja a YouTube-csatornájukon. Általában a felvételeket néhány hónappal az egyes konferenciák után teszik közzé.

a PyData beszélgetések nagyszerű inspirációs forrást jelentenek, mivel láthatja, hogy más vállalatok hogyan közelítettek meg egy adott témát, és talán hasonló módszert alkalmazhat a vállalatában.

Gépi tanulás elsajátítása

Jason Brownlee honlapja/blogja A tartalom aranybányája az adattudósok számára, különösen a fiatalabbak számára. Rengeteg oktatóanyagot talál, a klasszikus statisztikai modellezési megközelítésektől (lineáris regresszió, ARIMA) a legújabb és legnagyobb gépi/mély tanulási megoldásokig. A cikkek mindig nagyon praktikusak, és Python kódot tartalmaznak, amely az adott fogalmat alkalmazza egy játékadatkészletre. Ami igazán nagyszerű a weboldalon, hogy Jason világosan elmagyarázza a fogalmakat, és további olvasásra is utal azok számára, akik extra mélyre akarnak merülni az elméleti háttérbe. Az összes cikket a téma szerint is szűrheti, abban az esetben, ha csak a kiegyensúlyozatlan tanulás vagy az első LSTM-hálózat kódolása érdekli.

Distill

a Distill célja, hogy világos és intuitív magyarázatot adjon a gépi tanulási koncepciókra. Azt állítják, hogy a papírok gyakran csak a PDF fájlokat, amelyek nem mindig mutatják a teljes képet. És azokban az időkben, amikor az ML egyre nagyobb hatást gyakorol, elengedhetetlen, hogy jól megértsük, hogyan működnek az általunk használt eszközök.

a Distill lenyűgöző és interaktív vizualizációkat használ, hogy világosan elmagyarázza, mi történik valójában a gépi tanulási algoritmusok kulisszái mögött. Az egyik kedvenc cikkem a t-SNE-T (T-distributed stochastic neighbor embedding) írta le, és megmutatta, hogy a generált grafikonok, miközben vizuálisan tetszetősek lehetnek félrevezetőek. Rámutatott a hiperparaméterek jelentőségére is azáltal, hogy interaktív eszközt biztosított a hatás első kézből történő megtekintéséhez.

ha további biztosítékokra van szüksége az ottani tartalom minőségével kapcsolatban, a Distill mögött álló irányítóbizottság olyan neveket tartalmazott, mint Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

kóddal ellátott papírok

forrás

a Papers with Code egy nagyszerű kezdeményezés egy ingyenes és nyílt erőforráskészlet létrehozására, amely ML-papírokat tartalmaz, a kóddal és az értékelési táblázatokkal együtt. Könnyedén böngészhet a rendelkezésre álló papírok (beleértve a State-of-the-Art) és keresés témák, például a kép színezése belül a számítógépes látás tartományban.

ez a weboldal nagyon hasznos, ha valamilyen megközelítéssel szeretne kísérletezni, vagy alkalmazni szeretné az adatkészletére, anélkül, hogy az összes kódot maga írná. Bár egy ilyen gyakorlat határozottan hasznos, és sokat fog tanulni, néha csak meg kell csapkodnia egy MVP-t, hogy megmutassa, hogy valami valóban működik a használati esetben, és hozzáadott értéket generál. A szükséges jóváhagyás megszerzése után nyugodtan belemerülhet a kódba, hogy megértse egy adott modell vagy architektúra összes árnyalatát.

Kaggle

a Kaggle a gépi/mély tanulási versenyeken részt venni kívánó emberek platformjává vált. Több ezer ember vesz részt versenyeken, hogy a vonat a legjobb modellek (gyakran nagy és összetett együttesek modellek), hogy elérjék a legjobb pontszámot, és szert elismerést (és pénzbeli díjakat).

maga a platform azonban ennél sokkal több. Kezdetnek A Kaggle több ezer kernelt/notebookot tartalmaz, bemutatva az ML algoritmusok gyakorlati megvalósítását. Az alkotók gyakran részletes elméleti magyarázatot adnak a modellekről és azok hiperparamétereiről. Ez a jegyzetfüzet további linkeket tartalmaz a legnépszerűbb ML / DL algoritmusokhoz, amelyeket a Kaggle kernelek egyéni adatkészleteihez (mind a Python, mind az R) valósítottak meg.

mi több, a Kaggle számos egyedi, felhasználó által feltöltött adatkészletet is tartalmaz (az írás pillanatában, több mint 40 ezer), amelyeket felhasználhat saját elemzéseihez. Nagyon sok mindent megtalálhat, ami felkeltheti érdeklődését, a COVID-19-re vonatkozó legfrissebb számoktól kezdve az összes Poko-szám Statisztikájáig. Sok TDS cikket a Kaggle adatkészleteinek felhasználásával írnak. Tehát, ha a Titanic vagy a bostoni házakon kívül valami máson szeretné gyakorolni képességeit, a Kaggle remek hely a kezdéshez.

R-bloggerek

forrás

az R-vel kezdtem az adattudományi utamat, és még a fő programozási nyelvem Pythonra váltása után is követem az R-bloggereket. Ez egy blog-összesítő (csatlakozhat a blog elküldésével is), és a témák széles skáláját öleli fel. Míg a legtöbbjük R-rel kapcsolatos, még mindig sokat tanulhat, ha elolvassa az adattudományi feladatok általános megközelítéseit.

úgy gondolom, hogy az embernek nem szabad csak egy programozási nyelvre korlátozódnia, és minden mást figyelmen kívül hagynia. Lehet, hogy olvas egy érdekes projektről/csomagról az R – ben, és úgy dönt, hogy Portolja a Pythonba? Alternatív megoldásként a rpy2 használatával elérheti a Python R csomagjait, és megkönnyítheti az életét.

míg a Python jelenleg az 1.számú nyelv az adattudományban, még mindig sok olyan csomag és eszköz van, amelyet nem portoltak Pythonba az R-ből.

arXiv

az arXiv a Cornell Egyetem nyílt hozzáférésű tudományos dokumentumok elektronikus előnyomatainak tárháza olyan területeken, mint a számítástechnika, a gépi tanulás és még sok más. Alapvetően ez a hely a legújabb kutatások és a legmodernebb algoritmusok keresésére. Manapság azonban olyan sok új cikk kerül hozzáadásra minden nap, hogy alapvetően lehetetlen mindent követni. Ezért hozta létre Andrej Karpathy az ArXiv Sanity Preserver-t, hogy megpróbálja kiszűrni a legfontosabb/releváns dokumentumokat. Ezenkívül naponta követheti az arXiv-t a Twitteren, hogy megkapja a legfontosabb kutatási cikkek napi kurált listáját. Barátságos figyelmeztetés: a tweetek száma elsöprő lehet.

GitHub Awesome Machine Learning

ez a GitHub repo a gépi tanulási keretrendszerek, könyvtárak és általában a szoftverek kurátora. A mi kényelmünk érdekében nyelv szerint vannak csoportosítva. Ezenkívül a repo blogok, ingyenes könyvek, online tanfolyamok, konferenciák, találkozók és még sok más listáját tartalmazza. Ez az adattár határozottan nagyon értékes, és jó ideig belemerülhet az összes rendelkezésre álló információ feltárásába. Élvezd!

Twitter

ez nagyon szubjektív lehet, mivel sok esetben a Twittert ugyanúgy használják közösségi hálózatként, mint a Facebook. Megpróbálom azonban kizárólag az Adattudomány területén élő emberek követésére használni, és elkerülni a kattintási tartalmat. Sok kutató, szerző és egyébként híres adattudós aktív Twitter-fiókkal rendelkezik, és gyakran érdekes/releváns tartalmat osztanak meg. Ez egy nagyszerű módja annak, hogy naprakész legyen az új fejlesztésekkel és a “forró témákkal” az adattudományban.

a követendő emberek listája nagymértékben függ az érdeklődési körétől, például ha a számítógépes látáshoz használt mély tanulásra vagy esetleg az NLP-re összpontosít. Azt javaslom, hogy kezdje néhány kedvenc szerzőjével, legyen az könyv vagy MOOC, majd a lista természetesen növekszik, mivel retweeteken keresztül más érdekes embereknek lesz kitéve stb.

csak abban az esetben, ha érdekli, megtalálja az embereket, akiket követek itt.

egyéb hasznos források

a fenti lista egyáltalán nem kimerítő, mivel az internet tele van nagyon hasznos erőforrásokkal az adattudományról. Az alábbiakban felsorolok néhány további forrást, amelyek nem tették meg a top 10-et, de nagyszerűek is, és gyakran használom őket:

  • KDnuggets
  • AWS gépi tanulási Blog
  • PyImageSearch
  • Explained.ai
  • Visual Capitalist
  • az adatok gyönyörűek
  • Analytics Vidhya

folyamatosan frissítem a listát, ha valami kiment a fejemből, vagy valami újat fedezek fel 🙂

következtetések

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.

lg