Kuva: Ivo Rainha on Unsplash

luulen, ettet väitä vastaan todetessani, että datatieteestä on tulossa yksi suosituimmista aloista työskennellä, varsinkin kun Harvard Business Review nimesi ”data Scientistin” 2000-luvun seksikkäimmäksi työpaikaksi. Alalla olemme päässeet pitkälle ajoista, jolloin termit kuten datatiede ja koneoppiminen olivat vielä tuntemattomia ja kaikki koottiin tilastojen sateenvarjon alle. Olemme kuitenkin kaukana matkan lopusta.

sekin voi olla datatieteen jakava näkökulma-ala kehittyy niin nopeasti, että voi olla vaikea edes seurata kaikkia uusia algoritmeja, tekniikoita ja lähestymistapoja. Datatieteessä työskentely ohjelmistotekniikan tavoin vaatii siis usein jatkuvaa oppimista ja kehittämistä. Älkää ymmärtäkö minua väärin, jotkut ihmiset (minä mukaan lukien) pitävät siitä paljon. Toiset haluavat oppia muutaman vuoden ja sitten vain leikata kuponkeja siitä tiedosta. Molemmat lähestymistavat ovat täysin kunnossa-se on henkilökohtainen mieltymys.

kuten mainitsin, datatieteen parissa työskentely voi olla matka. Siksi tässä artikkelissa, haluan jakaa minun 10 suosikki data science resursseja (online niistä), jota käytän usein oppimiseen ja yrittää pysyä nykyisen kehityksen. Tämä luettelo keskittyy online-resursseihin (blogit, videot, podcastit) eikä kata Mooceja tai kirjoja, koska siellä on enemmän kuin tarpeeksi sisältöä erilliseen artikkeliin. Aloitetaan!

lähde: https://towardsdatascience.com/

tämän ei pitäisi tulla yllätyksenä, koska luet tämän artikkelin julkaistu kohti Data Science. TDS on Mediumin suurin julkaisu, joka kattaa kaikki datatieteeseen liittyvät aiheet. Mitä löydät täältä:

  • aloittelijaystävällisiä tutorials with code (suosituimmissa kielissä kuten Python, R, Julia, SQL ja muut),
  • syvällisiä kuvauksia tietyistä ML: n algoritmeista tai tekniikoista,
  • tiivistelmiä vaikutusvaltaisista kirjoituksista,
  • kuvauksia henkilökohtaisista lemmikkiprojekteista,
  • viimeisimmät uutiset alalta,
  • ja enemmän!

TDS luo todella mukavan yhteisön, jossa kaikkia kannustetaan jakamaan ja osallistumaan. Lisäksi, voin erittäin suositella liittymistä uutiskirjeen ja seuraavat tds Twitterissä pysyä uusimmat ja suosituimmat artikkelit.

lopuksi voin suositella myös kohti Data Science-podcastia, joka voi olla erityisen hyödyllinen ihmisille, jotka miettivät, miten murtautua datatieteeseen ja löytää täydellisen roolinsa.

PyData (konferenssi + videot)

lähde

PyData on NumFOCUS — voittoa tavoittelemattoman hyväntekeväisyysjärjestön koulutusohjelma, joka edistää avoimia käytäntöjä tutkimuksessa, datassa ja tieteellisessä tietojenkäsittelyssä. He järjestävät konferensseja ympäri maailmaa kannustaen tutkijoita ja harjoittajia jakamaan näkemyksiään työstään. Keskusteluista löytyy sekoitus yleisiä Python – parhaita käytäntöjä, esimerkkejä tosielämän tapauksista, joita datatutkijat ovat työstäneet (esimerkiksi miten he mallintavat kirnua tai mitä työkaluja he käyttävät tuottaakseen nostetta markkinointikampanjoissaan), ja esittelyjä joihinkin uusiin kirjastoihin.

kokemuksesta puheen ollen, on todella hauskaa osallistua konferenssiin henkilökohtaisesti, sillä voit osallistua aktiivisesti esitelmiin, esittää kysymyksiä ja verkostoitua ihmisten kanssa, jotka jakavat kiinnostuksen kohteesi. Kuitenkin, koska tämä ei ole aina mahdollista ja yksinkertaisesti on liian monta konferensseja osallistua, löydät kaikki tallenteet niiden YouTube-kanava. Tavallisesti nauhoitukset julkaistaan muutaman kuukauden kuluttua jokaisesta konferenssista.

PyData-puheet ovat suuri inspiraation lähde, sillä voit nähdä, miten muut yritykset lähestyivät tiettyä aihetta, ja ehkä voit soveltaa vastaavaa menetelmää omassa yrityksessäsi.

koneoppimisen mestaruus

Jason Brownleen verkkosivut/blogi on datatieteilijöille, erityisesti nuoremmille, sisällön kultakaivos. Löydät lukuisia opetusohjelmia klassisista tilastollisista mallinnustavoista (lineaarinen regressio, ARIMA) uusimpiin ja suurimpiin kone/syväoppimisen ratkaisuihin. Artikkelit ovat aina hyvin käytännönläheisiä ja sisältävät Python-koodia, jossa käytetään tiettyä käsitettä leluaineistoon. Mikä on todella hienoa verkkosivuilla on, että Jason selkeästi selittää käsitteet ja viittaa myös jatkolukemiseen niille, jotka haluavat sukeltaa erityisen syvälle teoreettiseen taustaan. Voit myös suodattaa kaikki artikkelit aiheen mukaan, jos olet kiinnostunut vain epätasapainoisesta oppimisesta tai ensimmäisen lstm-verkon koodaamisesta.

Distill

Distill pyrkii tarjoamaan selkeän ja intuitiivisen selityksen koneoppimisen käsitteille. He väittävät, että paperit ovat usein vain PDF-tiedostoja, jotka eivät voi aina näyttää koko kuvaa. Ja aikoina, jolloin ML: n vaikutus kasvaa, on tärkeää saada hyvä käsitys siitä, miten käyttämämme välineet todella toimivat.

Distill käyttää vaikuttavia ja interaktiivisia visualisointeja selittääkseen selkeästi, mitä koneoppimisen algoritmien kulissien takana todellisuudessa tapahtuu. Yksi suosikki artikkeleita on kuvattu t-SNE (t-jaettu stokastinen naapuri upottaminen) ja osoitti, miten syntyy kaavioita, kun taas visuaalisesti miellyttävä voi olla harhaanjohtava. Se osoitti myös hyperparametrien merkityksen tarjoamalla interaktiivisen työkalun, jolla törmäys voidaan nähdä omakohtaisesti.

jos tarvitset lisävakuuksia sisällön laadusta, Distillin takana olevaan ohjauskomiteaan kuului nimiä, kuten Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

koodattuja papereita

Source

Papers with Code on loistava aloite luoda ilmainen ja avoin resurssipooli, joka sisältää ML-paperit, sekä koodi-ja arviointitaulukot. Voit helposti selata saatavilla olevia papereita (mukaan lukien huipputekninen) ja etsiä aihepiireittäin, esimerkiksi kuvan värityksen tietokoneen vision-toimialueen sisällä.

tämä sivusto on todella kätevä, kun haluat kokeilla jotain lähestymistapaa tai soveltaa sitä tietokokonaisuuteesi kirjoittamatta itse kaikkea koodia. Vaikka tällainen harjoitus on varmasti hyödyllistä ja opit paljon, joskus sinun tarvitsee vain hakata yhteen MVP osoittaa, että jotain todella toimii käyttötapaus ja tuottaa lisäarvoa. Kun olet saanut vaaditun hyväksynnän, voit rauhassa sukeltaa koodiin ymmärtääksesi kaikki tietyn mallin tai arkkitehtuurin vivahteet.

Kaggle

Kaggle muodostui kone / syväoppimiskilpailuihin haluavien ihmisten go-to-alustaksi. Tuhannet ihmiset osallistuvat kilpailuihin kouluttaa parhaita malleja (usein suuria ja monimutkaisia kokoonpanoja malleja) saavuttaa parhaat pisteet ja saada tunnustusta (ja rahapalkintoja).

itse alusta on kuitenkin paljon muutakin. Alkajaisiksi, Kaggle sisältää tuhansia ytimiä / muistikirjat, osoittaa käytännön täytäntöönpanoa ML algoritmeja. Usein tekijät antavat myös syvällisen teoreettisen selityksen malleista ja niiden hyperparametreista. Tämä muistikirja sisältää lisälinkkejä moniin suosituimpiin ML / DL-algoritmeihin, jotka on toteutettu Kaggle-ytimissä (sekä Python-että R-ytimissä).

lisäksi Kaggle sisältää myös monia mukautettuja, käyttäjän lataamia aineistoja (kirjoitushetkellä yli 40k), joita voit käyttää omiin analyyseihisi. Voit löytää melko paljon mitä tahansa, joka voi piikki kiinnostuksesi, alkaen uusimmat numerot koskevat COVID-19 tilastot kaikki Pokémon siellä. Monet tds-artikkelit on kirjoitettu kagglen aineistojen avulla. Joten jos haluat harjoitella taitojaan jotain muuta kuin Titanic tai Boston talot, Kaggle on hyvä paikka aloittaa.

R-bloggaajat

lähde

aloitin datatiedematkani R: llä, ja vaikka vaihdoin pääohjelmointikieleni Pythoniin, seuraan edelleen R-bloggaajia. Se on blogin koostaja (voit liittyä myös lähettämällä blogisi) ja kattaa laajan valikoiman aiheita. Vaikka useimmat niistä ovat R-liittyviä, voit silti oppia melko paljon lukemalla yleisiä lähestymistapoja data science tehtäviä.

mielestäni ei pidä tyytyä vain yhteen ohjelmointikieleen ja sivuuttaa kaikkea muuta. Ehkä luet kiinnostavasta projektista / paketista R: ssä ja päätät siirtää sen Pythoniin? Vaihtoehtoisesti voit käyttää rpy2 Pythonin R-paketteja ja helpottaa elämääsi.

vaikka Python on tällä hetkellä numero 1 kieli data science, on vielä monia paketteja ja työkaluja, joita ei ole siirretty Python alkaen R. siksi uskon R-bloggers on erittäin arvokas resurssi ja saattaa olla inspiraation lähde siirrettäessä joitakin R toiminnallisuuksia Python.

arXiv

arXiv on Cornellin yliopiston avoin Arkistolaitos, jossa on elektronisia preprint-painoksia tieteellisistä julkaisuista, kuten tietojenkäsittelytieteestä, koneoppimisesta ja monista muista aloista. Pohjimmiltaan, tämä on paikka etsiä uusinta tutkimusta ja state-of-the-art algoritmeja. Nykyään joka päivä lisätään kuitenkin niin paljon uusia artikkeleita, että kaikkea on periaatteessa mahdotonta seurata. Siksi Andrej Karpathy loi ArXiv Sanity Preserver yrittää suodattaa pois tärkeimmät / olennaiset paperit. Lisäksi, voit seurata arxiv päivittäin Twitterissä saada päivittäin kuratoitu luettelo tärkeimmistä tutkimusartikkeleita. Ystävällinen varoitus: twiittien määrä voi olla ylivoimainen.

GitHub Awesome Machine Learning

tämä GitHub repo sisältää kuratoidun luettelon koneoppimisen kehyksistä, kirjastoista ja ohjelmistoista yleensä. Mukavuutemme vuoksi ne on ryhmitelty kielen mukaan. Lisäksi repo sisältää listoja blogeista, ilmaisista kirjoista, verkkokursseista, konferensseista, tapaamisista ja paljon muuta. Tämä arkisto on ehdottomasti erittäin arvokas ja voit uppoutua jonkin aikaa tutkia kaikki saatavilla olevat tiedot. Nauti!

Twitter

tämä voi olla hyvin subjektiivinen, sillä monissa tapauksissa Twitteriä käytetään yhteisöpalveluna aivan kuten Facebookia. Kuitenkin, yritän käyttää sitä yksinomaan seurata ihmisiä data science alalla ja välttää click-baity sisältöä. Monet tutkijat, kirjoittajat, ja muuten kuuluisa data tutkijat ovat aktiivisia Twitter tilejä ja ne usein jakaa mielenkiintoista/merkityksellistä sisältöä. Se on hyvä tapa pysyä ajan tasalla datatieteen uusista kehityskuluista ja ”kuumista aiheista”.

seurattavien lista riippuu suuresti kiinnostuksen kohteidesi laajuudesta, esimerkiksi jos keskityt syväoppimiseen, jota käytetään tietokonenäköön tai vaikkapa NLP: hen. Suosittelen aloittamaan joistakin suosikkikirjailijoistasi, olipa kyse sitten kirjoista tai Mooceista, ja sitten luettelo luonnollisesti kasvaa, koska sinut altistetaan muille mielenkiintoisille ihmisille retweettien kautta jne.

jos kiinnostaa, niin täältä löytyvät Seuraamani ihmiset.

muut hyödylliset resurssit

yllä oleva luettelo ei ole suinkaan tyhjentävä, sillä internet on täynnä erittäin hyödyllisiä aineistoja datatieteessä. Alla luettelen joitakin lisäresursseja, jotka eivät tehneet minun top 10, mutta ovat myös suuria ja käytän niitä usein:

  • KDnuggets
  • AWS Machine Learning Blog
  • PyImageSearch
  • Explained.ai
  • visuaalinen kapitalisti
  • Data on kaunis
  • analytiikka Vidhya

päivitän listaa jatkuvasti siltä varalta, että jotain unohtui tai keksin jotain uutta:)

päätelmät

Vastaa

Sähköpostiosoitettasi ei julkaista.

lg