Foto Av Ivo Rainha på Unsplash

jeg tror du ikke vil argumentere med meg når jeg sier at datavitenskap blir et av de mest populære feltene å jobbe på, spesielt gitt At Harvard Business Review heter «data scientist» den sexigste jobben i det 21.århundre. I feltet har vi kommet langt, fra de tider da begreper som datavitenskap og maskinlæring fortsatt var ukjente, og alt ble samlet under statistikkens paraply. Vi er imidlertid langt fra slutten av reisen.

det kan også være et delende aspekt av datavitenskap — feltet utvikler seg så raskt at det kan være vanskelig å selv følge alle de nye algoritmer, teknikker og tilnærminger. Så å jobbe i datavitenskap, på samme måte som software engineering, krever ofte konstant læring og utvikling. Ikke misforstå, noen mennesker (inkludert meg selv) liker det mye. Andre foretrekker å lære i noen år, og så bare kutte kupongene fra den kunnskapen. Begge tilnærmingene er helt greit — det er en personlig preferanse.

som jeg nevnte, kan arbeid i datavitenskap være en reise. Det er derfor i denne artikkelen jeg vil dele mine 10 favoritt datavitenskapsressurser (online), som jeg ofte bruker til å lære og prøve å holde tritt med dagens utvikling. Denne listen vil fokusere på elektroniske ressurser (blogger, videoer, podcaster) og vil ikke dekke MOOCs eller bøker, da det er mer enn nok innhold der for en egen artikkel. La oss starte!

Kilde: https://towardsdatascience.com/

Dette bør ikke komme som noen overraskelse, gitt at du leser denne artikkelen publisert I Towards Data Science. TDS Er Mediums største publikasjon som dekker alle datavitenskapsrelaterte emner. Hva du kan finne her:

  • nybegynnervennlige opplæringsprogrammer med kode (på de fleste populære språk som Python, R, Julia, SQL og flere),
  • dyptgående beskrivelser av BESTEMTE ML-algoritmer eller teknikker,
  • sammendrag av innflytelsesrike artikler,
  • beskrivelser av personlige kjæledyrprosjekter,
  • siste nytt fra feltet,
  • og mer!

TDS skaper et veldig hyggelig fellesskap der alle oppfordres til å dele og delta. I tillegg kan jeg anbefale å bli med på nyhetsbrevet og følge TDS På Twitter for å holde tritt med de nyeste og mest populære artiklene.

Til Slutt kan Jeg også anbefale Towards Data Science podcast, som kan være spesielt nyttig for folk som lurer på hvordan de skal bryte seg inn i datavitenskap og finne sin perfekte rolle.

pydata (konferanse + videoer)

Kilde

PyData Er utdanningsprogrammet Til NumFOCUS-en ideell veldedighet som fremmer åpen praksis innen forskning, data og vitenskapelig databehandling. De organiserer konferanser over hele verden og oppfordrer forskere og utøvere til å dele sin innsikt fra sitt arbeid. I samtalene kan du finne en blanding av generelle Python beste praksis, eksempler på virkelige tilfeller dataforskerne jobbet med (for eksempel hvordan de modellerer churn eller hvilke verktøy de bruker til å generere en oppløfting i sine markedsføringskampanjer), og introduksjoner til noen nye biblioteker.

Når man Snakker av erfaring, er det veldig morsomt å faktisk delta på konferansen personlig, da du aktivt kan delta i presentasjonene, stille spørsmål og nettverk med folk som deler dine interesser. Men da dette ikke alltid er mulig, og det er for mange konferanser å delta, kan du finne alle opptakene på Deres YouTube-kanal. Normalt blir opptakene publisert noen måneder etter hver konferanse.

pydata-samtalene er en stor inspirasjonskilde, da du kan se hvordan andre selskaper nærmet seg et bestemt emne, og kanskje du kan bruke en lignende metode i din bedrift.

Maskinlæringsmesterskap

Jason Brownlees nettsted/blogg er en gullgruve av innhold for datavitenskapere,spesielt de mer junior. Du kan finne en mengde opplæringsprogrammer, fra klassiske statistiske modelleringsmetoder (lineær regresjon, ARIMA), til de nyeste og beste maskin/dype læringsløsninger. Artiklene er alltid veldig praktiske og inneholder Python-kode som bruker det spesielle konseptet til et leketøy datasett. Det som virkelig er bra med nettstedet er At Jason tydelig forklarer konseptene og også refererer til videre lesing for de som ønsker å dykke ekstra dypt inn i den teoretiske bakgrunnen. Du kan også filtrere alle artiklene etter emnet, hvis du bare er interessert i ubalansert læring eller hvordan du koder ditt første lstm-nettverk.

Destillasjon

Destillasjon tar sikte på å gi en klar og intuitiv forklaring på maskinlæringskonsepter. De hevder at papirene ofte er begrenset TIL PDF-filene, som ikke alltid kan vise hele bildet. OG i tider DA ML får mer og mer innflytelse, er det avgjørende å ha en god forståelse av hvordan verktøyene vi bruker faktisk fungerer.

Destilleri bruker imponerende og interaktive visualiseringer for å tydelig forklare hva som faktisk skjer bak kulissene i maskinlæringsalgoritmene. En av mine favoritt artikler der beskrevet t-SNE (t-distribuert stokastisk nabo embedding) og viste hvordan de genererte grafer, mens visuelt tiltalende kan være misvisende. Det påpekte også betydningen av hyperparametrene ved å gi et interaktivt verktøy for å se effekten førstehånds.

hvis du trenger noen ekstra forsikringer om kvaliteten på innholdet der, inkluderte styringsgruppen bak Destilleri navn som Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

Papirer Med Kode

Source

Papers With Code Er et flott initiativ for å skape et gratis og åpent ressurspool som inneholder ML-papirer, sammen med kode – og evalueringstabellene. Du kan enkelt bla gjennom de tilgjengelige papirene (inkludert State-of-The-Art) og søke etter emner, for eksempel bildefarging i computer vision-domenet.

denne nettsiden kommer veldig praktisk når Du vil eksperimentere med noen tilnærming eller bruke den på datasettet ditt, uten å skrive all koden selv. Mens en slik øvelse er definitivt nyttig, og du vil lære mye, noen ganger trenger du bare å hacke sammen EN MVP for å vise at noe faktisk fungerer for din bruk-sak og genererer verdiøkende. Etter å ha fått den nødvendige godkjenningen, kan du rolig dykke inn i koden for å forstå alle nyanser av en bestemt modell eller arkitektur.

Kaggle

Kaggle ble go-to plattform for folk som ønsker å delta i maskin / dyp læring konkurranser. Tusenvis av mennesker deltar i konkurranser for å trene de beste modellene (ofte store og komplekse ensembler av modeller) for å oppnå best poengsum og få anerkjennelse (og pengepremier).

men selve plattformen er mye mer enn det. For det første inneholder Kaggle tusenvis Av Kjerner / Notatbøker, som viser den praktiske implementeringen AV ML-algoritmer. Ofte gir skaperne også en grundig teoretisk forklaring på modellene og deres hyperparametere. Denne Notatboken inneholder flere lenker til mange AV DE mest populære ML / DL-algoritmene som er implementert til egendefinerte datasett i Kaggle-Kjerner (Både Python og R).

I tillegg Inneholder Kaggle også mange tilpassede, brukeropplastede datasett (i skrivende stund, over 40k) som du kan bruke til dine egne analyser. Du kan finne stort sett alt som kan øke interessen din, fra de siste tallene om COVID-19 til statistikken til Alle Poké der ute. Mange tds-artikler er skrevet ved hjelp av datasettene fra Kaggle. Så hvis Du vil øve dine ferdigheter på noe annet enn Titanic eller Boston hus, Er Kaggle et flott sted å starte.

R-bloggere

Kilde

jeg startet datavitenskapsreisen med R, og selv etter å ha byttet hovedprogrammeringsspråket til Python følger jeg Fortsatt r-bloggere. Det er en blogg aggregator (du kan også bli med ved å sende inn bloggen din) og dekker et bredt spekter av emner. Mens de fleste av Dem Er R-relaterte, kan du fortsatt lære ganske mye ved å lese om generelle tilnærminger til datavitenskapsoppgaver.

jeg tror at man ikke bør begrense seg til bare ett programmeringsspråk og ignorere alt annet. Kanskje du vil lese om et interessant prosjekt / pakke I R og vil bestemme seg for å portere Det Til Python? Alternativt kan du bruke rpy2 for å få Tilgang Til r-pakker fra Python og gjøre livet ditt enklere.

Mens Python for tiden er nummer 1-språket i datavitenskap, er Det fortsatt mange pakker og verktøy som ikke har blitt portet Til Python Fra R. Derfor tror Jeg At r-bloggere er en svært verdifull ressurs og kan være en kilde til inspirasjon for å overføre Noen r-funksjoner til Python.

arXiv

arXiv Er Cornell Universitys open access-arkiv for elektroniske fortrykk av vitenskapelige artikler innen områder som datavitenskap, maskinlæring og mange flere. I utgangspunktet er dette stedet å lete etter den nyeste forskningen og toppmoderne algoritmer. Men i dag er det så mange nye artikler lagt til hver dag at det i utgangspunktet er umulig å følge alt. Det er derfor Andrej Karpathy opprettet ArXiv Sanity Preserver for å prøve å filtrere ut de viktigste / relevante papirene. I Tillegg kan du følge arXiv Daglig På Twitter for å motta en daglig kuratert liste over de viktigste forskningsartiklene. Vennlig advarsel: antall tweets kan være overveldende.

GitHub Awesome Machine Learning

Denne GitHub repo inneholder en kuratert liste over maskinlæringsrammer, biblioteker og programvare generelt. For vår bekvemmelighet er de gruppert etter språk. I tillegg inneholder repo lister over blogger, gratis bøker, online kurs, konferanser, meetups, og mye mer. Dette depotet er definitivt veldig verdifullt, og du kan synke inn for en stund å utforske all tilgjengelig informasjon. Nyt!

Twitter

Denne er kan være veldig subjektiv, Som I Mange tilfeller Twitter brukes som et sosialt nettverk akkurat Som Facebook. Imidlertid prøver jeg å bruke den utelukkende for å følge folk fra datavitenskapsfeltet og unngå klikk-baity-innhold. Mange forskere, forfattere og ellers kjente datavitenskapere har aktive Twitter-kontoer, og de deler ofte interessant/relevant innhold. Det er en fin måte å holde deg oppdatert med de nye utviklingene og «hot topics» i datavitenskap.

listen over personer som skal følge, vil i stor grad avhenge av omfanget av interessene dine, for eksempel hvis du fokuserer på dyp læring som brukes til datasyn eller KANSKJE NLP. Jeg vil anbefale å starte med noen av favorittforfatterne dine, det være seg bøker eller MOOCs, og så vil listen naturlig vokse, da du vil bli utsatt for andre interessante mennesker via retweets, etc.

Bare hvis du er interessert, kan du finne folkene jeg følger her.

Andre nyttige ressurser

listen ovenfor er på ingen måte uttømmende, da internett er fullt av svært nyttige ressurser på datavitenskap. Nedenfor lister jeg noen ekstra ressurser som ikke gjorde min topp 10, men er også gode, og jeg bruker dem ofte:

  • KDnuggets
  • AWS Maskinlæringsblogg
  • PyImageSearch
  • Explained.ai
  • Visual Capitalist
  • Data Er Vakker
  • Analytics Vidhya

jeg vil fortsette å oppdatere listen i tilfelle noe gled meg eller jeg oppdager noe nytt:)

Konklusjoner

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.

lg