foto av Ivo Rainha på Unsplash

jag tror att du inte kommer att argumentera med mig när jag säger att datavetenskap blir ett av de mest populära områdena att arbeta på, särskilt med tanke på att Harvard Business Review heter ”data scientist” det sexigaste jobbet i det 21: a århundradet. På fältet har vi kommit långt, från de tider då termer som datavetenskap och maskininlärning fortfarande var okända och allt samlades under statistikens paraply. Men vi är långt ifrån slutet på resan.

det kan också vara en delande aspekt av datavetenskap — fältet utvecklas så snabbt att det kan vara svårt att ens följa alla nya algoritmer, tekniker och tillvägagångssätt. Så att arbeta inom datavetenskap, på samma sätt som mjukvaruutveckling, kräver ofta konstant lärande och utveckling. Missförstå mig inte, vissa människor (inklusive mig själv) gillar det mycket. Andra föredrar att lära sig i några år och sedan bara klippa kupongerna från den kunskapen. Båda metoderna är helt bra – Det är en personlig preferens.

som jag nämnde kan det vara en resa att arbeta inom datavetenskap. Det är därför jag i den här artikeln vill dela mina 10 favoritdatavetenskapliga resurser (online), som jag ofta använder för att lära mig och försöka hålla jämna steg med den nuvarande utvecklingen. Denna lista kommer att fokusera på online-resurser (bloggar, videor, podcasts) och kommer inte att täcka MOOC eller böcker, eftersom det finns mer än tillräckligt med innehåll där för en separat artikel. Låt oss börja!

källa: https://towardsdatascience.com/

detta borde inte komma som någon överraskning, med tanke på att du läser den här artikeln publicerad i Towards Data Science. TDS är mediums största publikation som täcker alla datavetenskapliga ämnen. Vad du kan hitta här:

  • nybörjarvänliga handledning med kod (på de flesta populära språk som Python, R, Julia, SQL och mer),
  • djupgående beskrivningar av särskilda ml-algoritmer eller tekniker,
  • sammanfattningar av inflytelserika papper,
  • beskrivningar av personliga husdjursprojekt,
  • de senaste nyheterna från fältet,
  • och mer!

TDS skapar en riktigt trevlig gemenskap där alla uppmuntras att dela och delta. Dessutom kan jag starkt rekommendera att gå med i nyhetsbrevet och följa TDS på Twitter för att hålla jämna steg med de senaste och mest populära artiklarna.

slutligen kan jag också rekommendera Towards Data Science podcast, vilket kan vara särskilt användbart för människor som undrar hur man bryter sig in i datavetenskap och hittar sin perfekta Roll.

PyData (konferens + videor)

Source

PyData är utbildningsprogrammet för NumFOCUS — en ideell välgörenhet som främjar öppna metoder inom forskning, data och vetenskaplig databehandling. De organiserar konferenser över hela världen som uppmuntrar forskare och utövare att dela sina insikter från sitt arbete. I samtalen kan du hitta en blandning av allmänna Python bästa praxis, exempel på verkliga fall som datavetenskaparna arbetade med (till exempel hur de modellerar churn eller vilka verktyg de använder för att generera en upplyftning i sina marknadsföringskampanjer) och introduktioner till några nya bibliotek.

på tal av erfarenhet är det mycket roligt att faktiskt delta i konferensen personligen, eftersom du aktivt kan delta i presentationerna, ställa frågor och nätverk med människor som delar dina intressen. Men eftersom detta inte alltid är möjligt och helt enkelt det finns för många konferenser att delta, kan du hitta alla inspelningar på deras YouTube-kanal. Normalt publiceras inspelningarna några månader efter varje konferens.

pydata-samtalen är en stor inspirationskälla, eftersom du kan se hur andra företag närmade sig ett visst ämne, och kanske kan du använda en liknande metod i ditt företag.

Machine Learning Mastery

Jason Brownlees webbplats/blogg är en guldgruva av innehåll för datavetenskapare, särskilt de mer yngre. Du kan hitta en mängd handledning, från klassiska statistiska modelleringsmetoder (linjär regression, ARIMA), till de senaste och bästa maskin – /djupinlärningslösningarna. Artiklarna är alltid mycket praktiska och innehåller Python-kod som tillämpar det specifika konceptet på en leksaksdataset. Det som är riktigt bra med webbplatsen är att Jason tydligt förklarar begreppen och även hänvisar till vidare läsning för dem som vill dyka extra djupt in i den teoretiska bakgrunden. Du kan också filtrera alla artiklar efter ämnet, om du bara är intresserad av obalanserat lärande eller hur du kodar ditt första LSTM-nätverk.

destillera

destillera syftar till att ge en tydlig och intuitiv förklaring av maskininlärningskoncept. De hävdar att papper ofta är begränsade till PDF-filer, som inte alltid kan visa hela bilden. Och i tider när ML får mer och mer effekt är det viktigt att ha en god förståelse för hur de verktyg vi använder faktiskt fungerar.

destillera använder imponerande och interaktiva visualiseringar för att tydligt förklara vad som faktiskt händer bakom kulisserna i maskininlärningsalgoritmerna. En av mina favoritartiklar där beskrev t-SNE (t-distribuerad stokastisk granne inbäddning) och visade hur de genererade graferna, medan visuellt tilltalande kan vara vilseledande. Det påpekade också betydelsen av hyperparametrarna genom att tillhandahålla ett interaktivt verktyg för att se effekten från första hand.

om du behöver några extra försäkringar om kvaliteten på innehållet där, styrgruppen bakom Destilll ingår namn som Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

papper med kod

källa

Papers With Code är ett bra initiativ för att skapa en fri och öppen resurspool som innehåller ML-papper, tillsammans med kod-och utvärderingstabellerna. Du kan enkelt bläddra bland tillgängliga papper (inklusive toppmoderna) och söka efter ämnen, till exempel bildfärgning inom datorvisionsdomänen.

den här webbplatsen är väldigt praktisk när du vill experimentera med något tillvägagångssätt eller tillämpa det på din dataset, utan att faktiskt skriva all kod själv. Medan en sådan övning definitivt är till hjälp och du kommer att lära dig mycket, behöver du ibland bara hacka ihop en MVP för att visa att något faktiskt fungerar för ditt användningsfall och genererar mervärde. Efter att ha fått det nödvändiga godkännandet kan du lugnt dyka in i koden för att förstå alla nyanser av en viss modell eller arkitektur.

Kaggle

Kaggle blev go-to plattform för människor som vill delta i maskin/djup lärande tävlingar. Tusentals människor deltar i tävlingar för att träna de bästa modellerna (ofta stora och komplexa ensembler av modeller) för att uppnå bästa poäng och få erkännande (och monetära priser).

men själva plattformen är mycket mer än så. Till att börja med innehåller Kaggle tusentals kärnor/bärbara datorer som visar det praktiska genomförandet av ML-algoritmer. Ofta ger skaparna också en djupgående teoretisk förklaring av modellerna och deras hyperparametrar. Den här anteckningsboken innehåller ytterligare länkar till många av de mest populära ML/DL-algoritmerna som implementeras till anpassade dataset i Kaggle-kärnor (både Python och R).

Dessutom innehåller Kaggle också många anpassade, användaruppladdade dataset (i skrivande stund, över 40k) som du kan använda för dina egna analyser. Du kan hitta i stort sett allt som kan öka ditt intresse, från de senaste siffrorna om COVID-19 till statistiken för alla Pok-Baccarat där ute. Många TDS artiklar skrivs med hjälp av datamängder från Kaggle. Så om du vill öva dina färdigheter på något annat än Titanic eller Boston hus, Kaggle är ett bra ställe att börja.

r-bloggare

källa

jag började min datavetenskapsresa med R, och även efter att ha bytt mitt huvudprogrammeringsspråk till Python följer jag fortfarande R-bloggare. Det är en bloggaggregat (du kan också gå med genom att skicka in din blogg) och täcker ett brett spektrum av ämnen. Medan de flesta av dem är R-relaterade kan du fortfarande lära dig ganska mycket genom att läsa om allmänna metoder för datavetenskapsuppgifter.

jag tror att man inte bör begränsa sig till bara ett programmeringsspråk och ignorera allt annat. Kanske du kommer att läsa om ett intressant projekt / paket i R och kommer att besluta att Porta den till Python? Alternativt kan du använda rpy2 för att komma åt R-paket från Python och göra ditt liv enklare.

medan Python för närvarande är nummer 1-språket i datavetenskap, finns det fortfarande många paket och verktyg som inte har portats till Python från R. Det är därför jag tror att R-bloggare är en mycket värdefull resurs och kan vara en inspirationskälla för att portera vissa R-funktioner till Python.

arXiv

arXiv är Cornell Universitys öppna arkiv för elektroniska förtryck av vetenskapliga artiklar inom områden som datavetenskap, maskininlärning och många fler. I grund och botten är detta platsen att leta efter den senaste forskningen och toppmoderna algoritmer. Men nuförtiden läggs så många nya artiklar till varje dag att det i princip är omöjligt att följa allt. Det är därför Andrej Karpathy skapade ArXiv Sanity Preserver för att försöka filtrera bort de viktigaste/relevanta papper. Dessutom kan du följa arXiv dagligen på Twitter för att få en daglig kurerad lista över de viktigaste forskningsartiklarna. Vänlig varning: antalet tweets kan vara överväldigande.

GitHub Awesome Machine Learning

denna GitHub repo innehåller en kuraterad lista över maskininlärningsramar, bibliotek och programvara i allmänhet. För vår bekvämlighet grupperas de efter språk. Dessutom innehåller repo listor över bloggar, gratis böcker, onlinekurser, konferenser, möten och mycket mer. Detta förråd är definitivt mycket värdefullt och du kan sjunka in under ganska lång tid att utforska all tillgänglig information. Njut!

Twitter

den här kan vara mycket subjektiv, eftersom Twitter i många fall används som ett socialt nätverk precis som Facebook. Jag försöker dock använda den uteslutande för att följa personer från datavetenskapsfältet och undvika klickinnehåll. Många forskare, författare och annars kända Dataforskare har aktiva Twitter-konton och de delar ofta intressant/relevant innehåll. Det är ett bra sätt att hålla dig uppdaterad med den nya utvecklingen och ”heta ämnen” i datavetenskap.

listan över personer att följa beror mycket på omfattningen av dina intressen, till exempel om du fokuserar på djupt lärande som används för datorsyn eller kanske NLP. Jag skulle rekommendera att börja med några av dina favoritförfattare, vare sig det är böcker eller MOOCs, och då kommer listan naturligtvis att växa, eftersom du kommer att bli utsatt för andra intressanta människor via retweets etc.

bara om du är intresserad kan du hitta de personer jag följer här.

andra användbara resurser

listan ovan är inte uttömmande, eftersom internet är fullt av mycket användbara resurser på datavetenskap. Nedan listar jag några ytterligare resurser som inte gjorde min topp 10 men är också bra och jag använder dem ofta:

  • KDnuggets
  • AWS maskininlärning blogg
  • PyImageSearch
  • Explained.ai
  • visuell kapitalist
  • Data är vackra
  • Analytics Vidhya

jag kommer att hålla på att uppdatera listan om något halkade mig eller jag upptäcker något nytt:)

slutsatser

Lämna ett svar

Din e-postadress kommer inte publiceras.

lg