foto af Ivo Rainha på Unsplash

jeg tror, du ikke vil argumentere med mig, når jeg siger, at datalogi er ved at blive et af de mest populære felter at arbejde på, især i betragtning af at Harvard Business anmeldelse navngivet “data scientist” det 21.århundredes mest kønnede job. På området er vi kommet langt fra de tidspunkter, hvor udtryk som datalogi og maskinindlæring stadig var ukendte, og alt blev samlet under paraplyen af statistikker. Vi er dog langt fra slutningen af rejsen.

det kan også være et opdelende aspekt af datalogi — feltet udvikler sig så hurtigt, at det kan være svært at selv følge alle de nye algoritmer, teknikker og tilgange. Så at arbejde inden for Datalogi, på samme måde som programmelteknik, kræver ofte konstant læring og udvikling. Misforstå mig ikke, nogle mennesker (mig selv inkluderet) kan lide det meget. Andre foretrækker at lære i et par år og derefter bare skære kuponer fra denne viden. Begge tilgange er helt fine-det er en personlig præference.

som jeg nævnte, kan arbejde i datalogi være en rejse. Derfor vil jeg i denne artikel dele mine 10 foretrukne datavidenskabelige ressourcer (online), som jeg ofte bruger til at lære og forsøge at holde trit med den aktuelle udvikling. Denne liste vil fokusere på online ressourcer (blogs, videoer, podcasts) og dækker ikke MOOC ‘ er eller bøger, da der er mere end nok indhold der til en separat artikel. Lad os starte!

kilde: https://towardsdatascience.com/

dette bør ikke komme som nogen overraskelse, da du læser denne artikel offentliggjort i mod datalogi. TDS er mediums største publikation, der dækker alle datavidenskabsrelaterede emner. Hvad du kan finde her:

  • begyndervenlige tutorials med kode (på mest populære sprog som Python, R, Julia og meget mere),
  • dybdegående beskrivelser af bestemte ML-algoritmer eller teknikker,
  • resume af indflydelsesrige papirer,
  • beskrivelser af personlige kæledyrsprojekter,
  • de seneste nyheder fra marken,
  • og mere!

TDS skaber et rigtig dejligt samfund, hvor alle opfordres til at dele og deltage. Derudover kan jeg varmt anbefale at deltage i nyhedsbrevet og følge TDS på kvidre for at holde trit med de nyeste og mest populære artikler.

endelig kan jeg også anbefale mod Data Science podcast, som kan være særligt nyttigt for folk, der spekulerer på, hvordan man bryder ind i datalogi og finder deres perfekte rolle.

PyData (konference + videoer)

kilde

PyData er uddannelsesprogrammet for NumFOCUS — en nonprofit velgørenhedsorganisation, der fremmer åben praksis inden for forskning, data og videnskabelig computing. De arrangerer konferencer over hele verden, der opfordrer forskere og praktikere til at dele deres indsigt fra deres arbejde. I samtalerne kan du finde en blanding af generel Python bedste praksis, eksempler på virkelige sager, som dataforskerne arbejdede på (for eksempel hvordan de modellerer churn eller hvilke værktøjer de bruger til at generere en løft i deres marketingkampagner) og introduktioner til nogle nye biblioteker.

når vi taler af erfaring, er det meget sjovt at faktisk deltage i konferencen personligt, da du aktivt kan deltage i præsentationerne, stille spørgsmål og netværke med mennesker, der deler dine interesser. Da dette ikke altid er muligt, og der simpelthen er for mange konferencer til at deltage, kan du finde alle optagelserne på deres YouTube-kanal. Normalt offentliggøres optagelserne et par måneder efter hver konference.

pydata-samtalerne er en stor inspirationskilde, da du kan se, hvordan andre virksomheder nærmede sig et bestemt emne, og måske kan du anvende en lignende metode i din virksomhed.

Machine Learning Mastery

Jason Brunlees hjemmeside/blog er en guldmine af indhold til dataforskere, især de mere junior. Du kan finde en overflod af tutorials, fra klassiske statistiske modelleringsmetoder (lineær regression, ARIMA) til de nyeste og bedste maskine/dybe læringsløsninger. Artiklerne er altid meget praktiske og indeholder Python-kode, der anvender det bestemte koncept på et legetøjsdatasæt. Hvad der virkelig er godt ved hjemmesiden er, at Jason klart forklarer begreberne og også henviser til yderligere læsning for dem, der ønsker at dykke ekstra dybt ned i den teoretiske baggrund. Du kan også filtrere alle artiklerne efter emnet, hvis du kun er interesseret i ubalanceret læring eller hvordan du koder dit første LSTM-netværk.

destillation

destillation sigter mod at give en klar og intuitiv forklaring af maskinindlæringskoncepter. De hævder, at papirer ofte er begrænset til PDF-filer, som ikke altid kan vise det fulde billede. Og i tider, hvor ML får mere og mere indflydelse, er det afgørende at have en god forståelse af, hvordan de værktøjer, vi bruger, faktisk fungerer.

destillation bruger imponerende og interaktive visualiseringer til klart at forklare, hvad der rent faktisk sker bag kulisserne i maskinlæringsalgoritmerne. En af mine foretrukne artikler der beskrevet t-SNE (t-distribueret stokastisk nabo indlejring) og viste, hvordan de genererede grafer, mens visuelt tiltalende kan være vildledende. Det påpegede også betydningen af hyperparametrene ved at give et interaktivt værktøj til at se virkningen fra første hånd.

hvis du har brug for ekstra forsikringer om kvaliteten af indholdet der, inkluderede styregruppen bag Destilll navne som Yoshua Bengio, Ian Goodfame, Michael Nielsen, Andrej Karpathy.

papirer med kode

kilde

papirer med kode er et godt initiativ til at oprette en gratis og åben ressourcepulje, der indeholder ML-papirer, sammen med kode-og evalueringstabellerne. Du kan nemt gennemse de tilgængelige papirer (herunder State-of-the-Art) og søge efter emner, for eksempel billedfarve inden for computer vision-domænet.

denne hjemmeside er virkelig praktisk, når du vil eksperimentere med en eller anden tilgang eller anvende den på dit datasæt uden faktisk at skrive hele koden selv. Mens en sådan øvelse er absolut nyttigt, og du vil lære en masse, nogle gange er du bare nødt til at hacke sammen en MVP for at vise, at noget rent faktisk virker for din use-case og genererer merværdi. Når du har fået den krævede godkendelse, kan du roligt dykke ned i koden for at forstå alle nuancer af en bestemt model eller arkitektur.

Kaggle

Kaggle blev go-to-platformen for folk, der ønsker at deltage i Machine/deep learning-konkurrencer. Tusindvis af mennesker deltager i konkurrencer for at træne de bedste modeller (ofte store og komplekse ensembler af modeller) for at opnå den bedste score og få anerkendelse (og monetære præmier).

men selve platformen er meget mere end det. Til at begynde med indeholder Kaggle tusindvis af kerner/notesbøger, der viser den praktiske implementering af ML-algoritmer. Ofte giver skaberne også en dybtgående teoretisk forklaring af modellerne og deres hyperparametre. Denne notesbog indeholder yderligere links til mange af de mest populære ML/DL-algoritmer implementeret til brugerdefinerede datasæt i Kaggle-kerner (både Python og R).

hvad mere er, Kaggle indeholder også mange brugerdefinerede, bruger-uploadede datasæt (i skrivende stund, over 40k), som du kan bruge til dine egne analyser. Du kan finde stort set alt, hvad der kan øge din interesse, fra de seneste numre vedrørende COVID-19 til statistikken for alle Pok-oprørere derude. Mange TDS artikler er skrevet ved hjælp af datasæt fra Kaggle. Så hvis du vil øve dine evner på noget andet end Titanic-eller Boston-huse, er Kaggle et godt sted at starte.

r-bloggere

kilde

jeg startede min datavidenskabsrejse med R, og selv efter at have skiftet mit hovedprogrammeringssprog til Python følger jeg stadig R-bloggere. Det er en blogaggregator (du kan også deltage ved at indsende din blog) og dækker en bred vifte af emner. Mens de fleste af dem er R-relaterede, kan du stadig lære en hel del ved at læse om generelle tilgange til datavidenskabelige opgaver.

jeg tror, at man ikke bør begrænse sig til kun et programmeringssprog og ignorere alt andet. Måske vil du læse om et interessant projekt / pakke i R og vil beslutte at port det til Python? Alternativt kan du bruge rpy2 til at få adgang til R-pakker fra Python og gøre dit liv lettere.

mens Python i øjeblikket er nummer 1-sproget i datalogi, er der stadig mange pakker og værktøjer, der ikke er blevet portet til Python fra R. derfor tror jeg, at R-bloggere er en meget værdifuld ressource og kan være en kilde til inspiration til at overføre nogle R-funktionaliteter til Python.

archiv

archiv er Cornell Universitets open-access repository af elektroniske preprints af videnskabelige artikler inden for områder som datalogi, maskinindlæring og mange flere. Dybest set er dette stedet at kigge efter den nyeste forskning og avancerede algoritmer. Men i dag er der så mange nye artikler tilføjet hver dag, at det stort set er umuligt at følge alt. Det er derfor, Andrej Karpathy skabte den sunde fornuft Preserver for at forsøge at filtrere de vigtigste/relevante papirer. Derudover kan du følge dagligt på kvidre for at modtage en daglig kurateret liste over de vigtigste forskningsartikler. Venlig advarsel: antallet af kvidre kan være overvældende.

GitHub fantastisk maskinlæring

denne GitHub repo indeholder en kurateret liste over maskinlæringsrammer, biblioteker og programmer generelt. For vores bekvemmelighed er de grupperet efter sprog. Derudover indeholder repo lister over blogs, gratis bøger, online kurser, konferencer, møder og meget mere. Dette lager er bestemt meget værdifuldt, og du kan synke ind i nogen tid på at udforske alle tilgængelige oplysninger. God fornøjelse!

kvidre

denne er kan være meget subjektiv, da kvidre i mange tilfælde bruges som et socialt netværk ligesom Facebook. Jeg forsøger dog at bruge det udelukkende til at følge folk fra datavidenskabsområdet og undgå click-baity-indhold. Mange forskere, forfattere og ellers berømte dataforskere har aktive kvidre konti, og de deler ofte interessant/relevant indhold. Det er en fantastisk måde at holde sig ajour med de nye udviklinger og “varme emner” inden for datalogi.

listen over personer, der skal følges, afhænger meget af omfanget af dine interesser, for eksempel hvis du fokuserer på dyb læring, der bruges til computersyn eller måske NLP. Jeg vil anbefale at starte med nogle af dine yndlingsforfattere, det være sig bøger eller MOOCs, og så vil listen naturligvis vokse, da du vil blive udsat for andre interessante mennesker via retlik osv.

bare hvis du er interesseret, kan du finde de mennesker, jeg følger her.

andre nyttige ressourcer

listen ovenfor er på ingen måde udtømmende, da internettet er fuld af meget nyttige ressourcer om datalogi. Nedenfor viser jeg nogle ekstra ressourcer, der ikke gjorde min top 10, men som også er gode, og jeg bruger dem ofte:

  • KDnuggets
  • av Machine Learning Blog
  • PyImageSearch
  • Explained.ai
  • Visual Capitalist
  • Data er smukke
  • Analytics Vidhya

jeg vil fortsætte med at opdatere listen, hvis noget gled mig, eller jeg opdager noget nyt 🙂

konklusioner

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

lg