Foto door Ivo Rainha op Unsplash

ik denk dat je geen ruzie met mij wanneer ik verklaar dat de gegevens wetenschap is steeds een van de meest populaire gebieden om te werken aan, vooral gezien het feit dat de Harvard Business Review met de naam “data scientist” de meest sexy baan van de 21ste eeuw. In het veld hebben we een lange weg afgelegd, vanaf de tijd dat termen als data science en machine learning nog onbekend waren en alles werd verzameld onder de paraplu van statistieken. We zijn echter nog ver van het einde van de reis.

dat kan ook een scheidend aspect van data science zijn — het veld ontwikkelt zich zo snel dat het moeilijk kan zijn om zelfs alle nieuwe algoritmen, technieken en benaderingen te volgen. Werken in data science, net als software engineering, vereist vaak voortdurend leren en ontwikkelen. Begrijp me niet verkeerd, sommige mensen (ikzelf inbegrepen) vinden dat erg leuk. Anderen geven de voorkeur om te leren voor een paar jaar en dan gewoon snijden de coupons van die kennis. Beide benaderingen zijn prima – het is een persoonlijke voorkeur.

zoals ik al zei, kan werken in data science een reis zijn. Daarom wil ik in dit artikel mijn 10 favoriete data science-bronnen (online) delen, die ik vaak gebruik om te leren en om gelijke tred te houden met de huidige ontwikkelingen. Deze lijst zal zich richten op online bronnen (blogs, video ‘s, podcasts) en zal niet betrekking hebben op MOOC’ s of boeken, omdat er meer dan genoeg inhoud is voor een apart artikel. Laten we beginnen!

bron: https://towardsdatascience.com/

dit moet komen als geen verrassing, gezien u het lezen van dit artikel gepubliceerd in Towards Data Science. TDS is Medium ‘ s grootste publicatie over alle data science gerelateerde onderwerpen. Wat u hier kunt vinden:

  • beginnersvriendelijke tutorials met code (in de meest populaire talen zoals Python, R, Julia, SQL en meer),
  • diepgaande beschrijvingen van bepaalde ml-algoritmen of-technieken,
  • samenvattingen van invloedrijke artikelen,
  • beschrijvingen van persoonlijke pet-projecten,
  • het laatste nieuws uit het veld,
  • en meer!

TDS creëert een echt leuke gemeenschap waarin iedereen wordt aangemoedigd om te delen en deel te nemen. Daarnaast kan ik ten zeerste aanbevelen om lid te worden van de nieuwsbrief en het volgen van TDS op Twitter om op de hoogte te blijven van de nieuwste en meest populaire artikelen.

ten slotte kan ik ook de podcast Towards Data Science aanbevelen, die vooral nuttig kan zijn voor mensen die zich afvragen hoe ze in data science kunnen inbreken en hun perfecte rol kunnen vinden.

PyData (conferentie + video ‘ s))

Source

PyData is het educatieve programma van NumFOCUS — een non-profit liefdadigheidsinstelling die open praktijken in onderzoek, data en wetenschappelijke computing bevordert. Ze organiseren conferenties over de hele wereld om onderzoekers en beoefenaars aan te moedigen hun inzichten uit hun werk te delen. In de talks vind je een mix van algemene Python best practices, voorbeelden van real-life cases waar de data scientist aan werkte (bijvoorbeeld hoe ze churn modelleren of welke tools ze gebruiken om een stijging te genereren in hun marketingcampagnes), en introducties naar een aantal nieuwe bibliotheken.

uit ervaring is het erg leuk om de conferentie persoonlijk bij te wonen, omdat u actief kunt deelnemen aan de presentaties, vragen kunt stellen en kunt netwerken met mensen die uw interesses delen. Echter, omdat dit niet altijd mogelijk is en er gewoon te veel conferenties zijn om bij te wonen, kunt u alle opnames vinden op hun YouTube-kanaal. Normaal gesproken worden de opnames een paar maanden na elke conferentie gepubliceerd.

de PyData talks zijn een grote bron van inspiratie, omdat u kunt zien hoe andere bedrijven een bepaald onderwerp benaderden, en misschien kunt u een soortgelijke methode in uw bedrijf toepassen.De Website/blog van Jason Brownlee is een goudmijn van content voor datawetenschappers, met name voor de meer jonge wetenschappers. U kunt een overvloed aan tutorials vinden, van klassieke statistische modellering benaderingen (lineaire regressie, ARIMA), de nieuwste en beste machine/deep learning oplossingen. De artikelen zijn altijd erg hands-on en bevatten Python code die het specifieke concept toepast op een Toy dataset. Wat echt geweldig is aan de website is dat Jason de concepten duidelijk uitlegt en ook verwijst naar Verder lezen voor degenen die extra diep in de theoretische achtergrond willen duiken. U kunt ook alle artikelen filteren op onderwerp, voor het geval u alleen geïnteresseerd bent in onevenwichtig leren of hoe u uw eerste LSTM-netwerk codeert.

Distill

Distill beoogt een duidelijke en intuïtieve uitleg te geven van concepten voor machine learning. Ze beweren dat papers vaak beperkt zijn tot de PDF-bestanden, die niet altijd het volledige beeld kunnen weergeven. En in tijden waarin ML meer en meer impact krijgt, is het cruciaal om een goed begrip te hebben van hoe de tools die we gebruiken eigenlijk werken.Distill maakt gebruik van indrukwekkende en interactieve visualisaties om duidelijk uit te leggen wat er eigenlijk gebeurt achter de schermen van de machine learning algoritmen. Een van mijn favoriete artikelen er beschreven t-SNE (t-distributed stochastische buurman inbedding) en liet zien hoe de gegenereerde grafieken, terwijl visueel aangenaam misleidend kan zijn. Het wees ook op de Betekenis van de hyperparameters door een interactieve tool te bieden om de impact uit de eerste hand te zien.

als u extra garanties nodig hebt over de kwaliteit van de inhoud, heeft de stuurgroep achter Distill namen opgenomen zoals Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

papier met Code

Source

Papers With Code is een geweldig initiatief om een vrije en open resource pool te creëren met ML papers, samen met de code-en evaluatietabellen. U kunt eenvoudig bladeren door de beschikbare papers (inclusief de State-of-the-Art) en zoeken op onderwerpen, bijvoorbeeld beeldkleuring binnen het Computer vision-domein.

deze website is erg handig als u wilt experimenteren met een of andere aanpak of deze wilt toepassen op uw dataset, zonder zelf alle code te schrijven. Hoewel een dergelijke oefening is zeker nuttig en je zult veel leren, soms moet je gewoon samen hack een MVP om te laten zien dat iets eigenlijk werkt voor uw use-case en genereert toegevoegde waarde. Na het verkrijgen van de vereiste goedkeuring, kunt u rustig duiken in de code om alle nuances van een bepaald model of architectuur te begrijpen.

Kaggle

Kaggle werd het go-to platform voor mensen die wilden deelnemen aan machine/deep learning competities. Duizenden mensen nemen deel aan wedstrijden om de beste modellen (vaak grote en complexe ensembles van modellen) te trainen om de beste score te behalen en erkenning te krijgen (en geldprijzen).

echter, het platform zelf is veel meer dan dat. Om te beginnen bevat Kaggle duizenden Kernels/Notebooks, die de praktische implementatie van ML-algoritmen laten zien. Vaak geven de makers ook een diepgaande theoretische uitleg van de modellen en hun hyperparameters. Deze Notebook bevat verdere links naar veel van de meest populaire ml/DL algoritmen geà mplementeerd om aangepaste datasets in Kaggle Kernels (zowel Python en R).

bovendien bevat Kaggle ook veel aangepaste, door gebruikers geüploade datasets (op het moment van schrijven, meer dan 40k) die u kunt gebruiken voor uw eigen analyses. U kunt vrijwel alles vinden dat uw interesse kan spike, van de laatste nummers met betrekking tot COVID-19 aan de statistieken van alle Pokémon die er zijn. Veel TDS artikelen zijn geschreven met behulp van de datasets van Kaggle. Dus als je je vaardigheden wilt oefenen op iets anders dan Titanic of Boston huizen, is Kaggle een geweldige plek om te beginnen.

R-bloggers

bron

ik begon mijn data science-reis met R, en zelfs na het overschakelen van mijn hoofdprogrammeertaal naar Python volg ik nog steeds R-bloggers. Het is een blog aggregator (u kunt ook deelnemen door het indienen van uw blog) en behandelt een breed scala van onderwerpen. Terwijl de meeste van hen zijn R-gerelateerd, kunt u nog steeds veel leren door te lezen over algemene benaderingen van data science taken.

ik ben van mening dat men zich niet moet beperken tot slechts één programmeertaal en al het andere moet negeren. Misschien lees je over een interessant project / pakket in R en besluit je om het naar Python te porteren? Als alternatief kunt u rpy2 gebruiken om toegang te krijgen tot R-pakketten vanuit Python en uw leven gemakkelijker te maken.

hoewel Python momenteel de nummer 1 taal is in data science, zijn er nog steeds veel pakketten en tools die niet zijn geport naar Python van R. daarom geloof ik dat R-bloggers een zeer waardevolle bron is en een bron van inspiratie kan zijn voor het porten van sommige R-functionaliteiten naar Python.

arXiv

arXiv is het Open-access archief van elektronische preprints van wetenschappelijke artikelen op gebieden zoals computerwetenschappen, machine learning en nog veel meer. Kortom, dit is de plek om te zoeken naar het nieuwste onderzoek en state-of-the-art algoritmen. Tegenwoordig worden er echter elke dag zoveel nieuwe artikelen toegevoegd dat het in principe onmogelijk is om alles te volgen. Daarom creëerde Andrej Karpathy de arXiv Sanity-bewaarder om te proberen de belangrijkste/relevante papers eruit te filteren. Daarnaast kun je arXiv Daily volgen op Twitter om een dagelijks samengestelde lijst van de belangrijkste onderzoeksartikelen te ontvangen. Vriendelijke waarschuwing: het aantal tweets kan overweldigend zijn.

GitHub Awesome Machine Learning

deze GitHub repo bevat een samengestelde lijst van machine learning frameworks, bibliotheken en software in het algemeen. Voor ons gemak zijn ze gegroepeerd per taal. Daarnaast bevat de repo lijsten met blogs, gratis boeken, online cursussen, conferenties, meetups en nog veel meer. Deze repository is zeker erg waardevol en je kunt al geruime tijd inzinken door alle beschikbare informatie te verkennen. Geniet ervan!

Twitter

deze is erg subjectief, omdat Twitter in veel gevallen net als Facebook als een sociaal netwerk wordt gebruikt. Echter, Ik probeer het uitsluitend te gebruiken voor het volgen van mensen uit de data science veld en te voorkomen dat click-baity inhoud. Veel onderzoekers, auteurs, en anders beroemde data wetenschappers hebben actieve Twitter-accounts en ze vaak delen interessante/relevante inhoud. Het is een geweldige manier om op de hoogte te blijven van de nieuwe ontwikkelingen en “hot topics” in data science.

de lijst van personen die u wilt volgen zal sterk afhangen van de omvang van uw interesses, bijvoorbeeld als u zich richt op deep learning gebruikt voor computer vision of misschien NLP. Ik zou aanraden om te beginnen met een aantal van uw favoriete auteurs, of het nu boeken of MOOC ‘ s, en dan de lijst zal natuurlijk groeien, als je zal worden blootgesteld aan andere interessante mensen via retweets, enz.

voor het geval u geïnteresseerd bent, kunt u hier de mensen vinden die ik volg.

andere nuttige bronnen

bovenstaande lijst is geenszins uitputtend, aangezien het internet vol staat met zeer nuttige bronnen over Data science. Hieronder vermeld ik een aantal extra middelen die niet mijn top 10, maar zijn ook geweldig en ik gebruik ze vaak:

  • KDnuggets
  • AWS Machine Learning Blog
  • PyImageSearch
  • Explained.ai
  • Visual Capitalist
  • Data is mooi
  • Analytics Vidhya

ik blijf de lijst bijwerken als ik iets vergeten ben of als ik iets nieuws ontdek:)

conclusies

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

lg