Photo par Ivo Rainha sur Unsplash

Je pense que vous ne discuterez pas avec moi lorsque je déclarerai que la science des données devient l’un des domaines les plus populaires, d’autant plus que la Harvard Business Review a nommé « data scientist » le travail le plus sexy du 21e siècle. Sur le terrain, nous avons parcouru un long chemin, depuis l’époque où des termes comme la science des données et l’apprentissage automatique étaient encore inconnus et où tout était rassemblé sous l’égide des statistiques. Cependant, nous sommes loin de la fin du voyage.

Cela peut également être un aspect diviseur de la science des données — le domaine se développe si rapidement qu’il peut être difficile de suivre tous les nouveaux algorithmes, techniques et approches. Ainsi, travailler dans la science des données, de la même manière que le génie logiciel, nécessite souvent un apprentissage et un développement constants. Ne vous méprenez pas, certaines personnes (moi y compris) aiment beaucoup ça. D’autres préfèrent apprendre pendant quelques années et ensuite couper les coupons de ces connaissances. Les deux approches sont parfaitement bien – c’est une préférence personnelle.

Comme je l’ai mentionné, travailler en science des données peut être un voyage. C’est pourquoi dans cet article, je souhaite partager mes 10 ressources de science des données préférées (en ligne), que j’utilise fréquemment pour apprendre et essayer de suivre les développements actuels. Cette liste se concentrera sur les ressources en ligne (blogs, vidéos, podcasts) et ne couvrira pas les MOOC ou les livres, car il y a plus qu’assez de contenu pour un article séparé. Commençons!

Source: https://towardsdatascience.com/

Cela ne devrait pas surprendre, étant donné que vous lisez cet article publié dans Towards Data Science. TDS est la plus grande publication de Medium couvrant tous les sujets liés à la science des données. Ce que vous pouvez trouver ici:

  • tutoriels adaptés aux débutants avec code (dans les langages les plus populaires tels que Python, R, Julia, SQL, etc.),
  • descriptions détaillées d’algorithmes ou de techniques ML particuliers,
  • résumés d’articles influents,
  • descriptions de projets personnels pour animaux de compagnie,
  • les dernières nouvelles du terrain,
  • et plus encore!

TDS crée une très belle communauté dans laquelle tout le monde est encouragé à partager et à participer. De plus, je vous recommande fortement de vous inscrire à la newsletter et de suivre TDS sur Twitter pour suivre les articles les plus récents et les plus populaires.

Enfin, je peux également recommander le podcast Towards Data Science, qui peut être particulièrement utile pour les personnes qui se demandent comment percer dans la science des données et trouver leur rôle parfait.

PyData (conférence + vidéos)

Source

PyData est le programme éducatif de NumFOCUS — un organisme de bienfaisance à but non lucratif promouvant des pratiques ouvertes dans la recherche, les données et l’informatique scientifique. Ils organisent des conférences partout dans le monde pour encourager les chercheurs et les praticiens à partager leurs idées issues de leurs travaux. Dans les conférences, vous trouverez un mélange de bonnes pratiques générales en Python, des exemples de cas réels sur lesquels les data scientists ont travaillé (par exemple, comment ils modélisent le taux de désabonnement ou quels outils ils utilisent pour générer une augmentation de leurs campagnes marketing), et des introductions à de nouvelles bibliothèques.

Par expérience, il est très amusant d’assister à la conférence en personne, car vous pouvez participer activement aux présentations, poser des questions et réseauter avec des personnes qui partagent vos intérêts. Cependant, comme ce n’est pas toujours possible et qu’il y a simplement trop de conférences auxquelles assister, vous pouvez trouver tous les enregistrements sur leur chaîne YouTube. Normalement, les enregistrements sont publiés quelques mois après chaque conférence.

Les conférences PyData sont une grande source d’inspiration, car vous pouvez voir comment d’autres entreprises ont abordé un sujet particulier, et peut-être pouvez-vous appliquer une méthode similaire dans votre entreprise.

Maîtrise de l’apprentissage automatique

Le site Web / blog de Jason Brownlee est une mine d’or de contenu pour les scientifiques des données, en particulier les plus jeunes. Vous pouvez trouver une pléthore de tutoriels, des approches de modélisation statistique classiques (régression linéaire, ARIMA) aux solutions de machine / deep learning les plus récentes et les plus performantes. Les articles sont toujours très pratiques et contiennent du code Python appliquant le concept particulier à un jeu de données de jouets. Ce qui est vraiment génial avec le site Web, c’est que Jason explique clairement les concepts et se réfère également à des lectures supplémentaires pour ceux qui veulent plonger plus profondément dans le contexte théorique. Vous pouvez également filtrer tous les articles par sujet, au cas où vous ne seriez intéressé que par un apprentissage déséquilibré ou comment coder votre premier réseau LSTM.

Distill

Distill vise à fournir une explication claire et intuitive des concepts d’apprentissage automatique. Ils soutiennent que les documents sont souvent limités aux fichiers PDF, ce qui ne peut pas toujours montrer l’image complète. Et à une époque où le ML gagne de plus en plus d’impact, il est crucial de bien comprendre le fonctionnement réel des outils que nous utilisons.

Distill utilise des visualisations impressionnantes et interactives pour expliquer clairement ce qui se passe réellement dans les coulisses des algorithmes d’apprentissage automatique. Un de mes articles préférés y décrivait t-SNE (intégration de voisins stochastiques distribués par t) et montrait comment les graphiques générés, bien que visuellement agréables, peuvent être trompeurs. Il a également souligné l’importance des hyperparamètres en fournissant un outil interactif pour voir l’impact de première main.

Si vous avez besoin d’assurances supplémentaires sur la qualité du contenu, le comité directeur derrière Distill comprenait des noms tels que Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

Papiers Avec Code

Source

Papers With Code est une excellente initiative pour créer un pool de ressources gratuit et ouvert contenant des documents ML, ainsi que le code et les tableaux d’évaluation. Vous pouvez facilement parcourir les articles disponibles (y compris l’état de l’art) et effectuer des recherches par thèmes, par exemple, la colorisation d’images dans le domaine de la vision par ordinateur.

Ce site Web est très pratique lorsque vous souhaitez expérimenter une approche ou l’appliquer à votre jeu de données, sans réellement écrire tout le code vous-même. Bien qu’un tel exercice soit certainement utile et que vous appreniez beaucoup, il vous suffit parfois de pirater un MVP pour montrer que quelque chose fonctionne réellement pour votre cas d’utilisation et génère de la valeur ajoutée. Après avoir obtenu l’approbation requise, vous pouvez plonger calmement dans le code pour comprendre toutes les nuances d’un modèle ou d’une architecture particulière.

Kaggle

Kaggle est devenu la plate-forme incontournable pour les personnes souhaitant participer à des compétitions de machine / deep learning. Des milliers de personnes participent à des compétitions pour former les meilleurs modèles (souvent des ensembles de modèles volumineux et complexes) afin d’obtenir le meilleur score et d’obtenir une reconnaissance (et des prix monétaires).

Cependant, la plate-forme elle-même est bien plus que cela. Pour commencer, Kaggle contient des milliers de noyaux / blocs-notes, montrant l’implémentation pratique des algorithmes ML. Souvent, les créateurs fournissent également une explication théorique approfondie des modèles et de leurs hyperparamètres. Ce bloc-notes contient d’autres liens vers de nombreux algorithmes ML/DL les plus populaires implémentés dans des ensembles de données personnalisés dans les noyaux Kaggle (Python et R).

De plus, Kaggle contient également de nombreux jeux de données personnalisés téléchargés par l’utilisateur (au moment de la rédaction, plus de 40k) que vous pouvez utiliser pour vos propres analyses. Vous pouvez trouver à peu près tout ce qui peut susciter votre intérêt, des derniers chiffres concernant COVID-19 aux statistiques de tous les Pokémon disponibles. De nombreux articles TDS sont écrits à l’aide des jeux de données de Kaggle. Donc, si vous voulez pratiquer vos compétences sur autre chose que les maisons Titanic ou Boston, Kaggle est un excellent point de départ.

R-blogueurs

Source

J’ai commencé mon voyage en science des données avec R, et même après avoir changé mon langage de programmation principal en Python, je suis toujours R-bloggers. Il s’agit d’un agrégateur de blogs (vous pouvez également vous y joindre en soumettant votre blog) et couvre un large éventail de sujets. Bien que la plupart d’entre eux soient liés à R, vous pouvez toujours en apprendre beaucoup en lisant sur les approches générales des tâches de science des données.

Je crois qu’il ne faut pas se limiter à un seul langage de programmation et ignorer tout le reste. Peut-être que vous lirez un projet / package intéressant dans R et déciderez-vous de le porter sur Python? Alternativement, vous pouvez utiliser rpy2 pour accéder aux paquets R à partir de Python et vous faciliter la vie.

Alors que Python est actuellement le langage numéro 1 en science des données, il existe encore de nombreux packages et outils qui n’ont pas été portés en Python à partir de R. C’est pourquoi je crois que R-bloggers est une ressource très précieuse et pourrait être une source d’inspiration pour le portage de certaines fonctionnalités R en Python.

arXiv

arXiv est le référentiel en libre accès de l’Université Cornell de préimpressions électroniques d’articles scientifiques dans des domaines tels que l’informatique, l’apprentissage automatique et bien d’autres. Fondamentalement, c’est l’endroit idéal pour rechercher les dernières recherches et les algorithmes de pointe. Cependant, de nos jours, il y a tellement de nouveaux articles ajoutés chaque jour qu’il est fondamentalement impossible de tout suivre. C’est pourquoi Andrej Karpathy a créé le conservateur de santé mentale arXiv pour essayer de filtrer les documents les plus importants / pertinents. De plus, vous pouvez suivre arXiv quotidiennement sur Twitter pour recevoir une liste quotidienne des articles de recherche les plus importants. Avertissement amical: le nombre de tweets peut être écrasant.

GitHub Awesome Machine Learning

Ce dépôt GitHub contient une liste organisée de frameworks d’apprentissage automatique, de bibliothèques et de logiciels en général. Pour notre commodité, ils sont regroupés par langue. De plus, le dépôt contient des listes de blogs, de livres gratuits, de cours en ligne, de conférences, de rencontres et bien plus encore. Ce référentiel est certainement très précieux et vous pouvez passer un certain temps à explorer toutes les informations disponibles. Amusez-vous bien!

Twitter

Celui-ci peut être très subjectif, car dans de nombreux cas, Twitter est utilisé comme un réseau social tout comme Facebook. Cependant, j’essaie de l’utiliser exclusivement pour suivre des personnes du domaine de la science des données et d’éviter le contenu à clics. De nombreux chercheurs, auteurs et scientifiques de données célèbres ont des comptes Twitter actifs et partagent fréquemment du contenu intéressant / pertinent. C’est un excellent moyen de rester à jour avec les nouveaux développements et les « sujets d’actualité » de la science des données.

La liste des personnes à suivre dépendra fortement de la portée de vos intérêts, par exemple, si vous vous concentrez sur l’apprentissage en profondeur utilisé pour la vision par ordinateur ou peut-être la PNL. Je recommanderais de commencer par certains de vos auteurs préférés, que ce soit des livres ou des MOOCs, puis la liste s’allongera naturellement, car vous serez exposé à d’autres personnes intéressantes via des retweets, etc.

Juste au cas où vous seriez intéressé, vous pouvez trouver les personnes que je suis ici.

Autres ressources utiles

La liste ci-dessus n’est en aucun cas exhaustive, car Internet regorge de ressources très utiles sur la science des données. Ci-dessous, j’énumère quelques ressources supplémentaires qui n’ont pas fait mon top 10 mais qui sont également géniales et que je les utilise souvent:

  • KDnuggets
  • Blog d’apprentissage automatique AWS
  • PyImageSearch
  • Explained.ai
  • Visual Capitalist
  • Les données sont belles
  • Analytics Vidhya

Je continuerai à mettre à jour la liste au cas où quelque chose me viendrait à l’esprit ou que je découvre quelque chose de nouveau 🙂

Conclusions

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

lg