Foto por: Ivo Rainha em Unsplash

eu acho que você não vai discutir comigo quando afirmo que a ciência de dados está se tornando um dos mais populares campos de trabalho, especialmente tendo em conta que a Harvard Business Review chamado “cientista de dados” o mais sexy de trabalho do século 21. No campo, percorremos um longo caminho, desde os tempos em que termos como a ciência dos dados e a aprendizagem de máquinas ainda eram desconhecidos e tudo estava reunido sob a égide das estatísticas. No entanto, estamos longe do fim da viagem.

que também pode ser um aspecto divisor da ciência dos dados — o campo está se desenvolvendo tão rapidamente que pode ser difícil até mesmo seguir todos os novos algoritmos, técnicas e abordagens. Assim, trabalhar na ciência dos dados, da mesma forma que a engenharia de software, muitas vezes requer aprendizado e desenvolvimento constantes. Não me interprete mal, algumas pessoas (inclusive eu) gostam muito disso. Outros preferem aprender por alguns anos e depois cortar os cupões desse conhecimento. Ambas as abordagens são perfeitamente boas-é uma preferência pessoal.Como mencionei, trabalhar em ciência de dados pode ser uma viagem. É por isso que neste artigo, eu quero compartilhar meus 10 recursos favoritos de ciência dos dados (on-line), que eu frequentemente uso para aprender e tentar acompanhar os desenvolvimentos atuais. Esta lista vai se concentrar em recursos online (blogs, vídeos, podcasts) e não vai cobrir MOOCs ou livros, como há mais do que o suficiente para um artigo separado. Vamos começar!

Origem: https://towardsdatascience.com/

Este deve vir como nenhuma surpresa, dado que você está lendo este artigo, publicado na Direção de Ciência de Dados. A TDS é a maior publicação da Medium que abrange todos os temas relacionados à ciência dos dados. O que você pode encontrar aqui:

  • novato-friendly tutoriais com o código (em linguagens mais populares, tais como Python, R, Julia, SQL, e muito mais),
  • em descrições detalhadas de particular ML algoritmos ou técnicas,
  • resumos de influentes trabalhos,
  • descrições de pessoal de estimação projetos,
  • as últimas notícias do campo,
  • e muito mais!

TDS cria uma comunidade realmente agradável em que todos são encorajados a compartilhar e participar. Além disso, posso recomendar que se junte à newsletter e siga TDS no Twitter para acompanhar os artigos mais recentes e mais populares.Por último, também posso recomendar o Podcast “Towards Data Science”, que pode ser especialmente útil para as pessoas que se perguntam Como entrar na ciência dos dados e encontrar o seu papel perfeito.

PyData (conferência + vídeos)

Fonte

PyData é o programa educacional de NumFOCUS — uma organização sem fins lucrativos caridade aberto promovendo práticas de pesquisa, dados e computação científica. Eles organizam conferências em todo o mundo encorajando pesquisadores e profissionais a compartilhar suas percepções de seu trabalho. Nas palestras você pode encontrar uma mistura de boas práticas gerais Python, exemplos de Casos da vida real em que os cientistas de dados trabalharam (por exemplo, como eles modelam o churn ou que Ferramentas eles usam para gerar um uplift em suas campanhas de marketing), e apresentações para algumas novas bibliotecas.Falando por experiência própria, é muito divertido assistir pessoalmente à conferência, uma vez que você pode participar ativamente das apresentações, fazer perguntas e trabalhar em rede com pessoas que compartilham seus interesses. No entanto, como isso nem sempre é possível e simplesmente há muitas conferências para assistir, você pode encontrar todas as gravações em seu canal do YouTube. Normalmente, as gravações são publicadas alguns meses após cada conferência.

as conversações PyData são uma grande fonte de inspiração, como você pode ver como outras empresas abordaram um tópico particular, e talvez você possa aplicar um método semelhante em sua empresa.O site/blog de Jason Brownlee é uma mina de ouro de conteúdo para cientistas de dados, especialmente os mais jovens. Você pode encontrar uma infinidade de tutoriais, desde abordagens de modelagem estatística clássica (regressão linear, ARIMA), até as mais recentes e maiores soluções de aprendizado de máquina/profundidade. Os artigos são sempre muito práticos e contêm código Python aplicando o conceito particular a um conjunto de dados de brinquedos. O que é realmente grande sobre o site é que Jason claramente explica os conceitos e também se refere a leitura adicional para aqueles que querem mergulhar extra profundamente no fundo teórico. Você também pode filtrar todos os artigos pelo tópico, no caso de você estar interessado apenas em aprendizado desequilibrado ou como codificar sua primeira rede LSTM.

Distill

Distill tem como objectivo fornecer uma explicação clara e intuitiva dos conceitos de aprendizagem de máquinas. Eles argumentam que os papéis são muitas vezes restringidos aos arquivos PDF, que nem sempre pode mostrar a imagem completa. E em momentos em que o ML ganha cada vez mais impacto, é crucial ter uma boa compreensão de como as ferramentas que estamos usando funcionam realmente.

Distill usa visualizações impressionantes e interativas para explicar claramente o que está realmente acontecendo nos bastidores dos algoritmos de aprendizagem de máquinas. Um dos meus artigos favoritos lá descrito t-SNE (t-distribuído Stochastic neighbor embedding) e mostrou como os grafos gerados, enquanto visualmente agradável pode ser enganoso. Ele também apontou o significado dos hiper-parâmetros, fornecendo uma ferramenta interativa para ver o impacto em primeira mão.

If you need any extra assurances about the quality of the content there, the steering committee behind Distill included names such as Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

Documentos Com Código de

Fonte

Papéis Com o Código, é uma grande iniciativa para criar e abrir pool de recursos ML contendo documentos, juntamente com o código e tabelas de avaliação. Você pode facilmente navegar nos artigos disponíveis (incluindo o estado da arte) e pesquisar por tópicos, por exemplo, a colorização de imagem dentro do domínio de visão de computador.

este site é muito útil quando você quer experimentar com alguma abordagem ou aplicá-lo ao seu conjunto de dados, sem realmente escrever todo o código você mesmo. Enquanto tal exercício é definitivamente útil e você vai aprender muito, às vezes você só precisa hackear um MVP para mostrar que algo realmente funciona para o seu caso de uso e gera valor acrescentado. Depois de obter a aprovação necessária, você pode mergulhar calmamente no código para entender todas as nuances de um determinado modelo ou arquitetura.

Kaggle

Kaggle tornou-se a plataforma go-to para as pessoas que querem participar em competições de machine/deep learning. Milhares de pessoas participam de competições para treinar os melhores modelos (muitas vezes grandes e complexos conjuntos de modelos) para alcançar a melhor pontuação e ganhar reconhecimento (e prêmios monetários).No entanto, a plataforma em si é muito mais do que isso. Para começar, o Kaggle contém milhares de Kernels/Notebooks, mostrando a implementação prática de algoritmos de ML. Muitas vezes, os criadores também fornecem uma explicação teórica aprofundada dos modelos e seus hiper-parâmetros. Este Notebook contém mais links para muitos dos algoritmos ML/DL mais populares implementados para conjuntos de dados personalizados em Kernels do Kaggle (tanto Python quanto R).

além disso, o Kaggle também contém muitos conjuntos de dados personalizados e carregados pelo utilizador (no momento da escrita, mais de 40k) que pode usar para as suas próprias análises. Você pode encontrar praticamente qualquer coisa que pode aumentar o seu interesse, a partir dos números mais recentes sobre COVID-19 para as estatísticas de todos os Pokémon lá fora. Muitos artigos TDS são escritos usando os conjuntos de dados do Kaggle. Então, se você quiser praticar suas habilidades em algo além do Titanic ou casas de Boston, o Kaggle é um ótimo lugar para começar.

R-bloggers

Source

I started my data science journey with R, and even after switching my main programming language to Python I still follow R-bloggers. É um agregador de blogs (você pode participar, bem como Enviando seu blog) e cobre uma ampla gama de tópicos. Embora a maioria deles estejam relacionados com R, você ainda pode aprender muito lendo sobre abordagens gerais às tarefas de ciência dos dados.Eu acredito que não se deve restringir apenas a uma linguagem de programação e ignorar tudo o resto. Talvez você vai ler sobre um projeto/pacote interessante em R e vai decidir portá-lo para Python? Alternativamente, você pode usar rpy2 para acessar os pacotes R de Python e tornar sua vida mais fácil.Embora Python seja atualmente a linguagem número 1 na ciência dos dados, ainda existem muitos pacotes e ferramentas que não foram portados para Python a partir de R. É por isso que eu acredito que R-bloggers é um recurso muito valioso e pode ser uma fonte de inspiração para portar algumas funcionalidades R para Python.

arXiv

arXiv é o repositório de Acesso Aberto da Universidade de Cornell de preprints Eletrônicos de artigos científicos em campos como ciência da computação, aprendizagem de máquinas, e muitos mais. Basicamente, este é o lugar para procurar os mais recentes algoritmos de pesquisa e Tecnologia de ponta. No entanto, hoje em dia há tantos artigos novos adicionados a cada dia que é basicamente impossível seguir tudo. É por isso que Andrej Karpathy criou o preservador de sanidade ArXiv para tentar filtrar os papéis mais importantes/relevantes. Além disso, você pode acompanhar arXiv diariamente no Twitter para receber uma lista curada diária dos artigos de pesquisa mais importantes. Aviso amigável: o número de tweets pode ser esmagador.

GitHub Awesome Machine Learning

This GitHub repo contains a curated list of machine learning frameworks, libraries, and software in general. Para nossa conveniência, eles são agrupados por linguagem. Além disso, o repo contém listas de blogs, livros gratuitos, cursos online, conferências, meetups, e muito mais. Este repositório é definitivamente muito valioso e você pode afundar-se por algum tempo explorando todas as informações disponíveis. Aproveite!

Twitter

Este é pode ser muito subjetivo, como, em muitos casos, o Twitter é usado como uma rede social apenas como o Facebook. No entanto, eu tento usá-lo exclusivamente para seguir pessoas do campo da ciência dos dados e evitar conteúdo click-baity. Muitos pesquisadores, autores e outros cientistas de dados famosos têm contas ativas no Twitter e frequentemente compartilham conteúdos interessantes/relevantes. É uma ótima maneira de estar atualizado com os novos desenvolvimentos e “tópicos quentes” na ciência dos dados.

a lista de pessoas a seguir irá depender muito do escopo de seus interesses, por exemplo, se você se concentrar na aprendizagem profunda usada para a visão de computador ou talvez NLP. Eu recomendaria começar com alguns de seus autores favoritos, sejam livros ou MOOCs, e então a lista irá naturalmente crescer, como você será exposto a outras pessoas interessantes através de retweets, etc.Caso esteja interessado, pode encontrar as pessoas que sigo aqui.

outros recursos úteis

a lista acima não é de modo algum exaustiva, uma vez que a internet está cheia de recursos muito úteis em ciência dos dados. Abaixo i listar alguns recursos adicionais que não fez o meu top 10, mas também são grandes e eu usá-los muitas vezes:

  • KDnuggets
  • AWS Aprendizado de Máquina Blog
  • PyImageSearch
  • Explicou.ai
  • Visual Capitalista
  • Dados é Lindo
  • Analytics Vidhya

eu vou continuar atualizando a lista para o caso de algo escorregou da minha mente ou eu descubra algo de novo 🙂

Conclusões

Deixe uma resposta

O seu endereço de email não será publicado.

lg