Foto de Ivo Rainha en Unsplash

Creo que no discutirá conmigo cuando afirme que la ciencia de datos se está convirtiendo en uno de los campos más populares para trabajar, especialmente dado que Harvard Business Review nombró a «científico de datos» el trabajo más sexy del siglo XXI. En el campo, hemos recorrido un largo camino, desde los tiempos en que términos como ciencia de datos y aprendizaje automático eran aún desconocidos y todo se reunía bajo el paraguas de las estadísticas. Sin embargo, estamos lejos del final del viaje.

Eso también puede ser un aspecto divisor de la ciencia de datos: el campo se está desarrollando tan rápidamente que incluso puede ser difícil seguir todos los nuevos algoritmos, técnicas y enfoques. Por lo tanto, trabajar en ciencia de datos, de manera similar a la ingeniería de software, a menudo requiere aprendizaje y desarrollo constantes. No me malinterpretes, a algunas personas (incluido yo) les gusta mucho. Otros prefieren aprender durante unos años y luego simplemente cortar los cupones de ese conocimiento. Ambos enfoques están perfectamente bien, es una preferencia personal.

Como mencioné, trabajar en ciencia de datos puede ser un viaje. Es por eso que en este artículo, quiero compartir mis 10 recursos de ciencia de datos favoritos (en línea), que uso con frecuencia para aprender y tratar de mantenerse al día con los desarrollos actuales. Esta lista se centrará en recursos en línea (blogs, videos, podcasts) y no cubrirá MOOCs o libros, ya que hay contenido más que suficiente para un artículo separado. ¡Empecemos!

Fuente: https://towardsdatascience.com/

Esto debe venir como ninguna sorpresa, dado que usted está leyendo este artículo publicado en Hacia la Ciencia de Datos. TDS es la publicación más grande de Medium que cubre todos los temas relacionados con la ciencia de datos. Lo que puedes encontrar aquí:

  • tutoriales con código para principiantes (en los lenguajes más populares como Python, R, Julia, SQL y más),
  • descripciones en profundidad de algoritmos o técnicas de ML particulares,
  • resúmenes de artículos influyentes,
  • descripciones de proyectos personales,
  • las últimas noticias del campo,
  • ¡y más!

TDS crea una comunidad realmente agradable en la que se anima a todos a compartir y participar. Además, te recomiendo unirte al boletín y seguir a TDS en Twitter para estar al día de los artículos más recientes y populares.

Por último, también puedo recomendar el podcast Hacia la ciencia de datos, que puede ser especialmente útil para las personas que se preguntan cómo entrar en la ciencia de datos y encontrar su papel perfecto.

PyData (conferencia + vídeos)

Source

PyData es el programa educativo de NumFOCUS, una organización benéfica sin fines de lucro que promueve prácticas abiertas en investigación, datos y computación científica. Organizan conferencias en todo el mundo animando a investigadores y profesionales a compartir sus ideas de su trabajo. En las charlas puede encontrar una mezcla de las mejores prácticas generales de Python, ejemplos de casos de la vida real en los que trabajaron los científicos de datos (por ejemplo, cómo modelan la rotación o qué herramientas usan para generar un aumento en sus campañas de marketing) e introducciones a algunas bibliotecas nuevas.

Hablando desde la experiencia, es muy divertido asistir a la conferencia en persona, ya que puedes participar activamente en las presentaciones, hacer preguntas y establecer contactos con personas que comparten tus intereses. Sin embargo, como esto no siempre es posible y simplemente hay demasiadas conferencias para asistir, puede encontrar todas las grabaciones en su canal de YouTube. Normalmente, las grabaciones se publican unos meses después de cada conferencia.

Las charlas de PyData son una gran fuente de inspiración, ya que puedes ver cómo otras empresas abordaron un tema en particular, y tal vez puedas aplicar un método similar en tu empresa.

Dominio del aprendizaje automático

El sitio web/blog de Jason Brownlee es una mina de oro de contenido para científicos de datos, especialmente para los más jóvenes. Puede encontrar una gran cantidad de tutoriales, desde enfoques clásicos de modelado estadístico (regresión lineal, ARIMA) hasta las últimas y mejores soluciones de aprendizaje profundo/máquina. Los artículos son siempre muy prácticos y contienen código Python que aplica el concepto particular a un conjunto de datos de juguete. Lo que es realmente genial del sitio web es que Jason explica claramente los conceptos y también se refiere a lecturas adicionales para aquellos que desean profundizar más en el trasfondo teórico. También puede filtrar todos los artículos por tema, en caso de que solo esté interesado en un aprendizaje desequilibrado o en cómo codificar su primera red LSTM.

Distill

Distill tiene como objetivo proporcionar una explicación clara e intuitiva de los conceptos de aprendizaje automático. Argumentan que los documentos a menudo se limitan a los archivos PDF, que no siempre pueden mostrar la imagen completa. Y en tiempos en que el aprendizaje automático gana cada vez más impacto, es crucial tener una buena comprensión de cómo funcionan realmente las herramientas que estamos utilizando.

Distill utiliza visualizaciones impresionantes e interactivas para explicar claramente lo que realmente está sucediendo detrás de escena de los algoritmos de aprendizaje automático. Uno de mis artículos favoritos describía t-SNE (incrustación de vecinos estocásticos distribuidos en t) y mostraba cómo los gráficos generados, aunque visualmente agradables, pueden ser engañosos. También señaló la importancia de los hiperparámetros al proporcionar una herramienta interactiva para ver el impacto de primera mano.

Si necesita garantías adicionales sobre la calidad del contenido, el comité directivo detrás de Distill incluyó nombres como Yoshua Bengio, Ian Goodfellow, Michael Nielsen, Andrej Karpathy.

Papeles Con Código

Source

Papers With Code es una gran iniciativa para crear un pool de recursos libre y abierto que contenga papers de aprendizaje automático, junto con el código y las tablas de evaluación. Puede explorar fácilmente los documentos disponibles (incluido el Estado de la técnica) y buscar por temas, por ejemplo, la coloración de imágenes dentro del dominio de visión artificial.

Este sitio web es muy útil cuando desea experimentar con algún enfoque o aplicarlo a su conjunto de datos, sin escribir todo el código usted mismo. Si bien un ejercicio de este tipo es definitivamente útil y aprenderás mucho, a veces solo necesitas hackear un MVP para mostrar que algo realmente funciona para tu caso de uso y genera valor agregado. Después de obtener la aprobación requerida, puede sumergirse tranquilamente en el código para comprender todos los matices de un modelo o arquitectura en particular.

Kaggle

Kaggle se convirtió en la plataforma de referencia para las personas que desean participar en competiciones de aprendizaje automático/profundo. Miles de personas participan en competiciones para entrenar a las mejores modelos (a menudo conjuntos de modelos grandes y complejos) para lograr la mejor puntuación y obtener reconocimiento (y premios monetarios).

Sin embargo, la plataforma en sí es mucho más que eso. Para empezar, Kaggle contiene miles de Kernels / Cuadernos, que muestran la implementación práctica de algoritmos de ML. A menudo, los creadores también proporcionan una explicación teórica en profundidad de los modelos y sus hiperparámetros. Este Cuaderno contiene enlaces adicionales a muchos de los algoritmos ML/DL más populares implementados para conjuntos de datos personalizados en núcleos Kaggle (tanto Python como R).

Además, Kaggle también contiene muchos conjuntos de datos personalizados cargados por el usuario (en el momento de escribir, más de 40k) que puede usar para sus propios análisis. Puedes encontrar casi cualquier cosa que pueda aumentar tu interés, desde los últimos números relativos a la COVID-19 hasta las estadísticas de todos los Pokémon que hay. Muchos artículos de TDS se escriben utilizando los conjuntos de datos de Kaggle. Así que si quieres practicar tus habilidades en algo que no sea el Titanic o las casas de Boston, Kaggle es un gran lugar para comenzar.

R-bloggers

Fuente

empecé mis datos de la ciencia viaje con R, e incluso después de cambiar mi principal lenguaje de programación Python sigo R-bloggers. Es un agregador de blogs (también puedes unirte enviando tu blog) y cubre una amplia gama de temas. Si bien la mayoría de ellos están relacionados con R, aún puede aprender mucho leyendo acerca de los enfoques generales para las tareas de ciencia de datos.

Creo que uno no debe limitarse a un solo lenguaje de programación e ignorar todo lo demás. ¿Tal vez leerá sobre un proyecto/paquete interesante en R y decidirá portarlo a Python? Alternativamente, puede usar rpy2 para acceder a paquetes R desde Python y hacer su vida más fácil.

Mientras que Python es actualmente el lenguaje número 1 en ciencia de datos, todavía hay muchos paquetes y herramientas que no se han portado a Python desde R. Por eso creo que R-bloggers es un recurso muy valioso y podría ser una fuente de inspiración para portar algunas funcionalidades de R a Python.

arXiv

arXiv es el repositorio de acceso abierto de la Universidad de Cornell de preprints electrónicos de artículos científicos en campos como la informática, el aprendizaje automático y muchos más. Básicamente, este es el lugar para buscar las últimas investigaciones y algoritmos de última generación. Sin embargo, hoy en día hay tantos artículos nuevos que se agregan todos los días que es básicamente imposible seguirlo todo. Es por eso que Andrej Karpathy creó el Preservador de Cordura arXiv para tratar de filtrar los documentos más importantes/relevantes. Además, puedes seguir a arXiv Diariamente en Twitter para recibir una lista diaria de los artículos de investigación más importantes. Advertencia amigable: el número de tweets puede ser abrumador.

GitHub Awesome Machine Learning

Este repositorio de GitHub contiene una lista seleccionada de marcos de trabajo de aprendizaje automático, bibliotecas y software en general. Para nuestra comodidad, se agrupan por idioma. Además, el repositorio contiene listas de blogs, libros gratuitos, cursos en línea, conferencias, reuniones y mucho más. Este repositorio es definitivamente muy valioso y puede sumergirse durante bastante tiempo explorando toda la información disponible. ¡Que lo disfrutes!

Twitter

Este puede ser muy subjetivo, ya que en muchos casos Twitter se utiliza como una red social al igual que Facebook. Sin embargo, intento usarlo exclusivamente para seguir a personas del campo de la ciencia de datos y evitar el contenido con clics. Muchos investigadores, autores y científicos de datos famosos tienen cuentas activas de Twitter y con frecuencia comparten contenido interesante / relevante. Es una excelente manera de mantenerse al día con los nuevos desarrollos y «temas candentes» en ciencia de datos.

La lista de personas a seguir dependerá en gran medida del alcance de sus intereses, por ejemplo, si se centra en el aprendizaje profundo utilizado para la visión artificial o tal vez la PNL. Recomendaría comenzar con algunos de sus autores favoritos, ya sean libros o MOOC, y luego la lista crecerá naturalmente, ya que estará expuesto a otras personas interesantes a través de retweets, etc.

En caso de que esté interesado, puede encontrar a las personas que sigo aquí.

Otros recursos útiles

La lista anterior no es exhaustiva, ya que Internet está llena de recursos muy útiles sobre ciencia de datos. A continuación, enumero algunos recursos adicionales que no fueron parte de mi top 10, pero también son excelentes y los uso a menudo:

  • KDnuggets
  • Blog de aprendizaje automático de AWS
  • PyImageSearch
  • Explained.ai
  • Capitalista visual
  • Los datos son hermosos
  • Vidhya de analítica

Seguiré actualizando la lista en caso de que se me haya olvidado algo o descubra algo nuevo:)

Conclusiones

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

lg