사진:이보 레인하 온 언스플래시

나는 데이터 과학이 가장 인기있는 분야 중 하나가되고 있다고 주장 할 때 당신은 나와 함께 주장하지 않을 것이라고 생각,특히 하버드 비즈니스 리뷰라는 주어진”데이터 과학자”21 세기의 가장 섹시한 직업. 이 분야에서 우리는 데이터 과학 및 기계 학습과 같은 용어가 아직 알려지지 않았고 모든 것이 통계의 우산 아래 모여있는 시대부터 먼 길을 왔습니다. 그러나 우리는 여행의 끝에서 멀리 떨어져 있습니다.

그것은 또한 데이터 과학의 분열적인 측면 일 수 있습니다.이 분야는 매우 빠르게 발전하고 있으며,모든 새로운 알고리즘,기술 및 접근 방식을 따르기조차 어려울 수 있습니다. 따라서 소프트웨어 엔지니어링과 마찬가지로 데이터 과학 분야에서 일하는 것은 종종 지속적인 학습과 개발이 필요합니다. 나를 오해하지 마라,어떤 사람들(나 자신 포함)은 그렇게 많이 좋아한다. 다른 사람들은 몇 년 동안 배우고 그 지식에서 쿠폰을 자르는 것을 선호합니다. 두 방법 모두 완벽하게 괜찮습니다-그것은 개인적인 취향입니다.

말씀드렸듯이,데이터 과학에서 일하는 것은 여정이 될 수 있습니다. 이 문서에서,내가 자주 학습과 현재의 발전과 함께 계속 노력에 사용하는 내 10 좋아하는 데이터 과학 자원(온라인 것들)을 공유 할 이유입니다. 이 목록은 온라인 리소스(블로그,비디오,팟 캐스트)에 초점을 맞출 것이며 별도의 기사에 충분한 콘텐츠가 있기 때문에 무브먼트 나 책을 다루지 않을 것입니다. 시작하자!

출처: https://towardsdatascience.com/

이것은 당신이 데이터 과학으로 출판이 기사를 읽고 주어진 놀랄 일이 아니와야한다. 모든 데이터 과학 관련 주제를 다루는 매체의 가장 큰 간행물입니다. 여기에서 찾을 수있는 것:

  • 코드가 포함 된 초보자 친화적 인 자습서,
  • 특정 알고리즘 또는 기술에 대한 심층 설명,
  • 영향력있는 논문 요약,
  • 개인 애완 동물 프로젝트에 대한 설명,
  • 분야의 최신 뉴스,
  • 그리고 더!

모두가 공유하고 참여하도록 장려되는 정말 멋진 커뮤니티를 만듭니다. 또한,나는 매우 최신 및 가장 인기있는 기사와 함께 유지하기 위해 트위터에 뉴스 레터에 가입하고 다음 추천 할 수 있습니다.

마지막으로,나는 또한 데이터 과학에 침입하고 자신의 완벽한 역할을 찾는 방법을 궁금해하는 사람들에게 특히 도움이 될 수있는 데이터 과학을 향한 팟 캐스트를 추천 할 수 있습니다.

피데이타(컨퍼런스+동영상)

출처

피데이터는 연구,데이터 및 과학 컴퓨팅에서 열린 관행을 홍보하는 비영리 자선 단체 인 누포커스의 교육 프로그램입니다. 그들은 연구자와 실무자가 자신의 작업에서 자신의 통찰력을 공유하도록 장려하는 전 세계 회의를 조직합니다. 회담에서 당신은 일반적인 파이썬 모범 사례의 혼합을 찾을 수 있습니다,데이터 과학자가 작업 실제 사례의 예(예를 들어,그들은 이탈 모델 또는 어떤 도구들이 마케팅 캠페인에 향상을 생성하는 데 사용하는 방법),및 소개 몇 가지 새로운 라이브러리.

경험에 비추어 볼 때,프레젠테이션에 적극적으로 참여하고,질문하고,관심사를 공유하는 사람들과 네트워크를 형성 할 수 있기 때문에 실제로 직접 회의에 참석하는 것은 많은 즐거움입니다. 이 항상 가능한 것은 아니다 단순히 참석하기 위해 너무 많은 회의가 그러나,당신은 자신의 유튜브 채널에있는 모든 기록을 찾을 수 있습니다. 일반적으로 녹음은 각 회의 후 몇 개월 후에 게시됩니다.

다른 회사들이 특정 주제에 어떻게 접근했는지 볼 수 있듯이,파이데이터 회담은 훌륭한 영감의 원천입니다.

기계 학습 숙달

제이슨 브라운리의 웹 사이트/블로그는 데이터 과학자,특히 더 주니어 사람을위한 내용의 금광이다. 고전적인 통계 모델링 접근법(선형 회귀 분석,아리마)에서 최신의 최고의 기계/딥 러닝 솔루션에 이르기까지 수많은 자습서를 찾을 수 있습니다. 이 기사는 항상 매우 실습 적이며 장난감 데이터 세트에 특정 개념을 적용하는 파이썬 코드가 포함되어 있습니다. 무엇 웹 사이트에 대해 정말 좋은 것은 제이슨이 명확하게 개념을 설명하고 또한 이론적 배경에 깊은 추가 다이빙을 원하는 사람들을 위해 추가 읽기를 의미한다는 것입니다. 또한 불균형 학습에만 관심이 있거나 첫 번째 네트워크를 코딩하는 방법에 관심이있는 경우 주제별로 모든 기사를 필터링 할 수 있습니다.

증류

증류는 기계 학습 개념에 대한 명확하고 직관적 인 설명을 제공하는 것을 목표로합니다. 그들은 논문은 종종 항상 전체 그림을 표시 할 수 없습니다 문서 파일로 제한되는 것을 주장한다. 그리고 밀리리터가 점점 더 많은 영향을 받는 시대에는 우리가 사용하는 도구가 실제로 어떻게 작동하는지 잘 이해하는 것이 중요합니다.

증류는 인상적이고 상호 작용하는 시각화를 사용하여 기계 학습 알고리즘의 장면 뒤에서 실제로 일어나는 일을 명확하게 설명합니다. 내가 가장 좋아하는 기사 중 하나는 티-스네(티-분산 확률 적 이웃 임베딩)를 설명하고 생성 된 그래프를 보여 주었지만 시각적으로 기쁘게하는 것은 오해의 소지가있을 수 있습니다. 또한 영향을 직접 볼 수있는 대화 형 도구를 제공하여 하이퍼 매개 변수의 중요성을 지적했다.

콘텐츠 품질에 대한 추가 보장이 필요한 경우,증류 뒤 운영위원회에는 요수아 벤지오,이안 굿펠로,마이클 닐슨,안드레이 카르파시 등의 이름이 포함되었습니다.

코드가있는 논문

소스

코드가있는 논문은 코드 및 평가 테이블과 함께 기계 학습 논문이 포함 된 자유롭고 개방 된 리소스 풀을 만드는 훌륭한 이니셔티브입니다. 당신은 쉽게(최첨단 포함)사용 가능한 논문을 찾아 컴퓨터 비전 도메인 내에서 예를 들어,이미지 색상 화,주제별로 검색 할 수 있습니다.

이 웹 사이트는 실제로 모든 코드를 직접 작성하지 않고 몇 가지 접근 방식을 실험하거나 데이터 세트에 적용 할 때 매우 유용합니다. 이러한 운동은 확실히 도움이되고 당신은 많은 것을 배울 것입니다 동안,때때로 당신은 무언가가 실제로 사용 사례에 대한 작동 및 부가가치를 생성하는 것을 보여주기 위해 뮤직 비디오를 함께 해킹 할 필요가있다. 필요한 승인을 얻은 후에는 코드에 침착하게 뛰어 들어 특정 모델 또는 아키텍처의 모든 뉘앙스를 이해할 수 있습니다.

카글

카글은 머신/딥러닝 대회에 참가하고자 하는 사람들을 위한 플랫폼이 되었습니다. 수천 명의 사람들이 최고의 점수를 얻고 인정(및 금전적 인 상금)을 얻기 위해 최고의 모델(종종 크고 복잡한 모델 앙상블)을 훈련시키기 위해 대회에 참여합니다.

그러나 플랫폼 자체는 그 이상입니다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다. 종종 제작자는 모델 및 하이퍼 매개 변수에 대한 심층적 인 이론적 설명을 제공합니다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다.

무엇보다,카글은 또한 자신의 분석에 사용할 수있는 많은 사용자 정의,사용자가 업로드 한 데이터 세트(글을 쓰는 순간,40,000 개 이상)가 포함되어 있습니다. 당신은 코로나 19 에 관한 최신 숫자에서 거기 밖으로 모든 포켓 몬의 통계에 관심을 스파이크 수있는 거의 아무것도 찾을 수 있습니다. 그러나 생물 과학과 같은 다른 분야에 대한 어플리케이션도 있습니다.. 그래서 타이타닉이나 보스턴 주택 이외의 다른 곳에서 기술을 연습하고 싶다면 카글은 시작하기에 좋은 곳입니다.

아르 자형 블로거

소스

나는 연구로 데이터 과학 여행을 시작했으며,주요 프로그래밍 언어를 파이썬으로 전환 한 후에도 여전히 연구 블로거를 따릅니다. 이 블로그 애그리 게이터(당신은 당신의 블로그를 제출하여뿐만 아니라 가입 할 수 있습니다)과 주제의 넓은 범위를 커버. 대부분은 연구와 관련이 있지만 데이터 과학 작업에 대한 일반적인 접근 방식에 대해 읽으면 여전히 많은 것을 배울 수 있습니다.

나는 하나의 프로그래밍 언어로 자신을 제한하고 다른 모든 것을 무시해서는 안된다고 믿는다. 어쩌면 당신은 흥미로운 프로젝트에 대해 읽을 것입니다/연구에서 패키지 및 파이썬에 포트를 결정합니다? 또는rpy2를 사용하여 파이썬에서 아르 자형 패키지에 액세스하고 인생을 더 쉽게 만들 수 있습니다.

파이썬은 현재 데이터 과학에서 1 위 언어이지만,여전히 많은 패키지와 도구가 있습니다.

arXiv

arXiv 는 코넬 대학의 개방스 저장소의 전자 여러분의 콘텐츠를 전세계의 사용의 과학 논문과 같은 분야에서 컴퓨터 과학,기계학습,그리고 더 많은합니다. 기본적으로,이 최신 연구 및 최첨단 알고리즘을 찾을 수있는 장소입니다. 그러나,요즘은 모든 것을 따라 기본적으로 불가능 매일 추가 많은 새로운 기사가있다. 그래서 안드레이 카르파시는 가장 중요한/관련 논문을 걸러내려고 애쓰기 위해 아렉시브성 보호자를 만들었다. 또한,당신은 가장 중요한 연구 논문의 매일 큐레이터 목록을받을 트위터에 매일 볼 수 있습니다. 친절한 경고:트윗 수는 압도적 일 수 있습니다.

깃허브 굉장 기계 학습

깃허브 리포지토리에는 기계 학습 프레임워크,라이브러리 및 일반적으로 소프트웨어 목록이 포함되어 있습니다. 우리의 편의를 위해,그들은 언어에 의해 그룹화됩니다. 또한 레포에는 블로그 목록,무료 서적,온라인 강좌,컨퍼런스,모임 등이 포함되어 있습니다. 이 저장소는 확실히 매우 가치가 있으며 사용 가능한 모든 정보를 탐색하는 데 꽤 오래 걸릴 수 있습니다. 즐겨!

트위터

이 사람은 많은 경우에 트위터는 페이스 북과 같은 소셜 네트워크로 사용되는 것처럼,매우 주관적 일 수있다.

따라야 할 사람들의 목록은 예를 들어 컴퓨터 비전에 사용되는 딥 러닝에 집중하는 경우와 같이 관심 분야에 따라 크게 달라집니다. 당신이 리트 윗 등을 통해 다른 흥미로운 사람들에게 노출 될 것 같은 다음 목록은 자연스럽게 증가 할 것이다,당신의 마음에 드는 작가 중 일부와 함께 시작하는 것이 좋습니다 것입니다.

당신이 관심이 있다면,당신은 내가 여기에 따라 사람들을 찾을 수 있습니다.

기타 유용한 자료

인터넷이 데이터 과학에 대한 매우 유용한 자료로 가득 차 있기 때문에 위의 목록은 결코 완전한 것이 아닙니다. 나는 몇 가지 추가 리소스를 나열 아래 내 최고를하지 않았다 10 뿐만 아니라 중대하다 나는 종종 그들을 사용:

  • Explained.ai
  • 시각 자본주의
  • 데이터는 아름답다
  • 웹 로그 분석 비디 야

무언가가 내 마음을 미끄러지거나 새로운 것을 발견 할 경우를 대비하여 목록을 계속 업데이트 할 것입니다:)

결론

답글 남기기

이메일 주소는 공개되지 않습니다.

lg