写真:Ivo Rainha On Unsplash

特にハーバード-ビジネス-レビューが”データ-サイエンティスト”を21世紀の最もセクシーな仕事と命名したことを考えると、データサイエンスが最も人気のある分野の一つになっていると述べたとき、私はあなたが私と議論しないと思います。 この分野では、データサイエンスや機械学習のような用語がまだ知られておらず、すべてが統計の傘下に集められていた時代から、私たちは長い道のりを歩んできました。 しかし、我々は旅の終わりから遠く離れています。

それはデータサイエンスの分裂的な側面でもあります—この分野は非常に急速に発展しており、すべての新しいアルゴリズム、技術、アプローチに従うことさえ困難になる可能性があります。 そのため、ソフトウェア工学と同様に、データサイエンスで作業するには、多くの場合、一定の学習と開発が必要です。 私は間違って取得しないでください、何人かの人々(自分自身が含まれています)そのような多くの。 他の人は、数年のために学び、その後、ちょうどその知識からクーポンをカットすることを好みます。 どちらのアプローチも完全に問題ありません—それは個人的な好みです。

私が言及したように、データサイエンスで働くことは旅になる可能性があります。 この記事では、私は頻繁に学習し、現在の発展に追いつくためにしようとするために使用する私の10のお気に入りのデータサイエンスのリソース(オンラ このリストは、オンラインリソース(ブログ、ビデオ、ポッドキャスト)に焦点を当て、別の記事のためにそこに十分なコンテンツ以上のものがあるように、Mooc 始めましょう!

ソース: https://towardsdatascience.com/

Towards Data Scienceに掲載されているこの記事を読んでいることを考えると、これは驚くべきことではありません。 TDSは、すべてのデータサイエンス関連のトピックをカバーするMediumの最大の出版物です。 あなたはここで見つけることができます:

  • コード付きの初心者に優しいチュートリアル(Python、R、Julia、SQLなどの最も人気のある言語)、
  • 特定のMLアルゴリズムやテクニックの詳細な説明、
  • 影響力のある論文の要約、
  • 個人的なペットプロジェクトの説明、
  • フィールドからの最新ニュース、

TDSは、誰もが共有し、参加することを奨励されている本当に素敵なコミュニティを作成します。 さらに、私は非常に最新かつ最も人気のある記事に追いつくためにTwitterでニュースレターに参加し、Tdsに従うことをお勧めすることができます。

最後に、私はまた、データサイエンスに侵入し、彼らの完璧な役割を見つける方法を疑問に思っている人々のために特に役立つことができ、データサイエンスポッドキャストに向けてお勧めすることができます。

)

Source

PyDataはNumFOCUSの教育プログラムであり、研究、データ、科学コンピューティングにおけるオープンプラクティスを促進する非営利慈善団体です。 彼らは世界中で会議を開催し、研究者や実務家が自分の仕事からの洞察を共有することを奨励しています。 講演では、一般的なPythonのベストプラクティス、データサイエンティストが取り組んだ実際のケースの例(例えば、彼らが解約をモデル化する方法や、マーケティン

経験から言えば、積極的にプレゼンテーションに参加したり、質問をしたり、興味を共有する人とネットワークを組むことができるので、実際に会議に出席することはとても楽しいことです。 しかし、これは必ずしも可能ではなく、単に出席するにはあまりにも多くの会議があるので、あなたは彼らのYouTubeチャンネルですべての録音を見つ 通常、録音は各会議の数ヶ月後に公開されます。

PyData talksは、他の企業が特定のトピックにどのようにアプローチしたかを見ることができるように、インスピレーションの大きな源です。

Machine Learning Mastery

Jason Brownleeのウェブサイト/ブログは、データ科学者、特により若いもののためのコンテンツの金鉱山です。 古典的な統計モデリングアプローチ(線形回帰、ARIMA)から、最新かつ最高の機械/深層学習ソリューションまで、多数のチュートリアルを見つけることができます。 記事は常に非常に実践的であり、おもちゃのデータセットに特定の概念を適用するPythonコードが含まれています。 ウェブサイトについて本当に素晴らしいのは、ジェイソンは明確に概念を説明し、また、理論的な背景に余分な深く潜りたい人のためのさらなる読書を また、不均衡な学習や最初のLSTMネットワークのコーディング方法にのみ興味がある場合に備えて、トピックごとにすべての記事をフィルタリングするこ

Distill

Distillは、機械学習の概念を明確かつ直感的に説明することを目的としています。 彼らは、論文はしばしばPDFファイルに制限されていると主張していますが、それは必ずしも完全な画像を表示することはできません。 そして、MLがますます多くの影響を受ける時代には、私たちが使用しているツールが実際にどのように機能するかをよく理解することが重要です。

Distillは、印象的でインタラクティブな視覚化を使用して、機械学習アルゴリズムの舞台裏で実際に何が起こっているのかを明確に説明します。 私のお気に入りの記事の1つは、t-SNE(t-distributed stochastic neighbor embedding)を説明し、生成されたグラフがどのように表示されるかを示しましたが、視覚的には誤解を招く可能性が また、影響を直接見るための対話型ツールを提供することによって、ハイパーパラメータの重要性を指摘しました。

そこにあるコンテンツの品質について余分な保証が必要な場合は、Distillの運営委員会にはYoshua Bengio、Ian Goodfellow、Michael Nielsen、Andrej Karpathyなどの名前が含まれていました。

Source

Papers With Codeは、ML papersを含む無料でオープンなリソースプールを、コードと評価テーブルとともに作成するための素晴らしいイニシアチブです。 利用可能な論文(最新の論文を含む)を簡単に閲覧し、コンピュータビジョンドメイン内の画像の色付けなどのトピックで検索することができます。

このウェブサイトは、実際にすべてのコードを自分で書くことなく、いくつかのアプローチを試したり、データセットに適用したいときに本当に便利です。 このような演習は間違いなく役立ち、多くのことを学ぶことができますが、実際に何かがユースケースに適しており、付加価値を生み出すことを示すためにMVPを一緒にハックする必要があることもあります。 必要な承認を得た後、コードに静かに飛び込むことで、特定のモデルやアーキテクチャのすべてのニュアンスを理解することができます。

Kaggle

kaggleは、機械/ディープラーニング競技に参加したい人のためのプラットフォームとなりました。 何千人もの人々が最高のスコアを達成し、認識(および金銭的賞品)を得るために、最高のモデル(多くの場合、大規模で複雑なモデルのアンサンブル)を訓練

しかし、プラットフォーム自体はそれ以上のものです。 まず第一に、KAGGLEには何千ものカーネル/ノートブックが含まれており、MLアルゴリズムの実用的な実装を示しています。 多くの場合、作成者はモデルとそのハイパーパラメータの詳細な理論的説明も提供します。 このノートブックには、Kaggleカーネル(PythonとRの両方)のカスタムデータセットに実装されている最も一般的なML/DLアルゴリズムの多くへのさらなるリンクが

さらに、Kaggleには、独自の分析に使用できる多くのカスタム、ユーザーがアップロードしたデータセット(執筆時点では、40k以上)が含まれています。 あなたはそこにすべてのポケモンの統計にCOVID-19に関する最新の数字から、あなたの興味をスパイクすることができ、ほとんど何かを見つけることが 多くのTDS記事は、Kaggleのデータセットを使用して書かれています。 あなたはタイタニックやボストンの家以外の何かにあなたのスキルを練習したいのであれば、Kaggleは開始するのに最適な場所です。

Source

私はRで私のデータサイエンスの旅を始めました、そして私の主なプログラミング言語をPythonに切り替えた後でさえ、私はまだR-bloggersに従います。 これは、ブログアグリゲーター(あなたのブログを提出することによって、同様に参加することができます)であり、トピックの広い範囲をカバーしています。 それらのほとんどはR関連ですが、データサイエンスタスクへの一般的なアプローチについて読むことで、かなり多くのことを学ぶことができます。

私は、自分自身を一つのプログラミング言語だけに制限し、他のすべてを無視すべきではないと信じています。 たぶん、あなたはRの興味深いプロジェクト/パッケージについて読んで、それをPythonに移植することに決めますか? または、rpy2を使用してPythonからRパッケージにアクセスし、あなたの人生を楽にすることができます。

Pythonは現在、データサイエンスでナンバー1の言語ですが、RからPythonに移植されていないパッケージやツールはまだたくさんあります。

arXiv

arXivは、コーネル大学のオープンアクセスリポジトリで、コンピュータサイエンス、機械学習などの分野の科学論文の電子プレプリントのリポジトリです。 基本的には、これは最新の研究と最先端のアルゴリズムを探すための場所です。 しかし、今日では、すべてに従うことは基本的に不可能であることを毎日追加されたので、多くの新しい記事があります。 Andrej KarpathyがArXiv Sanity Preserverを作成し、最も重要な/関連する論文を除外しようとしたのはそのためです。 さらに、TwitterでarXiv Dailyをフォローして、最も重要な研究記事の毎日のキュレーションされたリストを受け取ることができます。 フレンドリーな警告:つぶやきの数は圧倒的なことができます。

GitHub Awesome Machine Learning

このGitHubリポジトリには、機械学習フレームワーク、ライブラリ、およびソフトウェア全般のキュレーションされたリストが含まれています。 私たちの便宜のために、彼らは言語によってグループ化されています。 さらに、レポには、ブログ、無料の書籍、オンラインコース、会議、ミートアップなどのリストが含まれています。 このリポジトリは間違いなく非常に貴重であり、あなたは利用可能なすべての情報を探索するかなりの時間のために沈むことができます。 お楽しみください!

Twitter

これは非常に主観的なものであり、多くの場合、TwitterはFacebookのようなソーシャルネットワークとして使用されています。 しかし、私はデータサイエンス分野の人々をフォローするために排他的にそれを使用し、クリックbaityコンテンツを避けるようにしてください。 多くの研究者、著者、および他の有名なデータ科学者は、アクティブなTwitterアカウントを持っており、彼らは頻繁に興味深い/関連するコ これは、データサイエンスの新しい開発と”ホットな話題”を最新の状態に保つのに最適な方法です。

フォローする人のリストは、コンピュータビジョンやNLPに使用される深い学習に焦点を当てている場合など、あなたの興味の範囲に大きく依存します。 私はあなたの好きな著者のいくつかから始めることをお勧めします,それは本やMoocであること,その後、リストは自然に成長します,あなたはリツイートを

あなたが興味を持っている場合に備えて、あなたは私がここに従う人々を見つけることができます。

その他の有用なリソース

インターネットはデータサイエンスに関する非常に有用なリソースでいっぱいであるため、上記のリストは決して網羅的ではあ 私は私のトップ10を作っていないが、また素晴らしいですし、私は頻繁にそれらを使用していないいくつかの追加のリソー:

  • KDnuggets
  • AWS Machine Learning Blog
  • PyImageSearch
  • Explained.ai
  • ビジュアルキャピタリスト
  • データは美しい
  • Analytics Vidhya

私は何かが私の心を滑ったり、私は新しい何かを発見した場合に備えてリストを更新し続けます:)

結論

コメントを残す

メールアドレスが公開されることはありません。

lg