データモデリングは、多くの場合、データサイエンスの中核です。 しかし、データサイエンスはモデリングだけに限定されるものではありません。 データモデリングは、完全なデータサイエンスパイプラインのわずか20%です。 データから「価値」を抽出するためには、(現実世界の問題を解決するための)動機づけと、データ科学者の指針となるビジネス領域の知識を備えて、データを収集、

比喩的には、データサイエンスは魔法(予測する)と控除(比較と解釈する)のようなものです。 意欲的なデータサイエンティストとして、あなたは自動魔法の結果を予測し、あなたのデータ内の以前に未知の傾向やパターンを識別する能力を持ってい

これがデータサイエンスのパイプラインの出番です。

“データサイエンスパイプラインの仕組み”を理解することは、現実世界の問題を解決するための第一歩です。

この記事では、エンドユーザーがすぐに使用できる製品を構築するために必要なデータサイエンスパイプラインの手順について説明します。

  1. 問題の理解

問題があるか、データサイエンスの使用を開始する前に問題文を定義する必要があります。 まず、解決しようとしている問題を定義して理解する必要があります。 実用的な洞察力や製品は、問題のあなたの理解と同じくらい良いことができます。

問題を分析するには、ドメインまたはビジネスを完全に理解する必要があります。

データサイエンスパイプラインの終わりまでに構築しようとするモデルは、手元の問題に完全に依存します。 さまざまな要件と目的のために、アルゴリズムを調整する必要があります。 フリーサイズのアプローチは機能しません。

シナリオの例:たとえば、eコマースポータル用の推奨エンジンを構築しているとします。 目的は、プラットフォーム上のすべての新しい訪問者に製品を推薦することです。 ビジネス目標は、初めての訪問者にプラットフォーム上で最大の時間を費やして最初の注文をすることです。 しかし、新規訪問者と帰国訪問者の両方のためのシステムを構築する場合、それは役に立たない。 また、レコメンデーションエンジンが、新しい訪問者がさまざまな製品を探索して最初の注文を行う方法のパターンを特定できない場合、ビジネス組織に このため、有用なデータサイエンス製品を構築するためには、問題とドメインを理解することが重要です。

2. データ収集

データは、問題の理解に基づいて収集されます。 データ収集は面倒で時間のかかるプロセスです。 それは忍耐、エネルギー、そして時間を要求します。

より多くのデータを使用すると、より堅牢なモデルを構築することができます。

信頼性の高いモデルを構築するためには、正確なデータに取り組むことが最も重要です。 データポイントの外れ値が多すぎると、最も洗練されたモデルでさえ失敗する運命にあります。

シナリオの例:初めての訪問者に関連するデータセットと、主要なイベントとアクションを収集します。 たとえば、彼らがクリックした場所や、プラットフォーム上のさまざまな製品をどのように探索するかを追跡します。 訪問者を返すデータを使用すると、データにノイズが追加されます。

必要なスキル:

リレーショナルおよび非リレーショナルデータベースのクエリ:MySQL、PostgresSQL、MongoDB

分散ストレージ:Hadoop、Apache Spark

非構造化データの取得:テキスト、画像、ビデオ、オーディ データクリーニング

データサイエンスパイプラインのこのフェーズは、一般的に最も時間と労力を必要とします。 データサイエンスモデルの結果と出力は、データに入力したデータと同じくらい優れています。 PythonやRなどのスクリプト言語は、データのクリーニングに使用されます。

収集されたデータは検査され、スクラブされ、構造化された形式で保存されます。 重要な目的は、このフェーズでできるだけ多くのノイズを除去することであり、ドメインの知識とビジネス上の問題の理解は、外れ値の識別と除去に役

このようにしてクリーンアップしたデータは、次のステップで探索的なデータ分析とモデリングに使用されます。

シナリオの例:ノイズを追加し、ビジネスニーズに縛られていないすべてのデータを削除する必要があります。 データを調べるときは、破損したレコード、エラー、および欠損値を識別する必要があります。 スクラブ中に、エラーまたは欠損値を持つデータセットは破棄、置換、または埋められます。必要なスキル:

スクリプト言語:PythonまたはR

データラングリングツール:Python Pandas,R

4. 探索的データ分析

今、あなたが利用可能なクリーンなデータを持っていることを、それはそれを探索する時間です!

このフェーズでの目標は、洞察を抽出し、データから隠されたパターンを特定し、それらをビジネスと解決する必要がある特定の問題にマッピングするこ

前の手順と同様に、ドメインをよく理解することは、データに関連する有用な情報や洞察を発見する可能性が高い方向にデータ分析を導くのに役立ちま

シナリオ例: ステップ1で説明した例では、eコマース市場の季節的な傾向を理解していることに基づいて、夏期に初めてwebサイトを訪問した人の半分が冷蔵庫を

探索的なデータ分析の間に、奇妙なパターンや興味深いパターン/傾向を見つける感覚を実際に開発する必要があります。

可視化ツールは、チャートや可視化を通じてパターンを抽出するのに役立ちます。

分析に基づいて、必要に応じて、この段階で新しいフィーチャを作成することができます。探索的データ分析に使用される一般的な可視化ライブラリには、PythonのMatplotlib、Seaborn、Numpy、Pandas、Scipy、RのGgplot2などがあります。

5。 データモデリング

さて、機械学習と深層学習アルゴリズムを使用して問題を解決する時が来ました。 これは、データサイエンスパイプライン全体の中で最もエキサイティングな段階です。

さまざまな方法/アルゴリズムがテストされています。 (予測分析の観点から)最高のパフォーマンスを提供する方法が選択されます。 モデルは何回も精製され、評価される。

モデルの予測力は、使用するフィーチャの品質によって異なります。

シナリオの例:レコメンデーションエンジンのデータモデルでは、特定のキッチン家電、食料品、グルーミング製品の組み合わせから少なくとも1つのアイテ

Scikit-learn(Python)およびCARET(R)ライブラリは、機械学習モデルを構築するために使用できます。 現在利用可能なさまざまな深層学習フレームワークの中で、Keras/TensorFlowは深層学習モデルの構築に使用できます。 フレームワークを選択する前に、さまざまな側面で比較します。

6. デプロイメント

モデルの準備ができたので、エンドユーザーがアクセスできるようにします。

モデルはスケーラブルである必要があります。 新しいデータが利用可能になると、モデルを再評価して更新することができます。

最後の言葉

データサイエンスパイプラインが最初から最後までしっかりしていることが重要です。 各ステップは重要です。

コメントを残す

メールアドレスが公開されることはありません。

lg