データサイエンスのトピックと分野が今日の最もホットなビジネスポイントのいくつかであることは間違いありません。
データアナリストやビジネスインテリジェンスの専門家は、データスキルや知識の向上を目指すだけでなく、マーケティング担当者、Cレベルのマネージャー、フィナンシェなども目指しています。
データワールドは、データサイエンスやデータマイニング、機械学習、人工知能、ニューラルネットワークなどの数学や統計のトピックをカバーする広い分野です。
このページでは、データサイエンスの基本的なトピックと高度なトピックを収集し、あなたのスキルを習得するためのアイデアを提供しました。
また、彼らはあなたがデータサイエンスの就職の面接の質問のために自分自身を準備するための方向として使用することができ、ホットな科目です。
1. データマイニングプロセスの中核
これは、幅広いデータサイエンスのトピックの例です。
何ですか?
データマイニングは、大規模なデータセットのパターンを検出する反復プロセスです。 これには、機械学習、統計、データベースシステムなどの方法と技術が含まれています。
二つの主要なデータマイニングの目的は、問題を解決するために、パターンを見つけ、データセット内の傾向と関係を確立することです。
データマイニングプロセスの一般的な段階は、問題の定義、データ探索、データ準備、モデリング、評価、および展開です。
データマイニングに関連するコア用語は、分類、予測、関連ルール、データ削減、データ探索、教師ありおよび教師なし学習、データセットの構成、データセットからのサ
2. データ可視化
それは何ですか?
データビジュアライゼーションとは、データをグラフィカルな形式で表示することです。
すべてのレベルの意思決定者が視覚的に提示されたデータと分析を見ることができるので、貴重なパターンや傾向を特定することができます。
データの可視化は、基本的なタイプのグラフ(折れ線グラフ、棒グラフ、散布図、ヒストグラム、ボックスおよびウィスカープロット、ヒートマップなど)の理解と使
これらのグラフがなければ行くことはできません。 さらに、ここでは、変数を追加し、色、サイズ、形状、アニメーションを使用して多次元変数について学ぶ必要があります。
操作もここで役割を果たしています。 あなたは、rascal、ズーム、フィルタ、集計データをすることができるはずです。
マップチャートやツリーマップなどの特殊な視覚化を使用することもホットなスキルです。
3. 次元縮小の方法と技法
それは何ですか?
次元削減プロセスでは、広大な次元を持つデータセットを、より小さな次元を持つデータセットに変換し、同様の情報を簡単に提供することができます。
つまり、次元削減は、確率変数の数を減少させるための機械学習と統計における一連の技術と方法で構成されています。
次元縮小を実行するには、非常に多くの方法と技術があります。
それらの中で最も人気があるのは、欠損値、低分散、決定木、ランダムフォレスト、高相関、因子分析、主成分分析、後方特徴除去です。
4. 分類
それは何ですか?
分類は、一連のデータにカテゴリを割り当てるためのコアデータマイニング手法です。
目的は、データから正確な分析と予測を収集することを支援することです。
分類は、大量のデータセットの分析を効果的に行うための重要な方法の一つです。
分類も最もホットなデータサイエンスのトピックの1つです。 データサイエンティストは、分類アルゴリズムを使用してさまざまなビジネス上の問題を解決する方法を知っている必要があります。
これには、分類問題の定義、一変量および二変量可視化によるデータの探索、データの抽出と準備、分類モデルの構築、モデルの評価などの方法が含まれます。 線形分類器と非線形分類器は、ここで重要な用語の一部です。
5. 単純かつ重回帰
それは何ですか?
線形回帰モデルは、独立変数XとY従属変数の間の関係を研究するための基本的な統計モデルの一つです。
Xの異なる値に応じてYの値の予測と予後を行うことができる数学的モデリングです。
線形回帰には主に二つのタイプがあります。
重要なポイントここでは、相関係数、回帰線、残差プロット、線形回帰方程式などの用語があります。 最初は、いくつかの簡単な線形回帰の例を参照してください。
6. K-最近傍(k-NN)
それは何ですか?
N-nearest-neighborは、データポイントが1つのグループのメンバーである可能性を評価するデータ分類アルゴリズムです。 それは、データポイントがそのグループにどれくらい近いかによって異なります。
回帰と分類に使用される重要なノンパラメトリック法の一つとして、k-NNは史上最高のデータサイエンストピックの一つに分類することができます。
近傍を決定し、分類規則を使用して、kを選択することは、データ科学者が持つべきスキルのいくつかです。 K-nearest neighborは、キーテキストマイニングおよび異常検出アルゴリズムの1つでもあります。
7. Naive Bayes
それは何ですか?
Naive Bayesは、いわゆるベイズの定理に基づく分類アルゴリズムの集合である。
機械学習で広く使用されているNaive Bayesは、スパム検出や文書分類などの重要なアプリケーションをいくつか持っています。
素朴なベイズのバリエーションがあります。 それらの中で最も一般的なのは、多項単純ベイズ、ベルヌーイ単純ベイズ、および二値化多項単純ベイズです。
8. 分類と回帰木(CART)
それは何ですか?
予測モデリング機械学習のアルゴリズムに関しては、デシジョンツリーアルゴリズムが重要な役割を果たしています。
デシジョンツリーは、データマイニング、統計、機械学習で使用される最も一般的な予測モデリングアプローチの1つで、ツリーの形で分類または回帰モデ
カテゴリデータと連続データの両方で機能します。
この分野で習得すべき用語やトピックには、CART決定木方法論、分類木、回帰木、対話型dihotomiser、C4.5、C5.5、決定切り株、条件付き決定木、M5などがあります。
9. ロジスティック回帰
それは何ですか?
ロジスティック回帰は、最も古いデータサイエンスのトピックと分野の一つであり、線形回帰として、信頼できる変数と独立変数の関係を研究しています。
しかし、従属変数が二分性(バイナリ)であるロジスティック回帰分析を使用します。
シグモイド関数、S字型曲線、カテゴリ説明変数を持つ多重ロジスティック回帰、カテゴリと連続予測子の組み合わせを持つ多重バイナリロジスティック回帰などの用語に直面するでしょう。
10.
ニューラルネットワークは、今日の機械学習の総ヒットとして機能します。 ニューラルネットワーク(人工ニューラルネットワークとも呼ばれます)は、人間の脳のニューロンの動作を模倣するハードウェアおよび/またはソフ
人工ニューロンのシステムを作成する主な目的は、いくつかのデータパターンを学習し、分類、回帰、予測などの関数を実行するように訓練できるシステム
ニューラルネットワークは、複雑な信号処理やパターン認識の問題を解決するために使用される一種の深層学習技術です。 ここでの重要な用語は、ニューラルネットワーク、パーセプトロン、逆伝播、ホップフィールドネットワークの概念と構造に関す
上記は、データ科学の基礎的なトピックの一部でした。 ここでは、より興味深く、高度なトピックのリストです:
11. 判別分析
12. 関連ルール
13. クラスター分析
14. 時系列
15. 回帰ベースの予測
16. 平滑化方法
17. タイムスタンプと金融モデリング
18. 不正検知
19. データエンジニアリング–Hadoop、MapReduce、Pregel。
20.