Data Vault2.0メソドロジは、モデリング手法だけでなく、すべてのデータウェアハウスプロジェクトのメソドロジ全体を提供します。 Indellient seeのData Vaultモデリングは、履歴追跡と監査の両方が二つの重要な要因であるデータウェアハウスプロジェクトのニーズを満たすための非常に実行可能なア

長年にわたり、ビジネスインテリジェンス(BI)プロジェクトはウォーターフォールモデルの下で運営されており、継続しています。 これは、先行要件の網羅的なリスト、完全なデータモデル設計、すべてのハードおよびソフトビジネスルールをETLプロセスに成文化することを要求する各 視覚化レイヤーは、最初の開始日から数ヶ月または数年前まで、順番に構築され、エンドユーザーに表示されます。

大規模なBIイニシアチブを小規模なプロジェクトに分割することを目的としたwaterfallの”縮小範囲”バージョンを採用することもよくあります。 これは全体的な複雑さを軽減するのに役立ちますが、このアプローチをBIに適用すると、2つの主な懸念のために依然として非常に危険です:

  • ビジネス要件は現在、提供する能力よりも速く変化しています。
  • と予算保有者は、短期的な結果が具体化されていない長期的なプロジェクトに費やすことを望んでいません。

上記の理由は、プロジェクトの方法論がウォーターフォールからアジャイルの反復的な軽快なアプローチにシフトしたことを見てきた理由です。

データ分析ドメイン内では、アジャイルだけでは、より詳細なレベルのデータウェアハウスまたはBIプロジェクトで発生する重要な課題に対処しません。 これらは次のとおりです:

  • データモデリングの反復
  • リファクタリングの最小化
  • ビジネスロジックの変更やデータの新規追加に迅速に対応できるETLまたはELTルーチンの設計
  • 設計決定に必要な入力に密接に関連するビジネス要件を収集するアプローチ

これらの課題に対応して、Daniel Linstedt氏は、Data Vault2を使用したスケーラブルなデータウェアハウスの構築の著者です。0は、他の実績のある分野や技術でアジャイルプラクティスを最大限に活用し、BIに対する最も反復的なアプローチと思われるものを提供することに焦点を当てた方法論を定義しています。

Data Vaultの導入

一般的な信念に反して、Data Vault(DV)は単なるモデリング技術ではなく、データウェアハウスプロジェクトの全体的な方法論です。 Agile、BEAM requirements gathering、CMMI、TQM、Six Sigma、Data Vaultモデリングの側面を結合して、BIプロジェクトの速度と品質の両方を向上させることを目的としたアプローチを定義します。 それは適応と正確さの両方を促進するので、私はそれを”誘導ミサイルアプローチ”と呼んでいます。

DVには、dwプロジェクトの推定とアジャイルタスクサイジングに関するアジャイルメソッドも含まれており、従来見過ごされていた複雑さや共通のDWコンポーネ 下位レベルでは、新規または変更された機能要求を使用して(BIの世界内で)一般的な技術的成果物に取り組むための非常に簡潔で反復的なアプロー これらは頻繁な仕事を達成するために考え抜かれた、反復可能な、段階的および敏捷な基づかせていたプロセスを含んでいる。

これらのタスクには、ETLフェーズとモデリングフェーズの両方で、データ属性、スライス、新しいソース、拡張ソース、履歴追跡、ソースの非推奨、ソース構造の変更の追加が含まれます(ただし、これらに限定されません)。

DVモデルは、一言で言えば、正規次元モデリング(OLAP、スタースキーマ)とステージングの間に存在するレイヤーであり、成長するビジネス要件をスケーリングし、モデ これは、ハブ(ビジネスエンティティ)、リンク(関係)、および3NFとスタースキーマの間のどこかでモデル化された衛星(記述属性)で構成されています。 このモデルは、一般に生データボールトと呼ばれるデータウェアハウスのデータ統合レイヤー内に配置され、Kimballのモデルと組み合わせて効果的に使用されます。

ヒント:モデルとその下線ルールを理解することに興味がある場合は、上記のDanの本のコピーを入手することをお勧めします。

データ保管庫2.0利点

ここでは、Data Vault2.0アプローチの主な利点の概要を示します:

  • これは、データモデリング関係の最悪のシナリオを前提としています。 N:mビジネスオブジェクト間のリレーションシップ1:MがM:Mに変わった場合に更新の必要性を排除するため、リレーションシップの程度が変更されたときにData Vault内で実質的に追加の作業を必要としません。
  • これは、データの関係と属性のすべての側面だけでなく、データが時間の経過とともにソースされている場所を履歴追跡するために設計されています。 次元に類似した衛星は、SCDタイプ2と同様に動作する。
  • は、格納域(ピットとブリッジ)内の履歴追跡性能を向上させるための一連の設計原則&構造を示しています。 Data Vaultモデルは、反復モデリングプロセス内の任意の時点でこれらの構造を採用するのに十分な柔軟性があり、高度な計画を必要としません。
  • 生のデータと変更されたデータを含むスペースを論理的に分離するように設計されています。 生データボールトは、ソースシステムに対して監査可能なデータの基礎であり、ビジネスボールトは、情報マートから一歩下のデータへのアクセスを必要とするパワーユー
  • は、ソフトなビジネスルールとハードなビジネスルールをデータ統合のさまざまな部分に分離します。 これにより、複数の最終用途にわたるデータの再利用性が強制されます。 たとえば、生データはデータボールト内で一度だけ供給され(ステージングへの再統合は少なく)、下流のニーズに複数回供給することができます。
  • アジャイルイテレーションごとに、データのすべての履歴追跡を格納するData Vaultモデルは、履歴データの損失を心配することなく簡単に拡張できます。 また、履歴追跡は次元モデルとは独立して保存されます。
  • Data Vault2.0は、ルックアップを減らし、ロード並列化を増やすために、ビジネスキーのハッシュキー実装を提唱しています。 これにより、順次ロードの依存関係が少なくなります。
  • 生データボールトは完全に監査可能に設計されています。
  • 全体として、ステージングからスタースキーマ&OLAPへの移行に伴う処理は、Data Vaultを使用してはるかにスムーズに&反復処理が行われます。
  • これは、異種データソースからの複数の異なるビジネスキーとデータを結合するための非常に考え抜かれたアプローチを提供します(複数のソースシステム間で ビジネスキーは常に1:1または同じ形式ではありません。
  • “ジャストインタイム”モデリングの考え方は、アジャイルアプローチと良いマッチです。

欠点

Data Vaultには多くの利点がありますが、次のような欠点もあります:

  • Data Vaultは、基本的に情報マート/スタースキーマとステージングの間の層です。 ETLの開発とモデリングの両方の面でこの層を開発することに伴う追加のオーバーヘッドがあります。 プロジェクトの規模が小さい場合や、プロジェクトの寿命が短い場合は、Data Vaultモデルを追求する価値がない可能性があります。
  • Data Vaultを使用する主な要因の1つは、監査と履歴の追跡の両方を目的としています。 これらのいずれもあなたやあなたの組織にとって重要でない場合は、モデリングに別のレイヤーを導入するために必要なオーバーヘッドを食べること しかし、長期的な要件から言えば、それは先行価値のある投資かもしれません。
  • Data Vaultは、リレーションシップ、ビジネスキー、および属性に対する分解されたアプローチを表しているため、スタースキーマなどの非正規化構造と比較して作成 ただし、Data Vaultはstar schemaを補完するため、この比較は対照的な目的のみを目的としていると考えてください。 このため、DV内のデータを表示するには多くの結合が必要です。
  • これを書いている時点では–DVリソースは限られています。 DV2.0を使用した複雑なプロジェクトは、広範な情報ではありません。
  • モデリングアプローチは、一般的に、Kimballと(それほどではない)Inmonのモデルの下で動作している人にとっては非常に型破りなものになる可能性があります。

あなたはデータボールトを追求すべきですか?

答えはいくつかの変数に依存します。

データボールトモデリングは、履歴追跡と監査の両方が重要な要素であるデータウェアハウスプロジェクトのニーズを満たすための非常に実行可能なア

さらに、ビジネスエンティティ間の関係がデータ内で絶えず進化している場合(例1:MからM:M)、Data Vaultはそれらの関係のキャプチャを簡素化し、真の価値

あなたの組織が倉庫内にPIIデータを保存することを計画しており、GDPR、HIPPAまたはその他の規制の対象となっている場合、Data Vaultはデータ監査とトレーサビリティ

データボルトアプローチがユースケースに有利かどうかを選択するために、上記の利点と欠点の両方を取ることが重要です。

コメントを残す

メールアドレスが公開されることはありません。

lg