La méthodologie Data Vault 2.0 prend non seulement une technique de modélisation, mais fournit une méthodologie complète pour tous les projets d’entrepôt de données. La modélisation du coffre de données d’Indelient see est une approche très viable pour répondre aux besoins des projets d’entreposage de données, où le suivi historique et la vérifiabilité sont deux facteurs importants.

Pendant de nombreuses années, les projets de business intelligence (BI) fonctionnent et continuent de fonctionner selon un modèle en cascade. Il est défini par une séquence longue de chaque phase qui exige une liste exhaustive d’exigences initiales, une conception complète du modèle de données suivie de la codification de toutes les règles métier rigides et souples dans les processus ETL. La couche de visualisation est construite séquentiellement et présentée aux utilisateurs finaux pendant des mois, voire des années, à compter de la date de début d’origine.

Assez souvent, nous voyons également des équipes adopter une version « à portée réduite » de waterfall qui vise à diviser les grandes initiatives de BI en projets plus petits. Bien que cela contribue à réduire la complexité globale, cette approche, lorsqu’elle est appliquée à la BI, reste assez risquée en raison de deux préoccupations principales:

  • les besoins opérationnels évoluent maintenant plus vite que la capacité de livrer;
  • et les détenteurs de budget ne sont pas disposés à dépenser dans des projets à long terme sans résultats matérialisés à court terme.

Les raisons ci-dessus expliquent pourquoi nous avons assisté à un changement des méthodologies de projet, passant de la cascade à l’approche agile itérative d’agile – qui reconnaît et apporte des réponses à ces problèmes.

Dans le domaine de l’analyse de données, agile ne répond pas à lui seul aux défis importants que nous rencontrons aux niveaux plus détaillés de l’entreposage de données ou des projets de BI. Ceux-ci incluent:

  • itérer sur la modélisation des données
  • minimiser la refactorisation
  • conception de routines ETL ou ELT qui permettent une réponse rapide aux changements de logique métier ou aux nouveaux ajouts de données
  • une approche de collecte des exigences métier qui sera étroitement liée à l’entrée requise pour les décisions de conception

En réponse à ces défis , Daniel Linstedt, auteur de Building Scalable Data Warehouse avec Data Vault 2.0, définit une méthodologie qui vise à tirer le meilleur parti des pratiques agiles avec d’autres disciplines et techniques éprouvées pour fournir ce qui semble être l’approche la plus itérative de la BI à ce jour.

Présentation de Data Vault

Contrairement à la croyance populaire, Data Vault (DV) n’est pas seulement une technique de modélisation, c’est une méthodologie complète pour les projets d’entrepôt de données. Il associe les aspects de l’agilité, de la collecte des exigences de FAISCEAU, de la CMMI, du TQM, du Six Sigma et de la modélisation de la Voûte de données pour définir une approche visant à améliorer à la fois la vitesse et la qualité des projets de BI. Je l’appelle « approche par missile guidé » car elle favorise à la fois l’adaptation et la précision.

DV englobe également les méthodes agiles d’estimation de projet DW et de dimensionnement des tâches agiles pour déterminer la complexité ou l’effort de travail traditionnellement négligés dans les composants DW courants. Aux niveaux inférieurs, il présente également une approche très concise et itérative pour aborder les livrables techniques communs (dans le monde de la BI) avec des demandes de fonctionnalités nouvelles ou changeantes. Ceux-ci incluent des processus réfléchis, reproductibles, étape par étape et agiles pour accomplir des tâches fréquentes.

Ces tâches comprennent (sans s’y limiter) l’ajout d’attributs de données, de tranches, de nouvelles sources, de sources augmentées, le suivi de l’historique, la dépréciation des sources et les modifications de la structure des sources aux phases ETL et de modélisation.

Le modèle DV, en un mot, est une couche qui existe entre la modélisation dimensionnelle régulière (OLAP, schéma en étoile) et la mise en scène qui fournit une mise à l’échelle avec des exigences métier croissantes et sert à décomposer les complexités de la modélisation et de l’ETL. Il est composé de hubs (entités commerciales), de liens (relations) et de satellites (attributs descriptifs) qui sont modélisés quelque part entre le schéma 3NF et star. Le modèle est positionné à l’intérieur de la couche d’intégration de données de l’entrepôt de données, communément appelé Coffre de données brutes, et est efficacement utilisé en combinaison avec le modèle de Kimball.

Conseil: Si vous souhaitez comprendre le modèle et ses règles de soulignement, je vous suggère de vous procurer un exemplaire du livre de Dan mentionné ci-dessus.

Coffre de données 2.0 Avantages

Voici un aperçu de certains avantages clés de l’approche Data Vault 2.0:

  • Il suppose le pire scénario pour les relations de modélisation de données. Relations N: M entre les objets métier pour éliminer le besoin de mises à jour si un 1: M se transforme en un M: M. Cela ne nécessite pratiquement aucun travail supplémentaire dans Data Vault lorsque le degré de relation change.
  • Il est conçu pour le suivi historique de tous les aspects des relations et des attributs des données, ainsi que de l’origine des données au fil du temps. Les satellites, qui sont similaires aux dimensions, fonctionnent de manière similaire au type SCD 2.
  • Met en avant un ensemble de principes de conception & structures pour augmenter les performances de suivi historique dans la Voûte (fosse et pont). Le modèle Data Vault est suffisamment flexible pour adopter ces structures à tout moment du processus de modélisation itérative et ne nécessite pas de planification avancée.
  • Conçu pour séparer logiquement les espaces contenant des données brutes par rapport aux données modifiées. Le coffre-fort de données brutes est la base des données vérifiables pour les systèmes sources et le coffre-fort d’entreprise fournit un endroit pour les utilisateurs expérimentés qui ont besoin d’accéder aux données un cran plus bas que le marché de l’information.
  • Sépare les règles métier soft et hard en différentes parties de l’intégration des données. Cela impose la réutilisabilité des données pour plusieurs utilisations finales. Par exemple, les données brutes ne sont extraites qu’une seule fois dans le coffre de données (moins de ré-intégration dans le stockage intermédiaire) et peuvent être alimentées plusieurs fois aux besoins en aval.
  • Pour chaque itération agile, le modèle Data Vault, qui stocke tout le suivi historique des données, est facilement extensible sans avoir à craindre de perdre des données historiques. En outre, le suivi historique est stocké indépendamment du modèle dimensionnel.
  • Data Vault 2.0 préconise l’implémentation de clés de hachage des clés métier pour réduire les recherches et donc augmenter la parallélisation de chargement. Il en résulte moins de dépendances de chargement séquentielles.
  • Le coffre de données brutes est conçu pour être entièrement vérifiable.
  • Dans son ensemble, le traitement impliqué pour passer du Staging au schéma en étoile & OLAP est rendu beaucoup plus fluide & itératif avec Data Vault.
  • Il fournit une approche très réfléchie pour combiner des données avec plusieurs clés métier différentes provenant de sources de données hétérogènes (un problème courant lors de l’intégration de données dans l’entrepôt sur plusieurs systèmes sources). Les clés professionnelles ne sont pas toujours 1:1 ou dans le même format.
  • La mentalité de modélisation « juste à temps » correspond bien à l’approche agile.

Les inconvénients

Bien qu’il y ait de nombreux avantages à Data Vault, il a également ses inconvénients, tels que:

  • Le coffre-fort de données est essentiellement une couche entre le schéma de marché d’informations /étoile et la mise en scène. Il y a une surcharge supplémentaire qui vient avec le développement de cette couche à la fois en termes de développement ETL et de modélisation. Si le projet est à petite échelle ou que sa durée de vie est de courte durée, il peut ne pas être utile de poursuivre un modèle de coffre de données.
  • L’un des principaux facteurs de l’utilisation de Data Vault est à la fois à des fins d’audit et de suivi historique. Si aucun de ces éléments n’est important pour vous ou votre organisation, il peut être difficile d’absorber les frais généraux nécessaires pour introduire une autre couche dans votre modélisation. Cependant, en parlant d’exigences à long terme, il peut s’agir d’un investissement intéressant dès le départ.
  • Data Vault représente une approche décomposée des relations, des clés métier et des attributs et, par conséquent, le nombre de tables créées est élevé par rapport aux structures dénormalisées telles que le schéma en étoile. Cependant, considérez que Data Vault complète le schéma en étoile, donc cette comparaison est uniquement à des fins contrastées. Pour cette raison, de nombreuses jointures sont nécessaires pour afficher les données dans le DV.
  • Au moment de la rédaction de this –DV, les ressources sont limitées. Les projets complexes utilisant DV 2.0 ne sont pas des informations répandues.
  • L’approche de modélisation, en général, peut être très peu conventionnelle pour ceux qui ont travaillé sous les modèles de Kimball et (moins) d’Inmon.

Devriez-Vous Poursuivre Data Vault?

La réponse dépend de quelques variables.

Nous considérons la modélisation du coffre de données comme une approche très viable pour répondre aux besoins des projets d’entreposage de données, où le suivi historique et la vérifiabilité sont deux facteurs importants.

De plus, si les relations entre les entités commerciales évoluent constamment dans vos données (exemple 1:M à M:M), Data Vault simplifie la capture de ces relations et vous permet de vous concentrer davantage sur la création de valeur réelle.

Si votre organisation prévoit de stocker des données PII au sein de l’entrepôt et est soumise au RGPD, à l’HIPPA ou à d’autres réglementations, Data Vault vous aidera dans les audits et la traçabilité des données.

Il sera important de prendre en compte les avantages et les inconvénients énumérés ci-dessus pour vous aider à choisir si une approche Data Vault est avantageuse pour votre cas d’utilisation.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

lg