Data Vault 2.0 methodologie gebruikt niet alleen modelleringstechniek, maar biedt een volledige methodologie voor alle data Warehouse projecten. Indelient see ‘ s the Data Vault modellering als een zeer haalbare aanpak om te voldoen aan de behoeften van data warehousing projecten, waar zowel historische tracking en auditeerbaarheid zijn twee belangrijke factoren.

sinds vele jaren werken business intelligence (BI) – projecten onder een watervalmodel. Het wordt gedefinieerd door een langgerekte opeenvolging van elke fase die een uitputtende lijst van upfront vereisten vereist, een volledig datamodelontwerp gevolgd door het codificeren van alle harde en zachte bedrijfsregels in ETL-processen. De visualisatielaag wordt sequentieel gebouwd en gepresenteerd aan eindgebruikers voor afmelden – maanden of zelfs jaren vanaf de oorspronkelijke startdatum.

vrij vaak zien we ook teams nemen een “beperkte scope” versie van waterval die is gericht op het breken van grote BI-initiatieven in kleinere projecten. Hoewel dit helpt om de algehele complexiteit te verminderen, is deze aanpak, wanneer toegepast op BI, nog steeds vrij riskant vanwege twee primaire zorgen:

  • de zakelijke behoeften veranderen nu sneller dan het vermogen om te leveren;
  • en budgethouders zijn niet bereid om geld uit te geven aan langetermijnprojecten zonder concrete resultaten op korte termijn.

de bovenstaande redenen zijn waarom we een verschuiving hebben gezien in projectmethodologieën van waterval naar de iteratieve wendbare benadering van agile – die deze problemen erkent en enkele antwoorden geeft.

binnen het data analytics domein, Lost agile alleen de belangrijke uitdagingen die we tegenkomen op de meer gedetailleerde niveaus van Data warehousing of BI-projecten niet op. Deze omvatten:

  • itereren op gegevensmodellering
  • minimaliseren van refactoring
  • ontwerpen van ETL-of ELT-routines die een snelle reactie mogelijk maken op veranderingen in de bedrijfslogica of nieuwe toevoegingen van gegevens
  • een aanpak om zakelijke vereisten te verzamelen die nauw verbonden zijn met de input die vereist is voor ontwerpbeslissingen

in antwoord op deze uitdagingen, Daniel Linstedt, auteur van Building Scalable Data Warehouse with Data Vault 2.0, definieert een methodologie die zich richt op het krijgen van het meeste uit agile praktijken met andere bewezen disciplines en technieken om te leveren wat lijkt te zijn de meest iteratieve benadering van BI tot nu toe.

introductie van Data Vault

in tegenstelling tot wat vaak wordt gedacht, is Data Vault (DV) niet alleen een modelleringstechniek, het is een volledige methodologie voor data warehouse-projecten. Het verbindt aspecten van agile, BEAM requirements gathering, CMMI, TQM, Six Sigma en Data Vault modellering om een aanpak te definiëren die gericht is op het verbeteren van zowel de snelheid als de kwaliteit van BI-projecten. Ik noem het de” geleide raketbenadering ” omdat het zowel aanpassing als nauwkeurigheid bevordert.

DV omvat ook agile methoden voor het schatten van DW-projecten en agile taakgrootte om de traditioneel over het hoofd gezien complexiteit of werkinspanning te bepalen die betrokken zijn bij de gemeenschappelijke DW-componenten. Op de lagere niveaus presenteert het ook een zeer beknopte en iteratieve aanpak voor het aanpakken van gemeenschappelijke technische deliverables (binnen de BI-wereld) met nieuwe of veranderende feature requests. Deze omvatten doordachte, herhaalbare, stap-voor-stap en agile gebaseerde processen om frequente taken uit te voeren.

deze taken omvatten (maar zijn niet beperkt tot) het toevoegen van gegevensattributen, slices, nieuwe bronnen, uitgebreide bronnen, historische tracking, verouderde bronnen en veranderingen in de bronstructuur in zowel de ETL-als de Modelleringsfase.

het DV-model, in een notendop, is een laag die bestaat tussen reguliere dimensionale modellering (OLAP, Sterrenschema) en Staging die schaling biedt met groeiende zakelijke vereisten en dient om de complexiteit van zowel de modellering als de ETL af te breken. Het is samengesteld uit hubs (zakelijke entiteiten), links (relaties) en satellieten (beschrijvende attributen) die zijn gemodelleerd ergens tussen de 3NF en star schema. Het model is geplaatst in de data-integratie laag van het Data warehouse, meestal aangeduid als de Raw Data Vault, en wordt effectief gebruikt in combinatie met Kimball ‘ s model.

Tip: als je geïnteresseerd bent in het begrijpen van het model en de onderstreepte regels, stel ik voor om een exemplaar van Dan ‘ s boek hierboven te pakken.

Data Vault 2.0 voordelen

hier is een overzicht van enkele belangrijke voordelen van de Data Vault 2.0-benadering:

  • het gaat uit van het worst-case scenario voor datamodellering relaties. N: M relaties tussen zakelijke objecten om de noodzaak voor updates te elimineren als een 1:M verandert in een M: M. waardoor vrijwel geen extra werk binnen Data Vault wanneer de mate van relatie verandert.
  • het is ontworpen voor historische tracking van alle aspecten van data-relaties en attributen, alsmede waar de gegevens in de loop van de tijd vandaan komen. Satellieten, die vergelijkbaar zijn met afmetingen, werken op dezelfde manier als SCD type 2.
  • geeft een reeks ontwerpprincipes & structuren voor het verbeteren van historische tracking prestaties binnen de kluis (PiT en Brug). Het Data Vault model is flexibel genoeg om deze structuren op elk moment in de iteratieve modellering proces vast te stellen en vereist geen geavanceerde planning.
  • ontworpen om logischerwijs spaties te scheiden die ruwe vs. gewijzigde gegevens bevatten. Raw Data vault is de basis voor data die controleerbaar is voor bronsystemen en de business vault biedt een plek voor ervaren gebruikers die toegang tot gegevens nodig hebben een stap naar beneden van de information mart.
  • verdeelt zachte en harde bedrijfsregels in verschillende delen van de data-integratie. Dit dwingt de herbruikbaarheid van gegevens over meerdere eindgebruiken af. Ruwe gegevens worden bijvoorbeeld slechts eenmaal binnen de Data Vault (minder herintegratie in staging) aangekocht en kunnen meerdere keren worden ingevoerd voor downstream-behoeften.
  • voor elke agile iteratie is het Data Vault-model, dat alle historische tracking van gegevens opslaat, gemakkelijk uitbreidbaar zonder zich zorgen te hoeven maken over het verlies van historische gegevens. Ook historische tracking wordt opgeslagen onafhankelijk van het dimensionale model.
  • Data Vault 2.0 pleit voor hash key implementatie van business keys om lookups te verminderen en dus laadparallellisatie te verhogen. Dit resulteert in minder opeenvolgende laden afhankelijkheden.
  • de onbewerkte gegevenskluis is ontworpen om volledig controleerbaar te zijn.
  • als geheel wordt de verwerking die gepaard gaat met de overgang van Staging naar Star Schema & OLAP veel soepeler & iteratief gemaakt met Data Vault.
  • het biedt een zeer doordachte aanpak voor het combineren van gegevens met meerdere verschillende bedrijfssleutels uit heterogene gegevensbronnen (een veel voorkomend probleem met het integreren van gegevens in het magazijn over meerdere bronsystemen). Zakelijke sleutels zijn niet altijd 1: 1 of in hetzelfde formaat.
  • de “just In time”modellering mentaliteit is een goede match met de agile aanpak.

de nadelen

hoewel Data Vault vele voordelen biedt, heeft het ook zijn tekortkomingen, zoals::

  • Data Vault is in wezen een laag tussen het information mart / star schema en staging. Er is wat extra overhead die wordt geleverd met het ontwikkelen van deze laag, zowel in termen van ETL ontwikkeling en modellering. Als het project op kleine schaal is of het leven van het project van korte duur is, is het misschien niet de moeite waard om een Data Vault-model na te streven.
  • een van de belangrijkste factoren achter het gebruik van Data Vault is voor zowel audit-als historische tracking-doeleinden. Als geen van deze zijn belangrijk voor u of uw organisatie, kan het moeilijk zijn om te eten van de overhead die nodig is om een andere laag te introduceren in uw modellering. Echter, spreken van de lange termijn eisen,het kan een waardevolle investering vooraf.
  • Data Vault vertegenwoordigt een ontbindende benadering van relaties, zakelijke sleutels en attributen en daarom is het aantal tabellen dat wordt gemaakt hoog in vergelijking met gedenormaliseerde structuren zoals sterrenschema. Echter, van mening dat Data Vault complimenten star schema dus deze vergelijking is voor contrasterende doeleinden alleen. Om deze reden zijn veel joins nodig om gegevens binnen de DV te bekijken.
  • op het moment van schrijven van deze – DV bronnen zijn beperkt. Complexe projecten met behulp van DV 2.0 zijn niet wijdverbreide informatie.
  • de modelleringsbenadering kan in het algemeen zeer onconventioneel zijn voor degenen die onder Kimball en (minder-zo) Inmon ‘ s modellen hebben gewerkt.

Moet U Data Vault Nastreven?

het antwoord hangt af van enkele variabelen.

wij zien het modelleren van Data Vault als een zeer haalbare benadering om tegemoet te komen aan de behoeften van datawarehousingprojecten, waarbij zowel historische tracking als auditeerbaarheid twee belangrijke factoren zijn.

bovendien, als relaties tussen zakelijke entiteiten voortdurend evolueren in uw gegevens (voorbeeld 1:M tot M:M), Data Vault vereenvoudigt het vastleggen van die relaties en kunt u zich meer richten op het leveren van echte waarde.

als uw organisatie van plan is om PII-gegevens in het magazijn op te slaan en onderworpen is aan GDPR, HIPPA of andere regelgeving, zal Data Vault helpen met gegevensaudits en traceerbaarheid.

het is belangrijk om zowel de voordelen als de nadelen die hierboven zijn vermeld te gebruiken om te helpen kiezen of een Data Vault-aanpak voordelig is voor uw use case.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

lg