Data Vault 2.0 metodik tar inte bara modellering teknik, men ger en hel metod för Alla data Warehouse projekt. Indellient see ’ S Data Vault modellering som en mycket livskraftig metod för att möta behoven hos datalagringsprojekt, där både historisk spårning och granskbarhet är två viktiga faktorer.

under många år har business intelligence (BI) – projekt och fortsätter att fungera under en vattenfallsmodell. Det definieras av en långsträckt sekvens av varje fas som kräver en uttömmande lista över krav på förhand, en komplett datamodelldesign följt av kodifiering av alla hårda och mjuka affärsregler i ETL-processer. Visualiseringsskiktet byggs sekventiellt och presenteras för slutanvändare för utloggning – månader eller till och med år från det ursprungliga startdatumet.

ganska ofta ser vi också att Team antar en” reducerad omfattning ” – version av vattenfall som syftar till att bryta stora BI-initiativ i mindre projekt. Även om detta bidrar till att minska den totala komplexiteten, är detta tillvägagångssätt, när det tillämpas på BI, fortfarande ganska riskabelt på grund av två primära problem:

  • affärskraven förändras nu snabbare än förmågan att leverera;
  • och budgetinnehavare är ovilliga att spendera i långsiktiga projekt utan materialiserade kortsiktiga resultat.

ovanstående skäl är varför vi har sett ett skifte i projektmetoder från Vattenfall till det iterativa smidiga tillvägagångssättet för agile – som känner igen och ger några svar på dessa frågor.

inom data analytics-domänen tar agile inte enbart upp de betydande utmaningar vi möter på de mer detaljerade nivåerna av datalagring eller BI-projekt. Dessa inkluderar:

  • iterating över datamodellering
  • minimera refactoring
  • design av ETL eller ELT rutiner som möjliggör snabb respons på förändringar i affärslogik eller nya tillägg av data
  • ett tillvägagångssätt för att samla affärskrav som nära kommer att binda till den input som krävs för designbeslut

som svar på dessa utmaningar, Daniel linstedt, författare till att bygga skalbart datalager med Data Vault 2.0, definierar en metod som fokuserar på att få ut det mesta av agila metoder med andra beprövade discipliner och tekniker för att leverera det som verkar vara det mest iterativa tillvägagångssättet för BI än.

introduktion Data Vault

tvärtemot vad många tror, Data Vault (DV) är inte bara en modelleringsteknik, det är en hel metod för data warehouse projekt. Det binder samman aspekter av agile, BEAM requirements gathering, CMMI, TQM, Six Sigma och Data Vault modellering för att definiera ett tillvägagångssätt som syftar till att förbättra både hastigheten och kvaliteten på BI-projekt. Jag hänvisar till det som ”guided missile approach” eftersom det främjar både anpassning och noggrannhet.

DV omfattar också agila metoder på DW-projektuppskattning och smidig uppgiftsstorlek för att bestämma den traditionellt förbisedda komplexiteten eller arbetsinsatsen som är involverad i de vanliga DW-komponenterna. På de lägre nivåerna presenterar den också ett mycket kortfattat och iterativt tillvägagångssätt för att ta itu med vanliga tekniska leveranser (inom BI-världen) med nya eller förändrade funktionsförfrågningar. Dessa inkluderar genomtänkta, repeterbara, steg-för-steg och agila baserade processer för att utföra frekventa uppgifter.

dessa uppgifter inkluderar (men är inte begränsade till) att lägga till dataattribut, skivor, nya källor, förstärkta källor, Historisk spårning, avlägsna källor och källstrukturförändringar i både ETL-och Modelleringsfaserna.

DV-modellen är i ett nötskal ett lager som finns mellan vanlig dimensionell modellering (OLAP, stjärnschema) och Staging som ger skalning med växande affärskrav och tjänar till att bryta ner komplexiteten hos både modellering och ETL. Den består av NAV (affärsenheter), länkar (relationer) och satelliter (beskrivande attribut) som modelleras någonstans mellan 3NF-och stjärnschemat. Modellen är placerad inuti dataintegrationsskiktet i datalagret, vanligtvis kallat rådata Vault, och används effektivt i kombination med Kimballs modell.

tips: om du är intresserad av att förstå modellen och dess understrykningsregler föreslår jag att du tar en kopia av dans bok som nämns ovan.

Datavalv 2.0 fördelar

här är en översikt över några viktiga fördelar från Data Vault 2.0-metoden:

  • det förutsätter det värsta scenariot för datamodelleringsrelationer. N: m relationer mellan affärsobjekt för att eliminera behovet av uppdateringar om en 1:M förvandlas till en M:M. därmed kräver praktiskt taget inget ytterligare arbete inom Data Vault när graden av relationen ändras.
  • den är utformad för Historisk spårning av alla aspekter av data – relationer och attribut samt var data kommer från över tiden. Satelliter, som liknar dimensioner, fungerar på samma sätt som SCD typ 2.
  • lägger fram en uppsättning designprinciper & strukturer för att öka Historisk spårningsprestanda inom valvet (grop och Bro). Data Vault-modellen är tillräckligt flexibel för att anta dessa strukturer när som helst inom den iterativa modelleringsprocessen och kräver inte avancerad planering.
  • utformad för att logiskt separera mellanslag som innehåller raw vs. ändrade data. Raw data vault är grunden för data som kan granskas för källsystem och business vault ger en plats för avancerade användare som behöver tillgång till data ett steg ner från informationsmarten.
  • separerar mjuka och hårda affärsregler i olika delar av dataintegrationen. Detta säkerställer återanvändning av data över flera slutanvändningar. Till exempel hämtas rådata endast en gång i Datavalvet (mindre återintegrering i iscensättning) och kan matas flera gånger till nedströmsbehov.
  • för varje smidig iteration är Data Vault-modellen, som lagrar all historisk spårning av data, lätt utbyggbar utan att behöva oroa sig för att förlora historiska data. Historisk spårning lagras också oberoende av den dimensionella modellen.
  • Data Vault 2.0 förespråkar hash nyckel genomförandet av affärsnycklar för att minska uppslagningar och därmed öka lastning parallellisering. Detta resulterar i mindre sekventiella belastningsberoenden.
  • rådata Vault är utformad för att vara helt granskningsbar.
  • som helhet görs behandlingen med att gå från Staging till Star Schema & OLAP mycket smidigare & iterativ med Data Vault.
  • det ger en mycket genomtänkt strategi för att kombinera data med flera olika affärsnycklar från heterogena datakällor (ett vanligt problem med att integrera data i lagret över flera källsystem). Företagsnycklar är inte alltid 1: 1 eller i samma format.
  • modelleringsmentaliteten ”just in time”är en bra matchning med det smidiga tillvägagångssättet.

nackdelarna

även om det finns många fördelar med Data Vault, har det också sina brister, såsom:

  • Data Vault är i huvudsak ett lager mellan informations mart / star schema och iscensättning. Det finns några ytterligare overhead som kommer med att utveckla detta lager både när det gäller ETL-utveckling och modellering. Om projektet är i liten skala eller projektets liv är kortlivat kan det inte vara värt att driva en Datavalvmodell.
  • en av de viktigaste drivfaktorerna bakom att använda Data Vault är för både revision och historisk spårning. Om ingen av dessa är viktiga för dig eller din organisation kan det vara svårt att äta de kostnader som krävs för att införa ett annat lager i din modellering. Men med tanke på långsiktiga krav kan det vara en värdefull investering i förskott.
  • Data Vault representerar ett sönderdelat tillvägagångssätt för relationer, affärsnycklar och attribut och därför är antalet tabeller som skapas högt jämfört med denormaliserade strukturer som stjärnschema. Tänk dock på att Data Vault komplimangerar stjärnschema så denna jämförelse är endast för kontrasterande ändamål. Av denna anledning krävs många kopplingar för att visa data inom DV.
  • vid skrivandet av detta – DV-resurser är begränsade. Komplexa projekt som använder DV 2.0 är inte utbredd information.
  • modelleringsmetoden kan i allmänhet vara mycket okonventionell för dem som har arbetat under Kimball och (mindre) Inmon ’ S modeller.

Ska Du Fortsätta Data Vault?

svaret beror på några variabler.

vi ser datavalvsmodelleringen som ett mycket livskraftigt tillvägagångssätt för att möta behoven hos datalagringsprojekt, där både historisk spårning och granskbarhet är två viktiga faktorer.

dessutom, om relationer mellan affärsenheter ständigt utvecklas i dina data (exempel 1:m till M:M), förenklar Data Vault fångsten av dessa relationer och låter dig fokusera mer på att leverera verkligt värde.

om din organisation planerar att lagra PII-data inom lagret och omfattas av GDPR, HIPPA eller andra regler, kommer Data Vault att hjälpa till med datagranskningar och spårbarhet.

det är viktigt att ta både fördelarna och nackdelarna som anges ovan för att hjälpa till att välja om en Data Vault-metod är fördelaktig för ditt användningsfall.

Lämna ett svar

Din e-postadress kommer inte publiceras.

lg