metodika Data Vault 2.0 bere nejen techniku modelování, ale poskytuje celou metodiku pro všechny projekty datového skladu. Indellient viz je Data Vault modelování jako velmi životaschopný přístup k uspokojení potřeb projektů datových skladů, kde jak Historické sledování a auditovatelnost jsou dva důležité faktory.

Pro mnoho let, business intelligence (BI) projekty a nadále působí pod vodopádem model. Je definováno dlouhá-táhla pořadí každé fáze, která vyžaduje vyčerpávající seznam předem požadavky, kompletní datový model design následuje kodifikuje všechny tvrdé a měkké obchodní pravidla na ETL procesy. Vizualizace vrstva je postupně budována a prezentovány koncovým uživatelům pro znamení off – měsíce nebo dokonce roky od původního data startu.

Poměrně často můžeme také vidět týmy přijmout „snížený rozsah“ verze vodopád, který si klade za cíl rozbít velké BI iniciativy na menší projekty. Zatímco to pomáhá snížit celkovou složitost, tento přístup, když se aplikuje na BI, je stále velmi riskantní, protože dvě hlavní obavy:

  • business požadavky jsou nyní mění rychleji než schopnost dodávat;
  • a cenově držáky jsou ochotni strávit na dlouhodobé projekty bez zhmotnil krátkodobé výsledky.

výše uvedené jsou důvody, proč jsme viděli posun v projektu metodik z vodopádu do iterativní hbité přístup agilní–, který uznává a poskytuje odpovědi na tyto otázky.

v Rámci analytických údajů domény, agilní sám neřeší podstatné problémy se setkáváme na podrobnější úrovně Datových skladů nebo BI projektů. Patří mezi ně:

  • iterace modelování dat
  • minimalizace refactoring
  • navrhování ETL či ELT rutiny, které umožňují rychlou reakci na změny v obchodní logiku nebo nové přírůstky dat
  • přístup na sběr business požadavků, které bude úzce vázat na vstup potřebné pro návrh rozhodnutí

V reakci na tyto výzvy, Daniel Linstedt, autor Budovy Škálovatelný Datový Sklad s Data Vault 2.0, definuje metodiku, která se zaměřuje na získání co nejvíce z agilní osvědčené postupy s jinými obory a techniky, aby dodat to, co se zdá být nejvíce iterativní přístup k BI.

Zavádění Dat Vault

na Rozdíl od všeobecného přesvědčení, Data Vault (DV) není jen technika modelování, je celá metodika pro datový sklad projekty. Spojuje aspekty agile, shromažďování požadavků na paprsek, CMMI, TQM, Six Sigma a modelování datových trezorů a definuje přístup zaměřený na zlepšení rychlosti a kvality BI projektů. Označuji to jako „řízený raketový přístup“, protože podporuje přizpůsobení i přesnost.

DV také zahrnuje agilní metody na DW projektu odhad a agilní úkolem dimenzování určit tradičně přehlížena, složitosti nebo pracovní úsilí zapojeny přes společný DW komponenty. Na nižších úrovních také představuje velmi stručný a iterativní přístup k řešení společných technických výstupů (ve světě BI) s novými nebo měnícími se požadavky na funkce. Patří mezi ně promyšlené, opakovatelné, krok za krokem a agilní procesy založené na provádění častých úkolů.

tyto úkoly zahrnují (ale nejsou omezeny na) přidávání datových atributů, řezů, nových zdrojů, rozšířených zdrojů, historického sledování, zastaralých zdrojů a změn struktury zdrojů ve fázi ETL i modelování.

DV model, v kostce, je vrstva, která existuje mezi pravidelné dimenzionální modelování (OLAP, Star Schema) a Inscenace, která poskytuje měřítka s rostoucí obchodní požadavky a podává se zde rozebrat složitosti obou modelování a ETL. Skládá se z rozbočovačů (podnikatelských subjektů), odkazů (vztahů) a satelitů (popisných atributů), které jsou modelovány někde mezi schématem 3NF a star. Model je umístěn uvnitř integrace dat vrstvy datového skladu, běžně označované jako Raw Data Vault, a je účinně používá v kombinaci s Kimballa model.

Tip: Pokud máte zájem porozumět modelu a jeho podtrhovacím pravidlům, doporučuji popadnout kopii výše uvedené Danovy knihy.

Datový Trezor 2.0 Výhody

Zde je přehled některých klíčových výhod od Data Vault 2.0 Přístup:

  • předpokládá To nejhorší-scénář pro datové modelování vztahů. N:M vztah mezi business objekty eliminovat potřebu aktualizace, pokud o 1:M změní na M:M, Což vyžaduje prakticky žádné další práce v rámci Datové Úschovny, když stupeň vztahu změny.
  • je určen pro historické sledování všech aspektů dat – vztahy a atributy, stejně jako to, kde jsou údaje získávány od průběhu času. Satelity, které jsou podobné rozměrům, fungují podobně jako SCD typu 2.
  • uvádí soubor konstrukčních principů & struktury pro zvýšení historického sledovacího výkonu v klenbě (Jáma a Most). Model Data Vault je dostatečně flexibilní, aby tyto struktury přijal kdykoli v rámci procesu iterativního modelování a nevyžaduje pokročilé plánování.
  • navrženo k logickému oddělení prostorů obsahujících surová vs. změněná data. Raw data vault je základem pro údaje, které je kontrolovatelné, aby zdrojových systémů a business vault poskytuje místo pro uživatele, kteří potřebují přístup k údajům o jeden krok dolů z informací mart.
  • odděluje měkké a tvrdé obchodní pravidla do různých částí integrace dat. To vynucuje opětovnou použitelnost dat v různých koncových použitích. Například surová data jsou získávána pouze jednou v datovém trezoru (méně re-integrace do stagingu)a mohou být přiváděna vícekrát k následným potřebám.
  • pro každou agilní iteraci je model Data Vault, který ukládá veškeré historické sledování dat, snadno rozšiřitelný, aniž by se musel obávat ztráty historických dat. Historické sledování je také uloženo nezávisle na rozměrovém modelu.
  • Data Vault 2.0 obhajuje implementaci klíče hash business ke snížení vyhledávání a tím zvýšení paralelizace načítání. To má za následek méně sekvenční načítání závislostí.
  • surový datový trezor je navržen tak, aby byl zcela auditovatelný.
  • jako celek je zpracování spojené s přechodem z inscenace na Hvězdné schéma & OLAP mnohem plynulejší & iterativní s datovým trezorem.
  • poskytuje velmi promyšlený přístup ke kombinování dat s více různých obchodních klíče z heterogenních datových zdrojů (běžný problém s integrací dat do skladu na více zdrojových systémů). Obchodní klíče nejsou vždy 1: 1 nebo ve stejném formátu.
  • modelovací mentalita „just in time“ je dobrá shoda s agilním přístupem.

Nevýhody

i Když existuje mnoho výhod pro Data Úschovny, má také své nedostatky, jako je:

  • Data Vault je v podstatě vrstva mezi informacemi mart / star schématu a inscenace. S vývojem této vrstvy přichází další režie, a to jak z hlediska vývoje ETL, tak z hlediska modelování. Pokud je projekt v malém měřítku nebo je život projektu krátkodobý,nemusí být vhodné sledovat Model datového trezoru.
  • jedním z hlavních hnacích faktorů za pomocí Data Vault je jak pro účely auditu a historické sledování. Pokud žádný z nich není pro vás nebo vaši organizaci důležitý, může být obtížné jíst režii potřebnou k zavedení další vrstvy do vašeho modelování. Nicméně, když už mluvíme o dlouhodobých požadavcích, může to být výhodná investice předem.
  • Data Vault představuje rozložený přístup ke vztahům, obchodním klíčům a atributům, a proto je počet vytvořených tabulek vysoký ve srovnání s denormalizovanými strukturami, jako je hvězdné schéma. Zvažte však, že Data Vault doplňuje hvězdné schéma, takže toto srovnání je pouze pro kontrastní účely. Z tohoto důvodu je pro zobrazení dat v DV vyžadováno mnoho spojení.
  • v době psaní tohoto – DV zdroje jsou omezené. Komplexní projekty využívající DV 2.0 nejsou rozšířené informace.
  • modelování přístup, obecně, může být velmi netradiční pro ty, kteří působí pod Kimball a (méně) Inmon modely.

Měli Byste Sledovat Data Vault?

odpověď závisí na několika proměnných.

vidíme modelování datového trezoru jako velmi životaschopný přístup k uspokojení potřeb projektů datových skladů, kde historické sledování a auditovatelnost jsou dva důležité faktory.

Navíc, pokud se vztahy mezi podnikatelskými subjekty se neustále vyvíjí v datech (příklad 1:M, M:M ), Data Vault zjednodušuje zachycení těchto vztahů a umožňuje soustředit se více na poskytování skutečnou hodnotu.

pokud vaše organizace plánuje ukládat data PII ve skladu a podléhá GDPR, HIPPA nebo jiným předpisům, Data Vault pomůže s auditem dat a sledovatelností.

To bude důležité, aby se oba výhody a nevýhody uvedené výše, aby pomohli vybrat, zda Data Vault přístup je výhodné pro váš případ použití.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

lg