a Data Vault 2.0 módszertan nemcsak modellezési technikát vesz igénybe, hanem teljes módszertant biztosít az összes adattárház projekthez. Indellient see a Data Vault modellezés, mint egy nagyon életképes megközelítés, hogy megfeleljen az igényeinek adattárház projektek, ahol mind a történelmi követési és auditálhatóság két fontos tényező.

az üzleti intelligencia (BI) projektek évek óta vízesés modell szerint működnek és működnek. Ez határozza meg a hosszú kifeszített sorozata minden egyes fázis, amely megköveteli egy kimerítő listát az előzetes követelmények, a teljes adatmodell tervezés, majd kodifikálja az összes kemény és puha üzleti szabályokat ETL folyamatok. A megjelenítési réteg egymás után épül fel, és az eredeti kezdési dátumtól számított hónapokban vagy akár években jelenik meg a végfelhasználók számára.

elég gyakran azt is látjuk, hogy a csapatok elfogadják a vízesés” csökkentett hatókörű ” változatát, amelynek célja a nagy BI kezdeményezések kisebb projektekre bontása. Bár ez segít csökkenteni az Általános összetettséget, ez a megközelítés, ha a BI-re alkalmazzák, két elsődleges szempont miatt még mindig meglehetősen kockázatos:

  • az üzleti követelmények most gyorsabban változnak, mint a teljesítési képesség;
  • és a költségvetés tulajdonosai nem hajlandók hosszú távú projektekre költeni, rövid távú eredmények nélkül.

a fenti okok miatt láthattuk a projekt módszertanának elmozdulását a waterfall – ról az agile iteratív fürge megközelítésére-amely felismeri és választ ad ezekre a kérdésekre.

az adatelemzés területén belül az agile önmagában nem foglalkozik azokkal a jelentős kihívásokkal, amelyekkel az adattárház vagy a BI projektek részletesebb szintjén találkozunk. Ezek a következők:

  • az adatmodellezés ismétlése
  • a refaktorálás minimalizálása
  • olyan ETL vagy ELT rutinok tervezése, amelyek lehetővé teszik az üzleti logika változásaira vagy az adatok új kiegészítésére való gyors reagálást
  • az üzleti követelmények összegyűjtésének megközelítése, amely szorosan kapcsolódik a tervezési döntésekhez szükséges bemenethez

válaszul ezekre a kihívásokra, Daniel linstedt, a skálázható adattárház építése az adattárolóval 2.0, meghatároz egy módszertant, amely arra összpontosít, hogy a legtöbbet hozza ki az agilis gyakorlatokból más bevált tudományágakkal és technikákkal, hogy a BI-hez még a leginkább iteratív megközelítést biztosítsa.

Introducing Data Vault

a közhiedelemmel ellentétben a Data Vault (DV) nem csak modellezési technika, hanem az adattárház projektek teljes módszertana. Ez köti össze szempontjait agile, BEAM követelmények összegyűjtése, CMMI, TQM, Six Sigma és Data Vault modellezés, hogy meghatározza a megközelítés javítását célzó mind a sebesség és a minőség a BI projektek. “Irányított rakéta megközelítésnek” nevezem, mivel elősegíti mind az alkalmazkodást, mind a pontosságot.

a DV magában foglalja a DW projekt becslésének és az agilis feladatméretezésnek az agilis módszereit is, hogy meghatározza a közös DW komponensek hagyományosan figyelmen kívül hagyott összetettségét vagy munkaerejét. Az alacsonyabb szinteken is nagyon tömör és iteratív megközelítést mutat be a közös műszaki eredmények kezelésére (a BI világában) új vagy változó szolgáltatáskérésekkel. Ezek közé tartoznak az átgondolt, megismételhető, lépésről lépésre és agilis alapú folyamatok a gyakori feladatok elvégzéséhez.

ezek a feladatok magukban foglalják (de nem kizárólagosan) az adatattribútumok, szeletek, új források, kibővített források hozzáadását, a történeti nyomon követést, az elavult források és a forrásszerkezet megváltoztatását mind az ETL, mind a modellezési szakaszban.

a DV modell dióhéjban egy olyan réteg, amely a rendszeres dimenziós modellezés (OLAP, Csillagséma) és a Staging között létezik, amely a növekvő üzleti igényeknek megfelelő skálázást biztosít, és mind a modellezés, mind az ETL összetettségét lebontja. Hubokból (üzleti entitásokból), linkekből (kapcsolatokból) és műholdakból (leíró attribútumokból) áll, amelyeket valahol a 3NF és a csillag séma között modelleznek. A modell az adattárház adatintegrációs rétegén belül helyezkedik el, amelyet általában nyers Adattárolónak neveznek, és hatékonyan használják a Kimball modelljével kombinálva.

Tipp: Ha érdekli a modell és az aláhúzási szabályok megértése, azt javaslom, hogy ragadjon meg egy példányt Dan fent említett könyvéből.

Adattároló 2.0 előnyök

itt található a Data Vault 2.0 megközelítés néhány kulcsfontosságú előnyének áttekintése:

  • az adatmodellezési kapcsolatok legrosszabb esetét feltételezi. N: M kapcsolatok az üzleti objektumok között, hogy kiküszöböljük a frissítések szükségességét, ha a 1:M átalakul M: M. ezáltal gyakorlatilag nincs szükség további munkára az adattárolóban, amikor a kapcsolat mértéke megváltozik.
  • az adatkapcsolatok és attribútumok minden aspektusának történeti nyomon követésére szolgál, valamint arra, hogy az adatok honnan származnak az idő múlásával. A méretekhez hasonló műholdak hasonlóan működnek, mint az SCD Type 2.
  • kialakít egy sor tervezési alapelvet & struktúrák a történelmi követési teljesítmény növelésére a boltozaton belül (gödör és híd). Az adattároló modell elég rugalmas ahhoz, hogy ezeket a struktúrákat az iteratív modellezési folyamat bármely pontján alkalmazza, és nem igényel fejlett tervezést.
  • úgy tervezték, hogy logikusan elkülönítse a nyers és a megváltozott adatokat tartalmazó tereket. A nyers adattároló a forrásrendszerek számára ellenőrizhető adatok alapja, az üzleti tároló pedig helyet biztosít azoknak az energiafelhasználóknak, akiknek az adatokhoz való hozzáférésre egy lépéssel lejjebb van szükségük az információs piactól.
  • a puha és kemény üzleti szabályokat az adatintegráció különböző részeire osztja. Ez kikényszeríti az adatok újrafelhasználhatóságát több végfelhasználás során. Például a nyers adatok csak egyszer kerülnek az Adattárolóba (kevesebb újraintegrálás a szakaszba), és többször is továbbíthatók a downstream igényekhez.
  • minden agilis iterációhoz a Data Vault modell, amely az összes korábbi adatkövetést tárolja, könnyen bővíthető anélkül, hogy aggódnia kellene a történelmi adatok elvesztése miatt. Ezenkívül a történelmi követést a dimenziós modelltől függetlenül tárolják.
  • a Data Vault 2.0 támogatja az üzleti kulcsok hash kulcsának megvalósítását a keresések csökkentése és ezáltal a betöltési párhuzamosság növelése érdekében. Ez kevesebb szekvenciális betöltési függőséget eredményez.
  • a nyers adattárolót úgy tervezték, hogy teljesen ellenőrizhető legyen.
  • összességében, a feldolgozás részt megy Staging csillag séma & OLAP sokkal simábban & iteratív Data Vault.
  • nagyon átgondolt megközelítést kínál az adatok kombinálására több különböző üzleti kulccsal heterogén adatforrásokból (gyakori probléma az adatok raktáron belüli integrálásával több forrásrendszeren keresztül). Az üzleti kulcsok nem mindig 1:1 vagy ugyanabban a formátumban vannak.
  • a “just In time”modellezési mentalitás jól illeszkedik az agilis megközelítéshez.

a hátrányok

bár számos előnye van a Data Vault-nak, hiányosságai is vannak, például:

  • a Data Vault lényegében egy réteg az információs mart / star séma és a staging között. Van néhány további költség, amely ennek a rétegnek a fejlesztésével jár mind az ETL fejlesztése, mind a modellezés szempontjából. Ha a projekt kis léptékű, vagy a projekt élettartama rövid, előfordulhat, hogy nem érdemes Data Vault modellt folytatni.
  • a Data Vault használatának egyik fő mozgatórugója mind az audit, mind a történeti nyomon követés. Ha ezek egyike sem fontos Önnek vagy szervezetének, akkor nehéz lehet megenni azt a rezsit, amely egy másik réteg bevezetéséhez szükséges a modellezésbe. A hosszú távú követelmények alapján azonban érdemes befektetés lehet előre.
  • a Data Vault a kapcsolatok, üzleti kulcsok és attribútumok lebontott megközelítését képviseli, ezért a létrehozandó táblák száma magas a denormalizált struktúrákhoz, például a csillagsémához képest. Azonban úgy vélik, hogy a Data Vault bókokat csillag séma, így ez az összehasonlítás ellentétes célokra csak. Emiatt sok csatlakozásra van szükség az adatok megtekintéséhez a DV – n belül.
  • az írás idején – a DV erőforrások korlátozottak. A DV 2.0-t használó komplex projektek nem széles körben elterjedt információk.
  • a modellezési megközelítés általában nagyon szokatlan lehet azok számára, akik Kimball és (kevésbé) Inmon modelljei alatt működtek.

Érdemes-E Folytatni Az Adattárolót?

a válasz néhány változótól függ.

az adattároló modellezést nagyon életképes megközelítésnek tekintjük az adattárolási projektek igényeinek kielégítésére, ahol mind a történeti nyomon követés, mind az auditálhatóság két fontos tényező.

Továbbá, ha az üzleti vállalkozások közötti kapcsolatok folyamatosan fejlődnek az adatokban (1.példa:M-M:M ), A Data Vault leegyszerűsíti a kapcsolatok rögzítését, és lehetővé teszi, hogy jobban összpontosítson a valós érték biztosítására.

ha szervezete a személyes adatok raktárban történő tárolását tervezi, és a GDPR, a HIPPA vagy más előírások hatálya alá tartozik, a Data Vault segít az adatok ellenőrzésében és nyomon követhetőségében.

fontos figyelembe venni a fent felsorolt előnyöket és hátrányokat annak eldöntéséhez, hogy az adattároló megközelítés előnyös-e a használati esethez.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.

lg