metodologia Data Vault 2.0 ia nu numai tehnica de modelare, dar oferă o întreagă metodologie pentru toate proiectele de depozit de date. Indellient see ‘ s modelarea seifului de date ca o abordare foarte viabilă pentru a satisface nevoile proiectelor de depozitare a datelor, unde atât urmărirea istorică, cât și auditabilitatea sunt doi factori importanți.

timp de mulți ani, proiectele de business intelligence (BI) au și continuă să funcționeze sub un model de cascadă. Este definit de o secvență lungă a fiecărei faze care necesită o listă exhaustivă a cerințelor inițiale, un design complet al modelului de date urmat de codificarea tuturor regulilor de afaceri dure și moi în procesele ETL. Stratul de vizualizare este construit secvențial și prezentat utilizatorilor finali pentru semnare – luni sau chiar ani de la data inițială de începere.

destul de des vedem, de asemenea, că echipele adoptă o versiune „cu scop redus” A waterfall, care își propune să spargă inițiativele mari de BI în proiecte mai mici. Deși acest lucru ajută la reducerea complexității generale, această abordare, atunci când este aplicată BI, este încă destul de riscantă din cauza a două preocupări principale:

  • cerințele de afaceri se schimbă acum mai repede decât capacitatea de a livra;
  • și deținătorii de buget nu sunt dispuși să cheltuiască în proiecte pe termen lung, fără rezultate concretizate pe termen scurt.

motivele de mai sus sunt motivele pentru care am văzut o schimbare în metodologiile proiectului de la cascadă la abordarea iterativă agilă a agile – care recunoaște și oferă câteva răspunsuri la aceste probleme.

în domeniul analizei datelor, agile singur nu abordează provocările semnificative pe care le întâlnim la nivelurile mai detaliate ale depozitelor de date sau ale proiectelor BI. Acestea includ:

  • iterarea peste modelarea datelor
  • minimizarea refactorizării
  • proiectarea rutinelor ETL sau ELT care permit un răspuns rapid la schimbările logicii de afaceri sau la noi adăugiri de date
  • o abordare a Adunării cerințelor de afaceri care se va lega strâns de intrarea necesară pentru deciziile de proiectare

ca răspuns la aceste provocări, Daniel linstedt, autorul construirii unui depozit de date scalabil cu data vault 2.0, definește o metodologie care se concentrează pe obținerea la maximum a practicilor agile cu alte discipline și tehnici dovedite pentru a oferi ceea ce pare a fi cea mai iterativă abordare a BI încă.

introducerea Data Vault

contrar credinței populare, Data Vault (DV) nu este doar o tehnică de modelare, este o întreagă metodologie pentru proiectele de depozit de date. Acesta leagă împreună aspecte ale agile, colectarea cerințelor fasciculului, CMMI, TQM, Six Sigma și modelarea seifului de date pentru a defini o abordare orientată spre îmbunătățirea atât a vitezei, cât și a calității proiectelor de BI. Mă refer la aceasta ca la „abordarea rachetelor ghidate”, deoarece promovează atât adaptarea, cât și precizia.

DV cuprinde, de asemenea, metode agile privind estimarea proiectului DW și dimensionarea sarcinilor agile pentru a determina complexitatea sau efortul de lucru tradițional neglijat implicat în componentele comune DW. La nivelurile inferioare, prezintă, de asemenea, o abordare foarte concisă și iterativă pentru abordarea livrabilelor tehnice comune (în lumea BI) cu cereri de caracteristici noi sau în schimbare. Acestea includ procese gândite, repetabile, pas cu pas și agile pentru a îndeplini sarcini frecvente.

aceste sarcini includ (dar nu se limitează la) adăugarea de atribute de date, felii, noi surse, surse augmentate, urmărire istorică, deprecierea surselor și modificări ale structurii sursei atât în ETL, cât și în fazele de modelare.

modelul DV, pe scurt, este un strat care există între modelarea dimensională regulată (OLAP, schema stelară) și stadializarea care oferă scalare cu cerințe de afaceri în creștere și servește la descompunerea complexităților atât ale modelării, cât și ale ETL. Este compus din hub-uri (entități de afaceri), legături (relații) și sateliți (atribute descriptive) care sunt modelate undeva între schema 3NF și star. Modelul este poziționat în interiorul stratului de integrare a datelor din depozitul de date, denumit în mod obișnuit Seiful de date brute și este utilizat în mod eficient în combinație cu modelul lui Kimball.

Sfat: Dacă sunteți interesat să înțelegeți modelul și regulile sale de subliniere, vă sugerez să luați o copie a Cărții lui Dan menționate mai sus.

Seiful De Date 2.0 beneficii

Iată o prezentare generală a unor beneficii cheie din abordarea Data Vault 2.0:

  • acesta presupune cel mai rău caz pentru relațiile de modelare a datelor. N: m relațiile dintre obiectele de afaceri pentru a elimina necesitatea actualizărilor dacă un 1:M se transformă într-un M: M. necesitând astfel practic nicio lucrare suplimentară în seiful de date atunci când gradul de relație se schimbă.
  • este conceput pentru urmărirea istorică a tuturor aspectelor relațiilor și atributelor de date, precum și de unde provin datele de – a lungul timpului. Sateliții, care sunt similari cu dimensiunile, funcționează similar cu SCD Type 2.
  • prezintă un set de principii de proiectare & structuri pentru creșterea performanței istorice de urmărire în boltă (groapă și pod). Modelul seifului de date este suficient de flexibil pentru a adopta aceste structuri în orice moment în cadrul procesului de modelare iterativă și nu necesită o planificare avansată.
  • conceput pentru a separa logic spațiile care conțin date brute vs.modificate. Raw data vault este baza pentru datele care pot fi auditate la sistemele sursă, iar business vault oferă un loc pentru utilizatorii de putere care au nevoie de acces la date cu un pas în jos de la information mart.
  • separă regulile de afaceri soft și hard în diferite părți ale integrării datelor. Acest lucru impune reutilizarea datelor în mai multe utilizări finale. De exemplu, datele brute sunt obținute o singură dată în seiful de date (mai puțin reintegrate în stadializare) și pot fi alimentate de mai multe ori la nevoile din aval.
  • pentru fiecare iterație agilă, Modelul seifului de date, care stochează toată urmărirea istorică a datelor, este ușor extensibil fără a fi nevoie să vă faceți griji cu privire la pierderea datelor istorice. De asemenea, urmărirea istorică este stocată independent de modelul dimensional.
  • Data Vault 2.0 susține implementarea cheii hash a cheilor de afaceri pentru a reduce căutările și, prin urmare, pentru a crește paralelizarea încărcării. Acest lucru duce la mai puține dependențe de încărcare secvențiale.
  • Seiful de date brute este conceput pentru a fi complet auditabil.
  • ca un întreg, prelucrarea implicat cu trecerea de la înscenare la schema stea & OLAP se face mult mai lin & iterativ cu bolta de date.
  • oferă o abordare foarte gândită pentru combinarea datelor cu mai multe chei de afaceri diferite din surse de date eterogene (o problemă comună cu integrarea datelor în depozit în mai multe sisteme sursă). Cheile de afaceri nu sunt întotdeauna 1:1 sau în același format.
  • mentalitatea de modelare „tocmai la timp”se potrivește bine cu abordarea agilă.

dezavantajele

deși există multe avantaje pentru bolta de date, are și neajunsurile sale, cum ar fi:

  • Seiful de date este în esență un strat între schema information mart / star și stadializarea. Există unele aeriene suplimentare, care vine cu dezvoltarea acestui strat, atât în ceea ce privește dezvoltarea ETL și modelare. Dacă proiectul este la scară mică sau viața proiectului este de scurtă durată, este posibil să nu merite urmărirea unui model de seif de date.
  • unul dintre principalii factori care determină utilizarea seifului de date este atât în scopuri de audit, cât și în scopuri de urmărire istorică. Dacă niciuna dintre acestea nu este importantă pentru dvs. sau organizația dvs., poate fi dificil să mâncați cheltuielile necesare pentru a introduce un alt strat în modelarea dvs. Cu toate acestea, vorbind de la cerințele pe termen lung, poate fi o investiție utilă în avans.
  • Seiful de date reprezintă o abordare descompusă a relațiilor, cheilor de afaceri și atributelor și, prin urmare, numărul de tabele create este ridicat în comparație cu structurile denormalizate, cum ar fi schema stelară. Cu toate acestea, luați în considerare faptul că seiful de date complimentează schema de stele, astfel încât această comparație este doar pentru scopuri contrastante. Din acest motiv, multe se alătură sunt necesare pentru a vizualiza date în DV.
  • la momentul scrierii acestui – resursele DV sunt limitate. Proiectele complexe care utilizează DV 2.0 nu sunt informații răspândite.
  • abordarea modelării, în general, poate fi foarte neconvențională pentru cei care au funcționat sub modelele Kimball și (mai puțin) Inmon.

Ar Trebui Să Urmăriți Seiful De Date?

răspunsul depinde de câteva variabile.

vedem modelarea seifului de date ca o abordare foarte viabilă pentru a satisface nevoile proiectelor de depozitare a datelor, unde atât urmărirea istorică, cât și auditabilitatea sunt doi factori importanți.

în plus, dacă relațiile dintre entitățile de afaceri evoluează constant în datele dvs. (Exemplul 1:de la M la M:M ), Data Vault simplifică captarea acestor relații și vă permite să vă concentrați mai mult pe furnizarea de valoare reală.

dacă organizația dvs. intenționează să stocheze date PII în depozit și este supusă GDPR, HIPPA sau altor reglementări, Data Vault vă va ajuta cu auditurile și trasabilitatea datelor.

va fi important să luați atât avantajele, cât și dezavantajele enumerate mai sus pentru a vă ajuta să alegeți dacă o abordare a seifului de date este avantajoasă pentru cazul dvs. de utilizare.

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg